语音处理方法、装置、电子设备和存储介质与流程

专利2026-06-07 3

本申请涉及人工智能领域，尤其涉及一种语音处理方法、装置、电子设备和存储介质。

背景技术：

1、在运营商客服文本摘要领域，随着大数据和自然语言处理技术的不断发展，越来越多的运营商开始面临大量的信息处理任务。这些信息可能来自用户服务热线、在线聊天记录、社交媒体评论、网络故障报告等多个渠道。

2、例如，在客服人员与用户的语音通话结束后，可以对历史语音记录进行离线分析处理，但是，这种方式实时性较差，难以满足对用户的实时服务需求，用户体验较差。

技术实现思路

1、本申请提供一种语音处理方法、装置、电子设备和存储介质，用以提升客服人员的实时回复效率和准确率。

2、第一方面，本申请实施例提供一种语音处理方法，包括：

3、在用户和客服人员的通话过程中，采集所述用户和客服人员对应的实时语音流，并对所述实时语音流进行文本识别，得到目标文本信息；

4、将所述目标文本信息输入到摘要提取模型，得到对应的文本摘要；

5、根据所述文本摘要确定用户当前的需求信息；

6、根据所述需求信息生成对应的推荐回复信息，并将所述推荐回复信息提示给客服人员，以使所述客服人员根据所述推荐回复信息通过语音对用户进行回复。

7、可选的，将所述目标文本信息输入到摘要提取模型，得到对应的文本摘要，包括：

8、确定所述实时语音流中的当前说话人；

9、在当前说话人为用户、且检测到实时语音流中出现超过预设时长的停顿时，将当前得到的目标文本信息输入到摘要提取模型，得到对应的文本摘要。

10、可选的，对所述实时语音流进行文本识别，得到目标文本信息，包括：

11、对所述实时语音流进行文本识别，得到初始文本信息；

12、将所述初始文本信息输入文本处理模型中，得到目标文本信息，所述文本处理模型用于对所述初始文本信息进行纠错，以及对纠错后的初始文本信息进行预处理，所述预处理包括下述至少一项：词性标注、实体识别、句法分析和语义分析；

13、其中，所述词性标注用于指示标记每个词语的词性；所述实体识别用于指示识别出实体信息；所述句法分析用于指示分析每一句子的结构以及句子之间的关系；所述语义分析用于指示分析句子含义。

14、可选的，对所述实时语音流进行文本识别，得到初始文本信息，包括：

15、将所述实时语音流分别输入预设的多个语音转文本模型中，得到多个待选择文本信息；所述语音转文本模型用于根据语音流确定对应的文本信息；

16、根据所述多个待选择文本信息，基于投票机制或者加权平均法，确定所述初始文本信息。

17、可选的，所述方法还包括：

18、获取多个领域中各领域对应的训练样本，其中，针对每一领域，所述领域对应的训练样本包括：所述领域的多个历史语音流；

19、针对每一领域的训练样本，利用所述领域的训练样本对初始的语音转文本模型进行训练，得到所述领域对应的语音转文本模型；所述语音转文本模型用于根据语音流确定对应的文本信息；

20、相应的，对所述实时语音流进行文本识别，得到初始文本信息，包括：

21、确定所述实时语音流对应的目标领域；所述目标领域为所述多个领域中的一个；

22、将所述实时语音流输入所述目标领域对应的语音转文本模型中，得到所述初始文本信息。

23、可选的，所述方法还包括：

24、利用基于召回率的摘要评估rouge指标对待评估的摘要提取模型的性能进行评估，得到评估结果；所述rouge指标包括下述至少一项：单个词语重叠指标rouge-1、两个词语重叠指标rouge-2和最长公共子序列重叠指标rouge-l；

25、所述将所述目标文本信息输入到摘要提取模型，包括：将所述目标文本信息输入到评估结果满足预设条件的摘要提取模型；

26、所述rouge-1用于衡量单个词的重叠，所述rouge-2用户衡量两个词的重叠，所述rouge-l用于衡量最长公共子序列的重叠。

27、可选的，在得到初始文本信息之后，所述方法还包括：

28、确定所述实时语音流对应的重要等级；

29、在所述重要等级大于预设等级时，将所述实时语音流对应的初始文本信息发送给审核端，以使审核端对所述初始文本信息进行展示，以便审核人员对所述初始文本信息进行审核；

30、获取所述审核端发送的审核后的初始文本信息；

31、对审核后的初始文本信息进行敏感信息识别；

32、对识别到的敏感信息进行处理，得到处理后的初始文本信息；

33、相应的，将所述初始文本信息输入文本处理模型中，包括：

34、将处理后的初始文本信息输入文本处理模型中。

35、第二方面，本申请实施例提供一种语音处理装置，包括：

36、采集模块，用于在用户和客服人员的通话过程中，采集所述用户和客服人员对应的实时语音流，并对所述实时语音流进行文本识别，得到目标文本信息；

37、得到模块，用于将所述目标文本信息输入到摘要提取模型，得到对应的文本摘要；

38、确定模块，用于根据所述文本摘要确定用户当前的需求信息；

39、生成模块，用于根据所述需求信息生成对应的推荐回复信息，并将所述推荐回复信息提示给客服人员，以使所述客服人员根据所述推荐回复信息通过语音对用户进行回复。

40、第三方面，本申请实施例提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

41、所述存储器存储计算机执行指令；

42、所述处理器执行所述存储器存储的计算机执行指令，以实现上述任一方面所述的方法。

43、第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述任一方面所述的方法。

44、本申请提供的语音处理方法、装置、电子设备和存储介质，所述方法包括：在用户和客服人员的通话过程中，采集所述用户和客服人员对应的实时语音流，并对所述实时语音流进行文本识别，得到目标文本信息；将所述目标文本信息输入到摘要提取模型，得到对应的文本摘要；根据所述文本摘要确定用户当前的需求信息；根据所述需求信息生成对应的推荐回复信息，并将所述推荐回复信息提示给客服人员，以使所述客服人员根据所述推荐回复信息通过语音对用户进行回复，通过对语音信息高效、准确、实时的处理，可以更智能化、更快速地分析出用户需求信息，并根据用户需求信息生成对应的推荐回复信息，可以提升客服人员回复的效率和准确性。

技术特征：

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述目标文本信息输入到摘要提取模型，得到对应的文本摘要，包括：

3.根据权利要求1所述的方法，其特征在于，对所述实时语音流进行文本识别，得到目标文本信息，包括：

4.根据权利要求3所述的方法，其特征在于，对所述实时语音流进行文本识别，得到初始文本信息，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求3所述的方法，其特征在于，在得到初始文本信息之后，所述方法还包括：

8.一种语音处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的方法。

技术总结
本申请提供一种语音处理方法、装置、电子设备和存储介质，其中方法包括：在用户和客服人员的通话过程中，采集所述用户和客服人员对应的实时语音流，并对所述实时语音流进行文本识别，得到目标文本信息；将所述目标文本信息输入到摘要提取模型，得到对应的文本摘要；根据所述文本摘要确定用户当前的需求信息；根据所述需求信息生成对应的推荐回复信息，并将所述推荐回复信息提示给客服人员，以使所述客服人员根据所述推荐回复信息通过语音对用户进行回复。通过对语音信息高效、准确、实时的处理，可以更智能化、更快速地分析出用户需求信息，并根据用户需求信息生成对应的推荐回复信息，可以提升客服人员回复的效率和准确性。

技术研发人员：徐锐,王焕珑,张润民,朱亚莉,陆文斌,郝宝亚,董博,董群吉,姚辉茹,刘亚娟,温国涛
受保护的技术使用者：中国联合网络通信集团有限公司
技术研发日：
技术公布日：2024/4/29

转载请注明原文地址:https://wp.8miu.com/read-97497.html

专利

最新回复(0)