本申请涉及人工智能技术领域和语音通话技术领域,特别是涉及一种控制语音机器人响应的方法、装置、设备和存储介质。
背景技术:
随着人工智能技术的发展,出现了很多机器人替代人工的场景。语音机器人,则为一种常用的智能机器人,能够代替人工客服与用户进行通话,从而执行部分客服事务。比如,使用语音机器人进行外呼通话属于较为常见的场景。外呼通话,即指通过语音机器人主动呼叫用户,建立语音通话。
传统方法中,语音机器人只会按照预设的固定流程,通过播放固定的语音来与用户进行通话。然而,针对语音机器人播放的相同的语音内容,不同的用户有不同的反应,所以,统一按照单一固定的语音来响应用户会过于局限,导致机器人的响应准确性。因此,传统方法响应准确性较低是亟待解决的问题。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种能够提高响应准确性的控制语音机器人响应的方法、装置、计算机设备和存储介质。
一种控制语音机器人响应的方法,所述方法包括:
在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集;
根据语音采集结果,确定当前的通话状态场景类型;所述通话状态场景类型,用于表征所述用户终端所对应的用户和所述语音机器人在语音通话中所处的状态;
获取与所述通话状态场景类型对应的机器人响应方案;
按照所述机器人响应方案,控制所述语音机器人进行响应。
在其中一个实施例中,所述对所述用户终端进行语音采集,包括:
从检测到所述用户终端的初始语音信号起开始记录语音数据,直至连续预设时长内未检测到所述用户终端的语音信号后停止,得到所记录的语音数据。
在其中一个实施例中,所述根据语音采集结果,确定当前的通话状态场景类型,包括:
将采集的语音数据转换为文本内容;
解析所述文本内容,确定当前的通话状态场景类型。
在其中一个实施例中,所述解析所述文本内容,确定当前的通话状态场景类型,包括:
若所述文本内容为空,则判定当前的通话状态场景类型为静默场景;
所述获取与所述通话状态场景类型对应的机器人响应方案,包括:
获取与所述静默场景对应的用户状态确认语音;
所述按照所述机器人响应方案,控制所述语音机器人进行响应,包括:
控制所述语音机器人播放所述用户状态确认语音。
在其中一个实施例中,所述方法还包括:
获取所述语音机器人的通话状态;
所述解析所述文本内容,确定当前的通话状态场景类型,包括:
若所述文本内容不为空、且所述语音机器人的通话状态为播音状态,则判定当前的通话状态场景类型为异常打断场景。
在其中一个实施例中,所述获取与所述通话状态场景类型对应的机器人响应方案,包括:
对所述语音机器人处于播音状态时所播放的语音进行预设标签检测处理;
根据标签检测结果,判断所播放的语音是否允许被打断;
若所播放的语音允许被打断,则获取与异常打断场景对应的停止播音方案;
若所播放的语音不允许被打断,则获取与异常打断场景对应的维持播放方案。
在其中一个实施例中,所述对所述语音机器人处于播音状态时所播放的语音进行预设标签检测处理,包括:
确定所播放的语音所位于的语音文件;
检测所述语音文件是否携带所述连续播放标签;
所述根据标签检测结果,判断所播放的语音是否允许被打断,包括:
若检测到携带所述连续播放标签,判定所播放的语音不允许被打断;
若未检测到携带所述连续播放标签,判定所播放的语音允许被打断。
在其中一个实施例中,所述若未检测到携带所述连续播放标签,判定所播放的语音允许被打断,包括:
若未检测到携带所述连续播放标签,则确定所述语音机器人当前在所播放的语音中所播放至的时间节点;
检测在所述时间节点下的语音内容是否携带禁止中断标签;
若未携带所述禁止中断标签,则判定所播放的语音允许被打断;
所述方法还包括:
若携带所述禁止中断标签,则判定所播放的语音不允许被打断。
在其中一个实施例中,所述解析所述文本内容,确定当前的通话状态场景类型,包括:
若所述语音机器人不处于播音状态、且所述文本内容不为空,则
对所述文本内容进行重复内容分析;
若分析得到所述文本内容在预设时间段内存在连续重复的内容,则判定当前的通话状态场景类型为赘述场景;
所述按照所述机器人响应方案,控制所述语音机器人进行响应,包括:
控制所述语音机器人,播放与所述赘述场景对应的主动打断语音。
在其中一个实施例中,所述根据语音采集结果,确定当前的通话状态场景类型,包括:
若所述用户的语音信号消失、但在预设时长内又重新检测到所述用户的语音信号,则判定当前的通话状态场景类型为长句等待场景;
所述获取与所述通话状态场景类型对应的机器人响应方案,包括:
将重新检测之前采集的语音信号和重新检测后采集的语音信号拼接;
将拼接后的语音信号转换为文本内容;
对所述文本内容进行语义识别,并获取与语义识别结果对应的应答信息;
将所述应答信息转换为应答语音。
在其中一个实施例中,所述根据语音采集结果,确定当前的通话状态场景类型,包括:
检测采集的语音信号的信号强度;若所述信号强度低于预设阈值,则判定当前的通话状态场景类型为听不清场景;
或者,
检测所述采集的语音信号的连续性;
若连续性检测结果为信号间断不连续,则判定当前的通话状态场景类型为听不清场景。
一种控制语音机器人响应的装置,所述装置包括:
语音采集模块,用于在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集;
通话状态场景识别模块,用于根据语音采集结果,确定当前的通话状态场景类型;所述通话状态场景类型,用于表征所述用户在当前与所述语音机器人之间的通话状态;
机器人响应模块,用于获取与所述通话状态场景类型对应的机器人响应方案;按照所述机器人响应方案,控制所述语音机器人进行响应。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集;
根据语音采集结果,确定当前的通话状态场景类型;所述通话状态场景类型,用于表征所述用户终端所对应的用户和所述语音机器人在语音通话中所处的状态;
获取与所述通话状态场景类型对应的机器人响应方案;
按照所述机器人响应方案,控制所述语音机器人进行响应。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集;
根据语音采集结果,确定当前的通话状态场景类型;所述通话状态场景类型,用于表征所述用户终端所对应的用户和所述语音机器人在语音通话中所处的状态;
获取与所述通话状态场景类型对应的机器人响应方案;
按照所述机器人响应方案,控制所述语音机器人进行响应。
上述控制语音机器人响应的方法、装置、计算机设备和存储介质,在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集。根据语音采集结果,确定当前的通话状态场景类型,其中,所述通话状态场景类型,用于表征所述用户终端所对应的用户和所述语音机器人在语音通话中所处的状态。因而,可以按照与所述通话状态场景类型对应的机器人响应方案,控制所述语音机器人进行响应。从而实现针对不同通话状态场景,控制机器人灵活地进行不同响应,提高了对语音机器人响应控制的准确性。
附图说明
图1为一个实施例中控制语音机器人响应的方法的应用环境图;
图2为一个实施例中控制语音机器人响应的方法的流程示意图;
图3为一个实施例中控制语音机器人响应的方法的流程示意图;
图4为一个实施例中控制语音机器人响应的方法的流程示意图;
图5为一个实施例中控制语音机器人响应的方法的流程示意图;
图6为一个实施例中控制语音机器人响应的方法的流程示意图;
图7为一个实施例中控制语音机器人响应的装置的结构框图;
图8为另一个实施例中控制语音机器人响应的装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的控制语音机器人响应的方法,可以应用于如图1所示的应用环境中。其中,呼叫平台102通过网络与用户终端104进行通信。呼叫平台102中的智能机器人可以与用户终端之间进行语音通话。其中,用户终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。呼叫平台102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。语音机器人是呼叫平台中的智能呼叫及应答模块,能够在语音通话中自动与用户进行语音对话。呼叫平台102可以是主动向用户终端发起呼叫的外呼平台,也可以是接收用户终端发起的呼叫的平台,对此不作限定。
呼叫平台102在语音机器人与用户终端104的语音通话过程中,对用户终端104进行语音采集。呼叫平台102可以根据语音采集结果,确定当前的通话状态场景类型。呼叫平台104可以获取与通话状态场景类型对应的机器人响应方案,并按照机器人响应方案,控制语音机器人进行响应。若语音机器人有产生应答语音,则可以将应答语音传输至用户终端102中。
需要说明的是,图1仅是示意说明,在其他实施例中,语音机器人还可以是独立的计算机设备(比如,具备语音通话能力的人形仿真机器人),而并不限定于呼叫平台中的一个智能模块,可以由语音机器人自身和用户终端之间进行通信。那么,本申请各实施例中的控制语音机器人响应的方法可以由语音机器人自身执行。
在一个实施例中,如图2所示,提供了一种控制语音机器人响应的方法,以该方法应用于图1中的呼叫平台为例进行说明,包括以下步骤:
步骤202,在语音机器人与用户终端的语音通话过程中,对用户终端进行语音采集。
其中,语音机器人,是呼叫平台中的、且能够与用户终端中的用户进行自主通话的人工智能机器人。
具体地,语音机器人可以与用户终端之间建立语音通话,在语音通话过程中,呼叫平台可以对用户终端进行语音采集,以采集用户终端侧的用户的语音数据。
在一个实施例中,呼叫平台可以为外呼平台,则外呼平台中的语音机器人可以主动向用户终端发起呼叫,以与用户终端之间建立语音通话。在语音通话过程中,该语音机器人可以对用户终端进行语音采集,以采集用户终端侧的用户的语音数据。在其他实施例中,也可以是呼叫平台中的语音采集设备对用户终端进行语音采集。
在一个实施例中,呼叫平台也可以是接收用户终端发起的呼叫的平台。即,用户终端主动向呼叫平台发起呼叫请求,以与呼叫平台中应答的语音机器人之间建立语音通话。可以理解,该实施例中的语音机器人则相当于具备语音通话功能的人工智能客服。
步骤204,根据语音采集结果,确定当前的通话状态场景类型。
其中,通话状态场景类型,是指通话状态场景的类型。
通话状态,是指所述用户终端所对应的用户和所述语音机器人在语音通话中所处的状态,比如,通话中用户所处的状态,或者,语音机器人所处的状态,与传统的信号好坏所表示的通话状态不同。
在一个实施例中,通话状态场景类型,可以包括静默场景、异常打断场景、赘述场景、长句等待场景以及听不清场景等中的至少一种。比如,赘述场景,表示用户在通话中处于赘述状态。
在一个实施例中,呼叫平台可以直接根据语音采集结果中的语音数据,确定当前的通话状态场景类型。具体地,呼叫平台可以根据语音数据中的语音波形,确定当前的通话状态场景类型。
在一个实施例中,呼叫平台也可以将语音采集结果进行文本转换后,识别当前的通话状态场景类型。
步骤206,获取与通话状态场景类型对应的机器人响应方案。
其中,机器人响应方案,是指机器人在语音通话过程中,针对从用户终端采集的语音进行响应的方案。
在一个实施例中,机器人响应方案可以包括停止播音方案、维持播放方案、主动打断方案、以及生成应答语音的方案等中的至少一种。
具体地,呼叫平台中预先针对不同的通话状态场景类型设置了相应的机器人响应方案。呼叫平台可以查找与所确定的通话状态场景类型对应的机器人响应方案。
步骤208,按照机器人响应方案,控制语音机器人进行响应。
具体地,呼叫平台可以按照机器人响应方案,在语音机器人与用户终端的语音通话过程中,控制语音机器人进行响应。
可以理解,针对不同的通话状态场景类型有不同的机器人响应方案,因而,可以控制语音机器人进行不同的灵活的响应。
上述控制语音机器人响应的方法,在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集。根据语音采集结果,确定当前的通话状态场景类型,其中,所述通话状态场景类型,用于表征所述用户终端所对应的用户和所述语音机器人在语音通话中所处的状态。因而,可以按照与所述通话状态场景类型对应的机器人响应方案,控制所述语音机器人进行响应。从而实现针对不同通话状态场景,控制机器人灵活地进行不同响应,提高了对语音机器人响应控制的准确性。进而,提高了人机交互的自然性、真实性以及准确性。
在一个实施例中,对用户终端进行语音采集,包括:从检测到用户终端的初始语音信号起开始记录语音数据,直至连续预设时长内未检测到用户终端的语音信号后停止,得到所记录的语音数据。
其中,初始语音信号,是指从静默检测开始,用户终端最开始产生的语音信号。
具体地,在语音通话过程中,呼叫平台可以通过语音端点检测设备(vad,voiceactivitydetection,vad)对用户终端进行语音采集。在采集时,可以从静默检测开始,当检测到用户终端的初始语音信号起(即,检测到用户开始说话开始),开始记录语音数据,然后,在连续预设时长内未检测到用户终端的语音信号后停止记录,得到所记录的语音数据。
比如,从静默检测开始,检测到用户说话则开始记录语音,然后在连续20ms没有继续检测到语音信号,则认为一句话说完,可以停止记录,得到一段语音信息。
上述实施例中,能够准确采集用户说的一段话,避免全量采集语音进行分析的计算压力,而且,通过上述方法能够准确采集到具有信息量的语音数据。
在一个实施例中,步骤204根据语音采集结果,确定当前的通话状态场景类型,包括:将采集的语音数据转换为文本内容;解析文本内容,确定当前的通话状态场景类型。
具体地,呼叫平台可以通过语音识别设备对采集的语音数据进行语音识别处理,以转换为文本内容。呼叫平台可以通过语音识别设备将转换得到的文本内容发送至中控设备,由中控设备对文本内容进行解析,并根据解析结果判断当前所处的通话状态场景类型。
上述实施例中,将语音数据转换为文本内容进行通话状态场景分析,相较于直接根据语音进行场景分析而言,降低了分析难度,提高了场景分析效率,同时也节省了系统的分析资源。
如图3所示,在一个实施例中,提供了一种控制语音机器人响应的方法,,具体包括以下步骤:
步骤302,在语音机器人与用户终端的语音通话过程中,对用户终端进行语音采集。
步骤304,将采集的语音数据转换为文本内容,并解析文本内容。
步骤306,若文本内容为空,则判定当前的通话状态场景类型为静默场景。
其中,静默场景,是指用户在通话中处于未说话的静默状态。用户状态确认语音,是用于询问用户当前所处状态的语音。
具体地,在将采集的语音数据转换为文本内容之后,呼叫平台可以通过中控设备检测文本内容是否为空,即,检测文本内容中是否有文字信息,当文本内容为空,则说明采集语音数据的过程中,用户终端侧的用户并未讲话,因此,可以判定当前的通话状态场景类型为静默场景。
步骤308,获取与静默场景对应的用户状态确认语音;用户状态确认语音,用于确认用户是否处于接听状态。
步骤310,控制语音机器人播放用户状态确认语音。
呼叫平台中预先针对静默场景设置了用户状态确认语音,呼叫平台则可以获取与静默场景对应的用户状态确认语音,并控制语音机器人播放该用户状态确认语音,以询问用户当前是否处于接听状态。
比如,在静默场景时,可以控制语音机器人播放“请问您还在听吗?”这一用户状态确认语音。
可以理解,呼叫平台中可以预先针对所有的静默场景,设置统一的用户状态确认语音。在其他实施例中,呼叫平台也可以在判定出静默场景后,进一步确定静默场景产生的时机,根据静默场景产生的不同时机,播放不同的用户状态确认语音。比如,当静默场景产生的时机在语音机器人播放主动询问语音后(即静默场景在语音机器人播放主动询问语音后产生),则可以播放用于询问用户是否保持接听状态的语音。比如,“请问您还在听吗?”即为用于询问用户是否保持接听状态的语音。当静默场景产生的时机在语音机器人播放解答语音后(即静默场景在语音机器人播放解答用户问题的语音后产生),则可以播放用于询问用户是否还有其他问题或者是否成功解答用户问题的语音。比如,播放“请问您还有其他问题吗?”的语音,或者,播放“请问是否有解答您的疑问?”的语音。
上述实施例中,若检测到当前处于静默场景,则控制语音机器人播放用户状态确认语音,以询问用户当前的状态,提高了人机交互的准确性和真实性。
在一个实施例中,该方法还包括:获取语音机器人的通话状态。本实施例中,解析文本内容,确定当前的通话状态场景类型,包括:若文本内容不为空、且语音机器人的通话状态为播音状态,则判定当前的通话状态场景类型为异常打断场景。其中,语音机器人的通话状态,是指语音机器人在通话中所处的状态。播音状态,是指语音机器人正在向用户终端播放语音。异常打断场景,是指在语音机器人正常播音时被用户出声打断的场景。
具体地,若文本内容不为空、且语音机器人的通话状态为播音状态,说明用户在语音机器人正在播放语音时讲话,说明用户想要打断语音机器人的播音,因此,可以判定当前的通话状态场景类型为异常打断场景。
可以理解,针对异常打断场景,呼叫平台可以根据语音机器人当前播音的内容,来判断是否允许被打断,从而灵活地控制语音机器人进行相应的响应。
上述实施例中,能够根据文本内容为空、以及语音机器人处于播音状态,便捷地判定当前的通话状态场景类型为异常打断场景,不需要复杂的场景分析处理。
如图4所示,在一个实施例中,提供了一种控制语音机器人响应的方法,具体包括以下步骤:
步骤402,在语音机器人与用户终端的语音通话过程中,对用户终端进行语音采集。
步骤404,将采集的语音数据转换为文本内容,并解析文本内容。
其中,若文本内容为空,则执行步骤406。若文本内容不为空、且语音机器人的通话状态为播音状态,则执行步骤412。
步骤406,判定当前的通话状态场景类型为静默场景。
步骤408,获取与静默场景对应的用户状态确认语音。
步骤410,控制语音机器人播放用户状态确认语音。
步骤412,判定当前的通话状态场景类型为异常打断场景。
步骤414,对语音机器人处于播音状态时所播放的语音进行预设标签检测处理。
步骤416,根据标签检测结果,判断所播放的语音是否允许被打断。若所播放的语音允许被打断,则执行步骤418,若所播放的语音不允许被打断,则执行步骤420。
具体地,在判定当前的通话状态场景类型为异常打断场景之后,呼叫平台可以对语音机器人处于播音状态时所播放的语音进行预设标签检测处理,根据标签检测结果,判断所播放的语音是否允许被打断。
可以理解,可以是检测到预设标签时,判定播放的语音不允许被打断,未检测到预设标签时,判定播放的语音允许被打断。还可以是,检测到预设标签时,判定播放的语音允许被打断,未检测到预设标签时,判定播放的语音不允许被打断。对此不作限定。
步骤418,获取与异常打断场景对应的停止播音方案,根据停止播音方案,控制语音机器人停止当前的播音。
步骤420,获取与异常打断场景对应的维持播放方案,控制语音机器人继续当前的播音。
进一步地,若所播放的语音允许被打断,呼叫平台则可以获取与异常打断场景对应的停止播音方案,从而根据停止播音方案,控制语音机器人停止当前的播音。可以理解,呼叫平台可以根据停止播音方案暂停语音机器人当前的播音,待异常打断场景处理完毕后,再继续恢复播音。呼叫平台也可以根据停止播音方案,结束当前的播音。
若所播放的语音不允许被打断,呼叫平台则可以获取与异常打断场景对应的维持播放方案,从而根据维持播放方案,控制语音机器人继续当前的播音,而不被打断。
上述实施例中,通过检测语音机器人播放的语音中携带的标签,能够准确、快速地检测是否语音是否允许被打断,从而能够准确地控制语音机器人进行响应。
在一个实施例中,对语音机器人处于播音状态时所播放的语音进行预设标签检测处理,包括:确定所播放的语音所位于的语音文件;检测语音文件是否携带连续播放标签。本实施例中,根据标签检测结果,判断所播放的语音是否允许被打断,包括:若检测到携带连续播放标签,判定所播放的语音不允许被打断;若未检测到携带连续播放标签,判定所播放的语音允许被打断。
其中,连续播放标签,是用于指示语音需要连续播放的标签。
具体地,呼叫平台中预先针对从整个语音文件的维度,为语音机器人所要播放的关键语音文件添加了连续播放标签。呼叫平台可以确定所播放的语音所位于的语音文件;检测语音文件是否携带连续播放标签。若检测到携带连续播放标签,则说明播放的语音需要连续播放,而不允许被打断。即,这整份语音文件中的语音内容在播放时都不允许被打断。若未检测到携带连续播放标签,则说明并未指定播放的语音需要连续播放,因而允许被打断。
上述实施例中,通过对不允许打断的关键的语音文件添加连续播放标签,能够快速地判断当前播放的语音文件是否允许被打断,从而能够准确地控制语音机器人进行响应。
如图5所示,在一个实施例中,提供了一种控制语音机器人响应的方法,具体包括以下步骤:
步骤502,在语音机器人与用户终端的语音通话过程中,对用户终端进行语音采集。
步骤504,将采集的语音数据转换为文本内容,并解析文本内容。
其中,若文本内容为空,执行步骤506。若文本内容不为空、且语音机器人的通话状态为播音状态,执行步骤512。
步骤506,判定当前的通话状态场景类型为静默场景。
步骤508,获取与静默场景对应的用户状态确认语音。
步骤510,控制语音机器人播放用户状态确认语音。
步骤512,判定当前的通话状态场景类型为异常打断场景。
步骤514,检测播放的语音位于的语音文件是否携带连续播放标签。
其中,若检测到携带连续播放标签,判定所播放的语音不允许被打断,执行步骤516。若未检测到携带连续播放标签,执行步骤518。
步骤516,获取与异常打断场景对应的维持播放方案,控制语音机器人继续当前的播音。
步骤518,确定语音机器人当前在所播放的语音中所播放至的时间节点。
步骤520,检测在时间节点下的语音内容是否携带禁止中断标签。若携带禁止中断标签,则判定所播放的语音不允许被打断,执行步骤516。若未携带禁止中断标签,则判定所播放的语音允许被打断,执行步骤522。
步骤522,获取与异常打断场景对应的停止播音方案,根据停止播音方案,控制语音机器人停止当前的播音。
其中,禁止中断标签,是针对时间节点粒度下的语音内容添加的不允许被打断的标签,用于表示该时间节点下的语音内容不允许被打断。
具体地,呼叫平台中预先针对语音机器人所要播放的语音文件中关键的语音内容添加了禁止中断标签,以禁止在播放该关键语音内容时被异常打断。呼叫平台在未检测到所播放的语音所位于的语音文件携带连续播放标签时,还可以进阶地进行二级标签检测,即,确定语音机器人当前在所播放的语音中所播放至的时间节点,并在所播放的语音中定位该时间节点下的语音内容,检测在时间节点下的语音内容是否携带禁止中断标签。若未携带禁止中断标签,则判定所播放的语音允许被打断。
可以理解,若携带禁止中断标签,则判定所播放的语音不允许被打断。即,在当前时间节点下的语音内容不允许被打断。如果后续时间节点下的语音内容未携带禁止中断标签,则可以在播放完不允许被打断的当前节点下的语音内容之后,再停止播音。
需要说明的是,禁止中断标签是针对整份语音文件中的局部语音内容进行添加的,从而从时间节点这一细维度控制不允许被打断的语音内容进行播放,而不是整份语音文件播放过程中都不允许被打断,从而使得对语音机器人的控制响应更加准确和灵活,也避免整段语音不允许被打断给用户带来的不良体验,从而提高了控制响应的准确性。
在一个实施例中,解析文本内容,确定当前的通话状态场景类型,包括:若语音机器人不处于播音状态、且文本内容不为空,则对文本内容进行重复内容分析;若分析得到文本内容在预设时间段内存在连续重复的内容,则判定当前的通话状态场景类型为赘述场景。本实施例中,按照机器人响应方案,控制语音机器人进行响应,包括:控制语音机器人,播放与赘述场景对应的主动打断语音。
其中,重复内容分析,是指分析文本内容中是否具有重复内容的过程。主动打断语音,是供语音机器人播放以打断用户讲话的语音。
具体地,若语音机器人不处于播音状态、且文本内容不为空,则说明是用户独自在说话,则可以对文本内容进行重复内容分析。若分析得到文本内容在预设时间段内存在连续重复的内容,则判定当前的通话状态场景类型为赘述场景。呼叫平台中预先存储了主动打断语音,呼叫平台可以控制语音机器人,播放与赘述场景对应的主动打断语音,以打断用户重复讲话。
比如,通过语音机器人外呼对用户催收账款的应用场景中,用户不停的说“没钱了”,则可以控制语音机器人播放预设的语音信息打断用户。
上述实施例中,通过对文本内容进行重复内容分析,能够快速、且准确地判定赘述场景,从而提高机器人响应的准确性和效率。
如图6所示,在一个实施例中,提供了一种控制语音机器人响应的方法,具体包括以下步骤:
步骤602,从检测到用户终端的初始语音信号起开始记录语音数据,直至连续预设时长内未检测到用户终端的语音信号后停止。
步骤604,将采集的语音数据转换为文本内容,并解析文本内容以及获取语音机器人在当前的通话状态。若文本内容为空,则执行步骤606,若文本内容不为空、且语音机器人的通话状态为播音状态,则执行步骤610。若语音机器人不处于播音状态、且文本内容不为空,则执行步骤622。
步骤606,判定当前的通话状态场景类型为静默场景。
步骤608,获取与静默场景对应的用户状态确认语音;控制语音机器人播放用户状态确认语音。
步骤610,判定当前的通话状态场景类型为异常打断场景,确定所播放的语音所位于的语音文件。
步骤612,检测语音文件是否携带连续播放标签。
其中,若检测到携带连续播放标签,判定所播放的语音不允许被打断,执行步骤620。若未检测到携带连续播放标签,则执行步骤614。
步骤614,确定语音机器人当前在所播放的语音中所播放至的时间节点。
步骤616,检测在时间节点下的语音内容是否携带禁止中断标签。
其中,若未携带禁止中断标签,则判定所播放的语音允许被打断,执行步骤618。若携带禁止中断标签,则判定所播放的语音不允许被打断,执行步骤620。
步骤618,获取与异常打断场景对应的停止播音方案,以控制语音机器人停止当前的播音。
步骤620,获取与异常打断场景对应的维持播放方案,以控制语音机器人继续当前的播音。
步骤622,对文本内容进行重复内容分析;若分析得到文本内容在预设时间段内存在连续重复的内容,则判定当前的通话状态场景类型为赘述场景;控制语音机器人,播放与赘述场景对应的主动打断语音。
在一个实施例中,根据语音采集结果,确定当前的通话状态场景类型,包括:若用户的语音信号消失、但在预设时长内又重新检测到用户的语音信号,则判定当前的通话状态场景类型为长句等待场景。本实施例中,获取与通话状态场景类型对应的机器人响应方案,包括:将重新检测之前采集的语音信号和重新检测后采集的语音信号拼接;将拼接后的语音信号转换为文本内容;对文本内容进行语义识别,并获取与语义识别结果对应的应答信息;将应答信息转换为应答语音。
其中,长句,是指在表述中需要停顿才能表述完整的、包括多个句子的语句。长句等待场景,是指语音机器人需要等待用户表述完长句的场景。
具体地,若用户的语音信号消失、但在预设时长内又重新检测到用户的语音信号,则说明用户说了一句话后,仅是停顿,仍未说完还需要继续说,则可以判定当前的通话状态场景类型为长句等待场景。那么,在检测到用户说完后,可以将重新检测之前采集的语音信号(即用户停顿前说的话)和重新检测后采集的语音信号(即用户停顿后继续说的话)拼接,从而拼接成一个能表达用户完整表述的长句。呼叫平台则可以将拼接后的语音信号(即拼接后的长句语音)转换为文本内容,并对文本内容进行语义识别。呼叫平台可以获取与语义识别结果对应的应答信息;将应答信息转换为应答语音。该生成的应答语音,即为与长句等待场景对应的机器人响应方案。呼叫平台可以控制语音机器人,播放该应答语音。
上述实施例中,能够准确检测出长句等待场景,避免了用户还未说完就播放语音导致错误响应的情况发生,而且,将重新检测之前采集的语音信号和重新检测后采集的语音信号拼接,根据拼接后的内容进行应答,提高了应答准确性。
在一个实施例中,根据语音采集结果,确定当前的通话状态场景类型,包括:检测采集的语音信号的信号强度;若信号强度低于预设阈值,则判定当前的通话状态场景类型为听不清场景。
其中,听不清场景,是指听不清语音通话内容的场景。
具体地,呼叫平台可以检测采集的语音信号的信号强度,若信号强度低于预设阈值,说明语音信号比较弱,通话质量比较差,则可以判定当前的通话状态场景类型为听不清场景。
在一个实施例中,根据语音采集结果,确定当前的通话状态场景类型,包括:检测采集的语音信号的连续性;若连续性检测结果为信号间断不连续,则判定当前的通话状态场景类型为听不清场景。
其中,信号间断不连续,是指信号断断续续,反复间断不连续。
具体地,呼叫平台可以检测采集的语音信号的连续性,若连续性检测结果为信号间断不连续,说明语音信号比较弱,通话质量比较差,则判定当前的通话状态场景类型为听不清场景。
可以理解,针对听不清场景,呼叫平台可以控制语音机器人播放预设的语音。比如,可以播放“信号不太好,您能换个地方接听电话吗?”这类的信号差的提示语音,或者,播放“晚点再打给您”这类的结束通话的语音。
上述实施例中,可以根据语音信号准确地识别听不清场景,从而能够准确控制机器人响应。
应该理解的是,虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本申请各实施例的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种控制语音机器人响应的装置,包括:语音采集模块702、通话状态场景识别模块704和机器人响应模块706,其中:
语音采集模块702,用于在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集。
通话状态场景识别模块704,用于根据语音采集结果,确定当前的通话状态场景类型;所述通话状态场景类型,用于表征所述用户在当前与所述语音机器人之间的通话状态。
机器人响应模块706,用于获取与所述通话状态场景类型对应的机器人响应方案;按照所述机器人响应方案,控制所述语音机器人进行响应。
在一个实施例中,语音采集模块702还用于从检测到所述用户终端的初始语音信号起开始记录语音数据,直至连续预设时长内未检测到所述用户终端的语音信号后停止,得到所记录的语音数据。
在一个实施例中,通话状态场景识别模块704还用于将采集的语音数据转换为文本内容;解析所述文本内容,确定当前的通话状态场景类型。
在一个实施例中,通话状态场景识别模块704还用于若所述文本内容为空,则判定当前的通话状态场景类型为静默场景;机器人响应模块706还用于获取与所述静默场景对应的用户状态确认语音;控制所述语音机器人播放所述用户状态确认语音。
在一个实施例中,通话状态场景识别模块704还用于获取所述语音机器人的通话状态;若所述文本内容不为空、且所述语音机器人的通话状态为播音状态,则判定当前的通话状态场景类型为异常打断场景。
如图8所示,在一个实施例中,机器人响应模块706,包括:
标签检测模块706a,用于对所述语音机器人处于播音状态时所播放的语音进行预设标签检测处理;根据标签检测结果,判断所播放的语音是否允许被打断。
响应方案获取模块706b,用于若所播放的语音允许被打断,则获取与异常打断场景对应的停止播音方案;若所播放的语音不允许被打断,则获取与异常打断场景对应的维持播放方案。
在一个实施例中,标签检测模块706a还用于确定所播放的语音所位于的语音文件;检测所述语音文件是否携带所述连续播放标签;若检测到携带所述连续播放标签,判定所播放的语音不允许被打断;若未检测到携带所述连续播放标签,判定所播放的语音允许被打断。
在一个实施例中,标签检测模块706a还用于若未检测到携带所述连续播放标签,则确定所述语音机器人当前在所播放的语音中所播放至的时间节点;检测在所述时间节点下的语音内容是否携带禁止中断标签;若未携带所述禁止中断标签,则判定所播放的语音允许被打断;若携带所述禁止中断标签,则判定所播放的语音不允许被打断。
在一个实施例中,通话状态场景识别模块704还用于若所述语音机器人不处于播音状态、且所述文本内容不为空,则对所述文本内容进行重复内容分析;若分析得到所述文本内容在预设时间段内存在连续重复的内容,则判定当前的通话状态场景类型为赘述场景;机器人响应模块706还用于控制所述语音机器人,播放与所述赘述场景对应的主动打断语音。
在一个实施例中,通话状态场景识别模块704还用于若所述用户的语音信号消失、但在预设时长内又重新检测到所述用户的语音信号,则判定当前的通话状态场景类型为长句等待场景;机器人响应模块706还用于将重新检测之前采集的语音信号和重新检测后采集的语音信号拼接;将拼接后的语音信号转换为文本内容;对所述文本内容进行语义识别,并获取与语义识别结果对应的应答信息;将所述应答信息转换为应答语音。
在一个实施例中,通话状态场景识别模块704还用于检测采集的语音信号的信号强度;若所述信号强度低于预设阈值,则判定当前的通话状态场景类型为听不清场景;或者,检测所述采集的语音信号的连续性;若连续性检测结果为信号间断不连续,则判定当前的通话状态场景类型为听不清场景。
关于控制语音机器人响应的装置的具体限定可以参见上文中对于控制语音机器人响应的方法的限定,在此不再赘述。上述控制语音机器人响应的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是呼叫平台的服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储供语音机器人播放的语音。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种控制语音机器人响应的方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集;根据语音采集结果,确定当前的通话状态场景类型;所述通话状态场景类型,用于表征所述用户终端所对应的用户和所述语音机器人在语音通话中所处的状态;获取与所述通话状态场景类型对应的机器人响应方案;按照所述机器人响应方案,控制所述语音机器人进行响应。
在一个实施例中,所述对所述用户终端进行语音采集,包括:从检测到所述用户终端的初始语音信号起开始记录语音数据,直至连续预设时长内未检测到所述用户终端的语音信号后停止,得到所记录的语音数据。
在一个实施例中,所述根据语音采集结果,确定当前的通话状态场景类型,包括:将采集的语音数据转换为文本内容;解析所述文本内容,确定当前的通话状态场景类型。
在一个实施例中,所述解析所述文本内容,确定当前的通话状态场景类型,包括:若所述文本内容为空,则判定当前的通话状态场景类型为静默场景;所述获取与所述通话状态场景类型对应的机器人响应方案,包括:获取与所述静默场景对应的用户状态确认语音;所述按照所述机器人响应方案,控制所述语音机器人进行响应,包括:控制所述语音机器人播放所述用户状态确认语音。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述语音机器人的通话状态;所述解析所述文本内容,确定当前的通话状态场景类型,包括:若所述文本内容不为空、且所述语音机器人的通话状态为播音状态,则判定当前的通话状态场景类型为异常打断场景。
在一个实施例中,所述获取与所述通话状态场景类型对应的机器人响应方案,包括:对所述语音机器人处于播音状态时所播放的语音进行预设标签检测处理;根据标签检测结果,判断所播放的语音是否允许被打断;若所播放的语音允许被打断,则获取与异常打断场景对应的停止播音方案;若所播放的语音不允许被打断,则获取与异常打断场景对应的维持播放方案。
在一个实施例中,所述对所述语音机器人处于播音状态时所播放的语音进行预设标签检测处理,包括:确定所播放的语音所位于的语音文件;检测所述语音文件是否携带所述连续播放标签;所述根据标签检测结果,判断所播放的语音是否允许被打断,包括:若检测到携带所述连续播放标签,判定所播放的语音不允许被打断;若未检测到携带所述连续播放标签,判定所播放的语音允许被打断。
在一个实施例中,所述若未检测到携带所述连续播放标签,判定所播放的语音允许被打断,包括:若未检测到携带所述连续播放标签,则确定所述语音机器人当前在所播放的语音中所播放至的时间节点;检测在所述时间节点下的语音内容是否携带禁止中断标签;若未携带所述禁止中断标签,则判定所播放的语音允许被打断。本实施例中,计算机程序被处理器执行时还实现以下步骤:若携带所述禁止中断标签,则判定所播放的语音不允许被打断。
在一个实施例中,所述解析所述文本内容,确定当前的通话状态场景类型,包括:若所述语音机器人不处于播音状态、且所述文本内容不为空,则对所述文本内容进行重复内容分析;若分析得到所述文本内容在预设时间段内存在连续重复的内容,则判定当前的通话状态场景类型为赘述场景;所述按照所述机器人响应方案,控制所述语音机器人进行响应,包括:控制所述语音机器人,播放与所述赘述场景对应的主动打断语音。
在一个实施例中,所述根据语音采集结果,确定当前的通话状态场景类型,包括:若所述用户的语音信号消失、但在预设时长内又重新检测到所述用户的语音信号,则判定当前的通话状态场景类型为长句等待场景;所述获取与所述通话状态场景类型对应的机器人响应方案,包括:将重新检测之前采集的语音信号和重新检测后采集的语音信号拼接;将拼接后的语音信号转换为文本内容;对所述文本内容进行语义识别,并获取与语义识别结果对应的应答信息;将所述应答信息转换为应答语音。
在一个实施例中,所述根据语音采集结果,确定当前的通话状态场景类型,包括:检测采集的语音信号的信号强度;若所述信号强度低于预设阈值,则判定当前的通话状态场景类型为听不清场景;或者,检测所述采集的语音信号的连续性;若连续性检测结果为信号间断不连续,则判定当前的通话状态场景类型为听不清场景。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
1.一种控制语音机器人响应的方法,其特征在于,所述方法包括:
在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集;
根据语音采集结果,确定当前的通话状态场景类型;所述通话状态场景类型,用于表征所述用户终端所对应的用户和所述语音机器人在语音通话中所处的状态;
获取与所述通话状态场景类型对应的机器人响应方案;
按照所述机器人响应方案,控制所述语音机器人进行响应。
2.根据权利要求1所述的方法,其特征在于,所述对所述用户终端进行语音采集,包括:
从检测到所述用户终端的初始语音信号起开始记录语音数据,直至连续预设时长内未检测到所述用户终端的语音信号后停止,得到所记录的语音数据。
3.根据权利要求1所述的方法,其特征在于,所述根据语音采集结果,确定当前的通话状态场景类型,包括:
将采集的语音数据转换为文本内容;
解析所述文本内容,确定当前的通话状态场景类型。
4.根据权利要求3所述的方法,其特征在于,所述解析所述文本内容,确定当前的通话状态场景类型,包括:
若所述文本内容为空,则判定当前的通话状态场景类型为静默场景;
所述获取与所述通话状态场景类型对应的机器人响应方案,包括:
获取与所述静默场景对应的用户状态确认语音;
所述按照所述机器人响应方案,控制所述语音机器人进行响应,包括:
控制所述语音机器人播放所述用户状态确认语音。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述语音机器人的通话状态;
所述解析所述文本内容,确定当前的通话状态场景类型,包括:
若所述文本内容不为空、且所述语音机器人的通话状态为播音状态,则判定当前的通话状态场景类型为异常打断场景。
6.根据权利要求5所述的方法,其特征在于,所述获取与所述通话状态场景类型对应的机器人响应方案,包括:
对所述语音机器人处于播音状态时所播放的语音进行预设标签检测处理;
根据标签检测结果,判断所播放的语音是否允许被打断;
若所播放的语音允许被打断,则获取与异常打断场景对应的停止播音方案;
若所播放的语音不允许被打断,则获取与异常打断场景对应的维持播放方案。
7.根据权利要求6所述的方法,其特征在于,所述对所述语音机器人处于播音状态时所播放的语音进行预设标签检测处理,包括:
确定所播放的语音所位于的语音文件;
检测所述语音文件是否携带所述连续播放标签;
所述根据标签检测结果,判断所播放的语音是否允许被打断,包括:
若检测到携带所述连续播放标签,判定所播放的语音不允许被打断;
若未检测到携带所述连续播放标签,判定所播放的语音允许被打断。
8.根据权利要求7所述的方法,其特征在于,所述若未检测到携带所述连续播放标签,判定所播放的语音允许被打断,包括:
若未检测到携带所述连续播放标签,则确定所述语音机器人当前在所播放的语音中所播放至的时间节点;
检测在所述时间节点下的语音内容是否携带禁止中断标签;
若未携带所述禁止中断标签,则判定所播放的语音允许被打断;
所述方法还包括:
若携带所述禁止中断标签,则判定所播放的语音不允许被打断。
9.根据权利要求3所述的方法,其特征在于,所述解析所述文本内容,确定当前的通话状态场景类型,包括:
若所述语音机器人不处于播音状态、且所述文本内容不为空,则
对所述文本内容进行重复内容分析;
若分析得到所述文本内容在预设时间段内存在连续重复的内容,则判定当前的通话状态场景类型为赘述场景;
所述按照所述机器人响应方案,控制所述语音机器人进行响应,包括:
控制所述语音机器人,播放与所述赘述场景对应的主动打断语音。
10.根据权利要求1所述的方法,其特征在于,所述根据语音采集结果,确定当前的通话状态场景类型,包括:
若所述用户的语音信号消失、但在预设时长内又重新检测到所述用户的语音信号,则判定当前的通话状态场景类型为长句等待场景;
所述获取与所述通话状态场景类型对应的机器人响应方案,包括:
将重新检测之前采集的语音信号和重新检测后采集的语音信号拼接;
将拼接后的语音信号转换为文本内容;
对所述文本内容进行语义识别,并获取与语义识别结果对应的应答信息;
将所述应答信息转换为应答语音。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述根据语音采集结果,确定当前的通话状态场景类型,包括:
检测采集的语音信号的信号强度;若所述信号强度低于预设阈值,则判定当前的通话状态场景类型为听不清场景;
或者,
检测所述采集的语音信号的连续性;
若连续性检测结果为信号间断不连续,则判定当前的通话状态场景类型为听不清场景。
12.一种控制语音机器人响应的装置,其特征在于,所述装置包括:
语音采集模块,用于在语音机器人与用户终端的语音通话过程中,对所述用户终端进行语音采集;
通话状态场景识别模块,用于根据语音采集结果,确定当前的通话状态场景类型;所述通话状态场景类型,用于表征所述用户在当前与所述语音机器人之间的通话状态;
机器人响应模块,用于获取与所述通话状态场景类型对应的机器人响应方案;按照所述机器人响应方案,控制所述语音机器人进行响应。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
技术总结