本发明涉及语音处理识别技术领域,尤其涉及的是一种语音交互方法、装置、智能终端及存储介质。
背景技术:
目前,随着科学技术的不断发展,人工智能技术日益成熟,各种智能设备的得到越来越广泛的应用,人们的日常生活中已经随处可见各种智能设备。随着用户对于高效交互的追求,语音交互作为一种新型高效的交互方式,被广泛应用于各种智能设备中,例如智能音箱、智能电视等。各智能设备可以通过语音交互来满足用户需求。
在进行语音交互时,需要基于获取的用户语音识别出用户的意图,进而做出响应,完成与用户的交互。现有技术中,通常仅仅将获取到的用户语音转成文字,再根据转出的文字进行简单的语义分析,将语义分析结果作为用户的意图并与用户进行交互。现有技术的问题在于,基于简单的语音文字转换和语义分析并不能准确的分析理解用户的真实意图,语义分析识别准确性低,且会导致与用户交互时执行的操作并不是用户想要的,不利于用户进行语音交互,影响用户体验。
因此,现有技术还有待改进和发展。
技术实现要素:
针对现有技术中仅仅将获取到的用户语音转成文字,再根据转出的文字进行简单的语义分析,将语义分析结果作为用户的意图并与用户进行交互,语义分析识别准确性低,不利于用户进行语音交互的技术问题,本发明提供一种语音交互方法、装置、智能终端及存储介质,可获取目标对象的语音指令;对上述语音指令进行语音文字识别,获取识别内容;基于上述识别内容进行多维度语义分析,获取语义分析结果;基于上述语义分析结果做出响应。在对用户语音进行语音文字识别后,基于识别内容进行多维度语义分析,充分考虑用户思考问题的维度,从而基于多维度分析理解用户的真实意图,提高语义分析识别的准确性,有利于为用户提供更好的语音交互。
为了实现上述技术效果,本发明第一方面提供一种语音交互方法,其中,上述方法包括:
获取目标对象的语音指令;
对上述语音指令进行语音文字识别,获取识别内容;
基于上述识别内容进行多维度语义分析,获取语义分析结果;
基于上述语义分析结果做出响应。
可选的,上述基于上述识别内容进行多维度语义分析,获取语义分析结果,包括:
对上述识别内容进行语义理解,获取与上述识别内容对应的目标领域;
获取上述目标领域对应的多维度分析策略;
基于上述多维度分析策略对上述识别内容进行多维度语义分析,获取语义分析结果。
可选的,上述获取上述目标领域对应的多维度分析策略,包括:
识别获取上述目标对象的身份信息;
基于上述身份信息获取上述目标领域对应的多维度分析策略。
可选的,上述方法还包括:
记录目标对象的行为习惯数据;
基于上述目标对象的行为习惯数据,为上述目标对象生成多维度分析策略。
可选的,其特征在于,上述基于上述语义分析结果做出响应,包括:
基于上述语义分析结果生成操作指令;
基于上述操作指令与上述目标对象进行交互。
本发明第二方面提供一种语音交互装置,其中,上述装置包括:
指令获取模块,用于获取目标对象的语音指令;
指令识别模块,用于对上述语音指令进行语音文字识别,获取识别内容;
语义分析模块,用于基于上述识别内容进行多维度语义分析,获取语义分析结果;
响应控制模块,用于基于上述语义分析结果做出响应。
可选的,上述语义分析模块包括:
目标领域获取单元,用于对上述识别内容进行语义理解,获取与上述识别内容对应的目标领域;
分析策略获取单元,用于获取上述目标领域对应的多维度分析策略;
多维语义分析单元,用于基于上述多维度分析策略对上述识别内容进行多维度语义分析,获取语义分析结果。
可选的,上述分析策略获取单元包括:
身份信息获取子单元,用于识别获取上述目标对象的身份信息;
策略获取子单元,用于基于上述身份信息获取上述目标领域对应的多维度分析策略。
本发明第三方面提供一种智能终端,包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的程序,上述程序被上述处理器执行时实现上述任意一种语音交互方法的步骤。
本发明第四方面提供一种存储介质,上述存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现上述任意一种语音交互方法的步骤。
由上可见,本发明方案获取目标对象的语音指令;对上述语音指令进行语音文字识别,获取识别内容;基于上述识别内容进行多维度语义分析,获取语义分析结果;基于上述语义分析结果做出响应。由于本发明方案可以在对用户语音进行语音文字识别后,基于识别内容进行多维度语义分析,充分考虑用户思考问题的维度,从而基于多维度分析理解用户的真实意图。因此相较于现有技术中仅仅将获取到的用户语音转成文字,再根据转出的文字进行简单的语义分析,将语义分析结果作为用户的意图并与用户进行交互的方案,本发明方案可以提高语义分析识别的准确性,有利于为用户提供更好的语音交互。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种语音交互方法的流程示意图;
图2是本发明实施例图1中步骤s300的具体流程示意图;
图3是本发明实施例图2中步骤s302的具体流程示意图;
图4是本发明实施例提供的另一种语音交互方法的流程示意图;
图5是本发明实施例图1中步骤s400的具体流程示意图;
图6是本发明实施例提供的一种语音交互装置的结构示意图;
图7是本发明实施例图6中语义分析模块630的具体结构示意图;
图8是本发明实施例图7中分析策略获取单元632的具体结构示意图;
图9是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
随着生活水平的提高和科学技术的发展,智能设备在人们的生活中已经随处可见。目前,大部分智能设备(如智能音箱、智能电视、智能空调、智能冰箱等)都支持语音交互,以方便用户操作。而随着人工智能技术和物联网技术的发展,在人工智能物联网(aiot)领域的语音交互也获得了广泛的关注。在进行语音交互时,需要基于获取的用户语音识别出用户的意图,进而做出响应,完成与用户的交互。现有技术中的传统语音交互方法,通常仅仅将获取到的用户语音转成文字,再根据转出的文字进行简单的语义分析,将语义分析结果作为用户的意图并与用户进行交互。现有技术的问题在于,基于简单的语音文字转换和语义分析并不能准确的分析理解用户的真实意图,时常会出现一些“答非所问”的执行结果,不利于用户进行语音交互,极大地影响了用户的操作体验。因此,在进行语音交互时,需要有一种能够提升用户语音语义及意图识别的准确性的方法。
为了解决现有技术中存在的问题,本发明提供一种语音交互方法,在本发明实施例中,获取目标对象的语音指令;对上述语音指令进行语音文字识别,获取识别内容;基于上述识别内容进行多维度语义分析,获取语义分析结果,;基于上述语义分析结果做出响应。在对用户语音进行语音文字识别后,基于识别内容进行多维度语义分析,充分考虑用户思考问题的维度,从而基于多维度分析理解用户的真实意图,提高语义分析识别的准确性,有利于为用户提供更好的语音交互。
示例性方法
如图1所示,本发明实施例提供一种语音交互方法,上述方法包括如下步骤:
步骤s100,获取目标对象的语音指令。
其中,上述目标对象为需要进行语音交互的用户。可选的,上述目标对象可以为特定的用户,也可以为所有可能发出语音指令的用户。例如,对于某一个智能设备,可以录入部分特定的用户的声纹,限制仅这部分用户可以与该智能设备进行语音交互,也可不做限制,使得所有用户都可以与该智能设备进行语音交互。进一步的,还可以为该智能设备的部分功能设置限制,仅部分特定的用户可以使用对应功能。例如,对智能音箱的下载功能设置限制,所有可能发出语音指令的用户都可以进行歌曲切换,但只有特定用户(如管理员)才可以下载歌曲。如此,实现对不同用户的语音交互的管理,提升用户体验。
步骤s200,对上述语音指令进行语音文字识别,获取识别内容。
其中,上述识别内容包括用户语音指令对应的文字。将用户的语音指令转换成文字内容,方便进一步进行处理和识别。
步骤s300,基于上述识别内容进行多维度语义分析,获取语义分析结果。
其中,上述多维度语义分析中的分析维度包括时间、环境、节日、人际关系、智能家居数据、天气、目标对象习惯、目标对象行为中的一个或多个。
可选的,上述多维度语义分析中的维度还可以包括其它维度,例如用户的日程安排等,在此不做具体限定。通过考虑尽可能多的维度来进行语义分析,可以模拟用户思考问题的方式和维度,从而更准确的理解用户的意图,为用户提供更好的语音交互体验。
步骤s400,基于上述语义分析结果做出响应。
可选的,上述响应可以包括对用户进行应答、控制其它智能设备的状态、为用户安排行程等,在此不做具体限定。
由上可见,本发明实施例提供的语音交互方法获取目标对象的语音指令;对上述语音指令进行语音文字识别,获取识别内容;基于上述识别内容进行多维度语义分析,获取语义分析结果;基于上述语义分析结果做出响应。由于本发明方案可以在对用户语音进行语音文字识别后,基于识别内容进行多维度语义分析,充分考虑用户思考问题的维度,从而基于多维度分析理解用户的真实意图。因此相较于现有技术中仅仅将获取到的用户语音转成文字,再根据转出的文字进行简单的语义分析,将语义分析结果作为用户的意图并与用户进行交互的方案,本发明方案可以提高语义分析识别的准确性,有利于为用户提供更好的语音交互。
可选的,如图2所示,本实施例中,上述步骤s300包括:
步骤s301,对上述识别内容进行语义理解,获取与上述识别内容对应的目标领域。
其中,上述目标领域为识别出的文字识别内容对应的领域,上述目标领域以及上述目标领域与文字识别内容之间的对应关系可以基于用户习惯进行预先设置获得、基于人工智能进行大数据分析获得,还可以通过对应的用户自定义调整设置获得,在此不做具体限制。可选的,上述目标领域可以包括吃、住、出行、穿衣等,还可以有其它领域,在此不做具体限制。
步骤s302,获取上述目标领域对应的多维度分析策略。
其中,上述多维度策略可以以策略表的形式存储在本地或云端。具体的,对于不同的目标领域,其考虑的维度以及对应的多维度分析策略是不同的。例如,当目标领域为“吃”时,其考虑的维度可以包括时间、用户的饮食习惯、冰箱中剩余的食物等;当目标领域为“穿”时,其考虑的维度可以包括用户性别、年龄、天气、温度、用户喜好习惯等。如此,对于不同的问题,以用户的思维方式进行多维度考虑,综合理解用户的真实意图,提高语义分析识别的准确性,为用户提供更好的语音交互体验。
可选的,对于同一目标领域,也可以对应不同的多维度分析策略。例如,当用户在中午和晚上两个不同的时间说“我饿了”,对应的都是“吃”这一领域,但由于对应的时间不同,考虑到用户对于早餐和午餐的需求是不同的,因此可以对应不同的多维度分析策略。
步骤s303,基于上述多维度分析策略对上述识别内容进行多维度语义分析,获取语义分析结果。
如此,充分考虑用户需求,提高语义分析识别的准确性。
可选的,如图3所示,本实施例中,上述步骤s302包括:
步骤s3021,识别获取上述目标对象的身份信息。
步骤s3022,基于上述身份信息获取上述目标领域对应的多维度分析策略。
可选的,可以通过用户的声纹识别获取用户的身份信息,也可以对用户进行人脸识别获取用户的身份信息,还可以有其它识别方式,在此不做具体限定。
本实施例中,不同的用户可以对应不同的多维度分析策略,从而为不同的用户提供定制化的语音交互,提升用户体验。具体的,不同用户对应的多维度分析策略可以由用户自行自定义,也可以通过记录的用户习惯数据进行智能生成。
可选的,当无法获取对应的用户身份信息,或用户没有设置对应的多维度分析策略且记录的用户习惯数据数目低于预设的策略数据阈值,无法为用户智能生成对应的多维度分析策略时,可以为用户获取对应的默认策略。其中,上述策略数据阈值为预先设置的可以为用户智能生成对应的多维度分析策略的临界数据阈值。具体的,可以先通过用户的声纹和用户所处环境判断用户的基本属性,如判断出用户为25岁的办公室白领女性,进一步根据上述用户基本属性匹配获取云端该区域内同属性人的生活习惯,根据上述同属性人的生活习惯以及用户的部分设置数据进行多维度语义分析并进一步完成与用户的交互。例如,获取到的该用户的语音指令为“我饿了”时,可能基于同属性人的生活习惯以及该用户的日程表设置分析输出:“您中午和某人约好了,在某餐厅用餐,是否需要提前预定”,其中,某人和某餐厅应当对应具体的餐厅和人名,此处仅作示例说明。
可选的,如图4所示,本实施例中,上述语音交互方法还包括:
步骤a100,记录目标对象的行为习惯数据。
具体的,可以通过关联的所有智能设备实时记录用户的行为习惯数据。可选的,当存在多个用户时,可以将不同用户的行为习惯数据记录在该用户对应的数据库中,避免混淆不同用户的行为习惯数据。
步骤a200,基于上述目标对象的行为习惯数据,为上述目标对象生成多维度分析策略。
具体的,当记录的用户的行为习惯数据达到上述预设的策略数据阈值时,可以为该用户生成多维度分析策略。可选的,当用户已经有对应的多维度分析策略,且用户的行为习惯发生变化时,也可以相应更新上述多维度分析策略,从而为用户提供更好的交互体验。
可选的,如图5所示,本实施例中,上述步骤s400包括:
步骤s401,基于上述语义分析结果生成操作指令。
步骤s402,基于上述操作指令与上述目标对象进行交互。
具体的,在获得上述语义分析结果,明确用户的真实意图后,可以生成操作指令,基于操作指令与目标对象进行交互。其中,上述操作指令可以包括语音答复指令和控制指令,且上述操作指令可以用于对关联的所有智能设备进行操作控制,以提升用户交互体验。
本实施例中,对上述语音交互过程进行具体举例说明。例如,在一种应用场景中,接收到用户发出的语音指令“我饿了”,对上述语音指令进行语音文字识别,获取到识别内容“我饿了”。对上述识别内容进行简单的语义理解,获取到上述识别内容与“吃”领域相关,因此获取与“吃”相关的多维度分析策略,基于该多维度策略进行多维度语义分析。具体的,执行下述策略步骤:策略步骤a,获取当前时间,具体的,判断当前用户饿了的时段是什么时候,是早上、中午、晚上、上午、下午、深夜或者其它时段,从而可进一步判断是饭点还是非饭点;策略步骤b,基于上述当前时间获取用户习惯,具体的,若判断出用户饿了的时间是早上的饭点,则获取对应时间的用户习惯,判断用户是喜欢在家里煮早餐、从冰箱里拿早餐还是在周边吃早餐;策略步骤c,基于上述用户习惯,判断用户意图,作为语义分析结果,具体的,若用户的习惯是从冰箱拿早餐吃,则用户意图可以为获取冰箱内的早餐食物清单,并向用户进行推荐,若用户的习惯是在周边吃早餐,则用户意图可以为获取今日天气,并推荐对应早餐店。
可选的,若上述当前时间为中午,即用户饿了的时段是中午的饭点,则在具体的策略步骤中应当获取用户对应的午餐习惯,其具体过程与上述过程相似,在此不再赘述。
进一步的,进行上述多维度语义分析后,可以基于上述用户意图作出响应。例如,当用户意图为获取冰箱内的早餐食物清单,并向用户进行推荐时,可以访问智能冰箱,获取早餐食物清单,并语音回复用户:“冰箱里还有您最爱吃的某食物,请按时吃早餐”。如果用户的冰箱里没有用户经常吃的早餐食物了,早餐食物清单为空,还可以提醒用户进行购买,并向用户推荐购买清单。当用户意图为获取今日天气,并推荐对应早餐店时,可以访问天气信息,如果是晴天,则可以语音回复用户:“天气晴朗,可外出吃早餐”。并为用户推荐早餐店,同时根据周边早餐店的数据为用户进行导航。如此,基于多维度分析理解用户的真实意图,提高语义分析识别的准确性,为用户提供更好的语音交互体验。
在另一种应用场景中,接收到用户发出的语音指令“我感觉很闷”,对上述语音指令进行语音文字识别,获取到识别内容“我感觉很闷”。对上述识别内容进行简单的语义理解,获取到上述识别内容与“感知”领域相关,因此获取与“感知”相关的多维度分析策略,基于该多维度策略进行多维度语义分析并做出响应。具体的,执行下述策略步骤并同时响应,进行交互:策略步骤a,从物理层进行分析,具体的,获取天气信息、温度信息,确认门窗是否开启通风、空调温度是否合适等,若门窗和空调设置不合适,则生成调整控制指令,且将上述排查结果以及调整意向反馈给用户,在用户确认执行后执行,并在上述调整控制指令执行一定时间后确认舒适度是否合适。策略步骤b,从心理层面进行分析,具体的,可以进行家庭环境氛围的调节,如进行灯光和音乐的调节,还可以有其它调节方式,在此不做具体限定。策略步骤c,从社交层面进行分析,具体的,可以获取用户的社交信息,基于上述社交信息进行分析并给出建议,例如,可以语音答复用户:“如今天是某节日,可以和某人一起出去吃饭哦”或“发现某人在某处,是否要帮您预约”,还可以通过实时社交动态分散用户注意力等。策略步骤d,从生理上进行分析,具体的,可以通过摄像头的温度测试及通过智能手环获取用户生理特征,检测用户是否处于病理特征状态,如果是则提醒用户就医,并查询病例记录及用药记录,如有符合特征的药物提醒用药,如有需要可以启动紧急就医系统。
示例性设备
如图6中所示,对应于上述语音交互方法,本发明实施例还提供一种语音交互装置,上述语音交互装置包括:
指令获取模块610,用于获取目标对象的语音指令。
其中,上述目标对象为需要进行语音交互的用户。可选的,上述目标对象可以为特定的用户,也可以为所有可能发出语音指令的用户。例如,对于某一个智能设备,可以录入部分特定的用户的声纹,限制仅这部分用户可以与该智能设备进行语音交互,也可不做限制,使得所有用户都可以与该智能设备进行语音交互。进一步的,还可以为该智能设备的部分功能设置限制,仅部分特定的用户可以使用对应功能。例如,对智能音箱的下载功能设置限制,所有可能发出语音指令的用户都可以进行歌曲切换,但只有特定用户(如管理员)才可以下载歌曲。如此,实现对不同用户的语音交互的管理,提升用户体验。
指令识别模块620,用于对上述语音指令进行语音文字识别,获取识别内容。
其中,上述识别内容包括用户语音指令对应的文字。将用户的语音指令转换成文字内容,方便进一步进行处理和识别。
语义分析模块630,用于基于上述识别内容进行多维度语义分析,获取语义分析结果。
其中,上述多维度语义分析中的分析维度包括时间、环境、节日、人际关系、智能家居数据、天气、目标对象习惯、目标对象行为中的一个或多个。
可选的,上述多维度语义分析中的维度还可以包括其它维度,例如用户的日程安排等,在此不做具体限定。通过考虑尽可能多的维度来进行语义分析,可以模拟用户思考问题的方式和维度,从而更准确的理解用户的意图,为用户提供更好的语音交互体验。
响应控制模块640,用于基于上述语义分析结果做出响应。
可选的,上述响应可以包括对用户进行应答、控制其它智能设备的状态、为用户安排行程等,在此不做具体限定。
由上可见,本发明实施例提供的语音交互装置通过指令获取模块610获取目标对象的语音指令;通过指令识别模块620对上述语音指令进行语音文字识别,获取识别内容;通过语义分析模块630基于上述识别内容进行多维度语义分析,获取语义分析结果;通过响应控制模块640基于上述语义分析结果做出响应。由于本发明方案可以在对用户语音进行语音文字识别后,基于识别内容进行多维度语义分析,充分考虑用户思考问题的维度,从而基于多维度分析理解用户的真实意图。因此相较于现有技术中仅仅将获取到的用户语音转成文字,再根据转出的文字进行简单的语义分析,将语义分析结果作为用户的意图并与用户进行交互的方案,本发明方案可以提高语义分析识别的准确性,有利于为用户提供更好的语音交互。
可选的,如图7所示,本实施例中,上述语义分析模块630包括:
目标领域获取单元631,用于对上述识别内容进行语义理解,获取与上述识别内容对应的目标领域。
其中,上述目标领域为识别出的文字识别内容对应的领域,上述目标领域以及上述目标领域与文字识别内容之间的对应关系可以基于用户习惯进行预先设置获得、基于人工智能进行大数据分析获得,还可以通过对应的用户自定义调整设置获得,在此不做具体限制。可选的,上述目标领域可以包括吃、住、出行、穿衣等,还可以有其它领域,在此不做具体限制。
分析策略获取单元632,用于获取上述目标领域对应的多维度分析策略。
其中,上述多维度策略可以以策略表的形式存储在本地或云端。具体的,对于不同的目标领域,其考虑的维度以及对应的多维度分析策略是不同的。例如,当目标领域为“吃”时,其考虑的维度可以包括时间、用户的饮食习惯、冰箱中剩余的食物等;当目标领域为“穿”时,其考虑的维度可以包括用户性别、年龄、天气、温度、用户喜好习惯等。如此,对于不同的问题,以用户的思维方式进行多维度考虑,综合理解用户的真实意图,提高语义分析识别的准确性,为用户提供更好的语音交互体验。
可选的,对于同一目标领域,也可以对应不同的多维度分析策略。例如,当用户在中午和晚上两个不同的时间说“我饿了”,对应的都是“吃”这一领域,但由于对应的时间不同,考虑到用户对于早餐和午餐的需求是不同的,因此可以对应不同的多维度分析策略。
多维语义分析单元633,用于基于上述多维度分析策略对上述识别内容进行多维度语义分析,获取语义分析结果。
如此,充分考虑用户需求,提高语义分析识别的准确性。
可选的,如图8所示,本实施例中,上述分析策略获取单元632包括:
身份信息获取子单元6321,用于识别获取上述目标对象的身份信息。
策略获取子单元6322,用于基于上述身份信息获取上述目标领域对应的多维度分析策略。
可选的,可以通过用户的声纹识别获取用户的身份信息,也可以对用户进行人脸识别获取用户的身份信息,还可以有其它识别方式,在此不做具体限定。
本实施例中,不同的用户可以对应不同的多维度分析策略,从而为不同的用户提供定制化的语音交互,提升用户体验。具体的,不同用户对应的多维度分析策略可以由用户自行自定义,也可以通过记录的用户习惯数据进行智能生成。
可选的,当无法获取对应的用户身份信息,或用户没有设置对应的多维度分析策略且记录的用户习惯数据数目低于预设的策略数据阈值,无法为用户智能生成对应的多维度分析策略时,可以为用户获取对应的默认策略。其中,上述策略数据阈值为预先设置的可以为用户智能生成对应的多维度分析策略的临界数据阈值。具体的,可以先通过用户的声纹和用户所处环境判断用户的基本属性,如判断出用户为25岁的办公室白领女性,进一步根据上述用户基本属性匹配获取云端该区域内同属性人的生活习惯,根据上述同属性人的生活习惯以及用户的部分设置数据进行多维度语义分析并进一步完成与用户的交互。例如,获取到的该用户的语音指令为“我饿了”时,可能基于同属性人的生活习惯以及该用户的日程表设置分析输出:“您中午和某人约好了,在某餐厅用餐,是否需要提前预定”,其中,某人和某餐厅应当对应具体的餐厅和人名,此处仅作示例说明。
可选的,上述语音交互装置还包括:习惯数据记录模块,用于记录目标对象的行为习惯数据;策略生成模块,用于基于上述目标对象的行为习惯数据,为上述目标对象生成多维度分析策略。
具体的,可以通过关联的所有智能设备实时记录用户的行为习惯数据。可选的,当存在多个用户时,可以将不同用户的行为习惯数据记录在该用户对应的数据库中,避免混淆不同用户的行为习惯数据。
具体的,当记录的用户的行为习惯数据达到上述预设的策略数据阈值时,可以为该用户生成多维度分析策略。可选的,当用户已经有对应的多维度分析策略,且用户的行为习惯发生变化时,也可以相应更新上述多维度分析策略,从而为用户提供更好的交互体验。
可选的,上述响应控制模块具体用于:基于上述语义分析结果生成操作指令;基于上述操作指令与上述目标对象进行交互。
具体的,在获得上述语义分析结果,明确用户的真实意图后,可以生成操作指令,基于操作指令与目标对象进行交互。其中,上述操作指令可以包括语音答复指令和控制指令,且上述操作指令可以用于对关联的所有智能设备进行操作控制,以提升用户交互体验。
本实施例中,对上述语音交互过程进行具体举例说明。例如,在一种应用场景中,接收到用户发出的语音指令“我饿了”,对上述语音指令进行语音文字识别,获取到识别内容“我饿了”。对上述识别内容进行简单的语义理解,获取到上述识别内容与“吃”领域相关,因此获取与“吃”相关的多维度分析策略,基于该多维度策略进行多维度语义分析。具体的,执行下述策略步骤:策略步骤a,获取当前时间,具体的,判断当前用户饿了的时段是什么时候,是早上、中午、晚上、上午、下午、深夜或者其它时段,从而可进一步判断是饭点还是非饭点;策略步骤b,基于上述当前时间获取用户习惯,具体的,若判断出用户饿了的时间是早上的饭点,则获取对应时间的用户习惯,判断用户是喜欢在家里煮早餐、从冰箱里拿早餐还是在周边吃早餐;策略步骤c,基于上述用户习惯,判断用户意图,作为语义分析结果,具体的,若用户的习惯是从冰箱拿早餐吃,则用户意图可以为获取冰箱内的早餐食物清单,并向用户进行推荐,若用户的习惯是在周边吃早餐,则用户意图可以为获取今日天气,并推荐对应早餐店。
可选的,若上述当前时间为中午,即用户饿了的时段是中午的饭点,则在具体的策略步骤中应当获取用户对应的午餐习惯,其具体过程与上述过程相似,在此不再赘述。
进一步的,进行上述多维度语义分析后,可以基于上述用户意图作出响应。例如,当用户意图为获取冰箱内的早餐食物清单,并向用户进行推荐时,可以访问智能冰箱,获取早餐食物清单,并语音回复用户:“冰箱里还有您最爱吃的某食物,请按时吃早餐”。如果用户的冰箱里没有用户经常吃的早餐食物了,早餐食物清单为空,还可以提醒用户进行购买,并向用户推荐购买清单。当用户意图为获取今日天气,并推荐对应早餐店时,可以访问天气信息,如果是晴天,则可以语音回复用户:“天气晴朗,可外出吃早餐”。并为用户推荐早餐店,同时根据周边早餐店的数据为用户进行导航。如此,基于多维度分析理解用户的真实意图,提高语义分析识别的准确性,为用户提供更好的语音交互体验。
在另一种应用场景中,接收到用户发出的语音指令“我感觉很闷”,对上述语音指令进行语音文字识别,获取到识别内容“我感觉很闷”。对上述识别内容进行简单的语义理解,获取到上述识别内容与“感知”领域相关,因此获取与“感知”相关的多维度分析策略,基于该多维度策略进行多维度语义分析并做出响应。具体的,执行下述策略步骤并同时响应,进行交互:策略步骤a,从物理层进行分析,具体的,获取天气信息、温度信息,确认门窗是否开启通风、空调温度是否合适等,若门窗和空调设置不合适,则生成调整控制指令,且将上述排查结果以及调整意向反馈给用户,在用户确认执行后执行,并在上述调整控制指令执行一定时间后确认舒适度是否合适。策略步骤b,从心理层面进行分析,具体的,可以进行家庭环境氛围的调节,如进行灯光和音乐的调节,还可以有其它调节方式,在此不做具体限定。策略步骤c,从社交层面进行分析,具体的,可以获取用户的社交信息,基于上述社交信息进行分析并给出建议,例如,可以语音答复用户:“如今天是某节日,可以和某人一起出去吃饭哦”或“发现某人在某处,是否要帮您预约”,还可以通过实时社交动态分散用户注意力等。策略步骤d,从生理上进行分析,具体的,可以通过摄像头的温度测试及通过智能手环获取用户生理特征,检测用户是否处于病理特征状态,如果是则提醒用户就医,并查询病例记录及用药记录,如有符合特征的药物提醒用药,如有需要可以启动紧急就医系统。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图9所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现上述任意一种语音交互方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图9中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的程序,上述程序被上述处理器执行时进行以下操作指令:
获取目标对象的语音指令;
对上述语音指令进行语音文字识别,获取识别内容;
基于上述识别内容进行多维度语义分析,获取语义分析结果;
基于上述语义分析结果做出响应。
本发明实施例还提供一种存储介质,上述存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现本发明实施例提供的任一种语音交互方法所述的步骤。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
1.一种语音交互方法,其特征在于,所述方法包括:
获取目标对象的语音指令;
对所述语音指令进行语音文字识别,获取识别内容;
基于所述识别内容进行多维度语义分析,获取语义分析结果;
基于所述语义分析结果做出响应。
2.根据权利要求1所述的语音交互方法,其特征在于,所述基于所述识别内容进行多维度语义分析,获取语义分析结果,包括:
对所述识别内容进行语义理解,获取与所述识别内容对应的目标领域;
获取所述目标领域对应的多维度分析策略;
基于所述多维度分析策略对所述识别内容进行多维度语义分析,获取语义分析结果。
3.根据权利要求2所述的语音交互方法,其特征在于,所述获取所述目标领域对应的多维度分析策略,包括:
识别获取所述目标对象的身份信息;
基于所述身份信息获取所述目标领域对应的多维度分析策略。
4.根据权利要求1所述的语音交互方法,其特征在于,所述方法还包括:
记录目标对象的行为习惯数据;
基于所述目标对象的行为习惯数据,为所述目标对象生成多维度分析策略。
5.根据权利要求1-4任意一项所述的语音交互方法,其特征在于,所述基于所述语义分析结果做出响应,包括:
基于所述语义分析结果生成操作指令;
基于所述操作指令与所述目标对象进行交互。
6.一种语音交互装置,其特征在于,所述装置包括:
指令获取模块,用于获取目标对象的语音指令;
指令识别模块,用于对所述语音指令进行语音文字识别,获取识别内容;
语义分析模块,用于基于所述识别内容进行多维度语义分析,获取语义分析结果;
响应控制模块,用于基于所述语义分析结果做出响应。
7.根据权利要求6所述的语音交互装置,其特征在于,所述语义分析模块包括:
目标领域获取单元,用于对所述识别内容进行语义理解,获取与所述识别内容对应的目标领域;
分析策略获取单元,用于获取所述目标领域对应的多维度分析策略;
多维语义分析单元,用于基于所述多维度分析策略对所述识别内容进行多维度语义分析,获取语义分析结果。
8.根据权利要求7所述的语音交互装置,其特征在于,所述分析策略获取单元包括:
身份信息获取子单元,用于识别获取所述目标对象的身份信息;
策略获取子单元,用于基于所述身份信息获取所述目标领域对应的多维度分析策略。
9.一种智能终端,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1-5任意一项所述方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的方法的步骤。
技术总结