相关申请的交叉引用
本申请基于并要求于2019年9月11日向韩国知识产权局提交的第10-2019-0113010号韩国专利申请的优先权,该申请的全部内容通过引用并入本文。
本公开的各种实施方式涉及电子装置及其操作方法,并且更具体地,涉及用于检测关于用户话语的语音活动检测的电子装置及其操作方法。
背景技术:
语音识别是指将通过声音传感器(例如麦克风)获取的音频信号转换为文本数据(例如单词或句子)的过程。随着用于提供语音识别的装置和服务的数量增加,语音识别在各种地方以各种形式得到了运用。
语音识别系统在执行语音识别之前执行语音活动检测(voiceactivitydetection,vad),以区分音频信号中的话语部分和非话语部分。例如,由于没有必要对音频信号中的用户未出声的非话语部分执行语音识别,因此仅对通过vad检测到的话语部分执行语音识别。
语音识别系统通过应用对一般情况下人的话语进行分析作为结果而获取的平均参数值来执行vad。在这种情况下,当用户的话语速率相对低或高时会产生vad误差。
公开内容
本公开的各种实施方式提供了能够根据用户话语特征改变参数以执行语音活动检测的电子装置及其操作方法。
附加方面将部分地在随后的描述中阐明,并且部分地将通过描述而显而易见,或可通过本公开提出的实施方式的实践来习得。
根据本公开的实施方式,电子装置包括存储一个或多个指令的存储器以及处理器,处理器配置为执行存储在存储器中的一个或多个指令,以接收与用户话语对应的音频数据、以基于接收到的音频数据识别用户的话语特征、通过使用识别的用户话语特征来确定用于执行语音活动检测的参数、以及通过使用确定出的参数关于用户话语对接收的音频数据执行语音活动检测。
在本公开的一个实施方式中,音频数据可包括与用户发出的触发词对应的话语部分。
在本公开的一个实施方式中,确定参数包括:将用户的话语特征与关于触发词的参考话语特征进行比较,并基于其比较的结果改变参数。
在本公开的一个实施方式中,识别用户的话语特征包括:当音频数据包括与触发词对应的话语部分时,基于接收到的音频数据识别用户的话语特征。
在本公开的一个实施方式中,执行语音活动检测可包括:在用户发声的情况下,检测接收到的音频数据中用户话语的起点和接收到的音频数据中用户话语的终点,以区分接收到的音频数据的话语部分和接收到的音频数据的非话语部分。
在本公开的一个实施方式中,识别出的用户的话语特征可包括用户话语速率、话语能级或发声音高中的至少一项。
在本公开的一个实施方式中,用于执行语音活动检测的参数可包括:在接收到的音频数据上用于识别在用户发声的情况下的话语部分的能量阈值、延迟时间或自动结束时间中的一个或多个。
在本公开的一个实施方式中,电子装置可进一步包括配置为接收与用户话语对应的音频数据的通信器。
在本公开的一个实施方式中,电子装置可进一步包括配置为接收用户话语并将用户话语转换为音频数据的麦克风。
根据本公开的另一实施方式,电子装置的操作方法包括:接收与用户话语对应的音频数据;基于接收到的音频数据识别用户的话语特征;通过使用识别的用户话语特征来确定用于执行语音活动检测的参数;以及通过使用确定出的参数关于用户话语对接收的音频数据执行语音活动检测。
识别用户的话语特征包括:当音频数据包括与用户发出的触发词对应的话语部分时,基于接收到的音频数据识别用户的话语特征。
确定用于执行语音活动检测的参数包括:将识别出的用户话语特征与关于触发词的参考话语特征进行比较。
识别用户的话语特征包括:当音频数据包括与触发词对应的话语部分时,基于音频数据识别用户的话语特征。
执行语音活动检测包括:在用户发声的情况下,检测用户话语的起点和用户话语的终点,以区分接收到的音频数据的话语部分和接收到的音频数据的非话语部分。
确定参数包括:基于用户的话语速率、话语能级或发声音高中的至少一个来确定用于执行语音活动检测的参数。
用于执行语音活动检测的参数包括:在用户发声的情况下用于识别话语部分的能量阈值、延迟时间或自动结束时间中的至少一个。
接收用户话语的音频数据包括:通过通信器接收与用户话语对应的音频数据。
接收用户话语的音频数据包括:通过麦克风接收用户话语,并将用户话语转换为音频数据。
一种非暂时性计算机可读记录介质,其上记录有用于在计算机上执行根据本申请实施方式的操作方法的程序。
处理器进一步配置为基于改变的用户话语特征来执行语音活动检测。执行语音活动检测还包括基于改变的用户话语特征执行语音活动检测。
附图说明
本公开的某些实施方式的上述和其他方面、特征和优点,将通过结合附图进行的以下描述而更加明显,在附图中:
图1是示出根据本公开实施方式的电子装置的示意图;
图2a是用于描述在对用户话语的音频数据执行语音活动检测时出现误差的实施例的示意图;
图2b是用于描述在对用户话语的音频数据执行语音活动检测时出现误差的另一实施例的示意图;
图3是根据本公开实施方式的电子装置的框图;
图4a和图4b是用于描述根据本公开实施方式的分析对应于触发词的音频数据的方法的示意图;
图5是根据本公开实施方式的电子装置的操作方法的流程图;
图6是根据本公开的另一实施方式的电子装置的操作方法的流程图;
图7是用于描述根据本公开实施方式的由电子装置执行的、基于用户话语特征改变用于执行语音活动检测的参数的方法的示意图;
图8是用于描述根据本公开的实施方式的由电子装置执行的、通过使用包括用户信息的数据库改变用于执行语音活动检测的参数的方法的示意图;
图9是示出根据本公开实施方式的语音识别系统的示意图;
图10是根据本公开实施方式的电子装置的框图;以及
图11是根据本公开的另一实施方式的电子装置的框图。
具体实施方式
将对本说明书中使用的术语进行简要描述,然后对本公开进行详细描述。
在本公开中,考虑到本公开的功能,尽可能选择目前广泛使用的通用术语,但也可根据本领域技术人员的意图、先例或新技术等选择非通用术语。有些术语可以由本申请的申请人任意选择。在这种情况下,这些术语的含义将在本公开的相应部分中详细解释。因此,本文中使用的术语不应基于其名称,而应基于其含义和本公开的整个上下文来定义。
应理解,当元素被称为“包括”另一元素时,除非另有说明,否则该元素可进一步包括其他元素。在本文使用时,如“单元”、“模块”等术语表示用于处理至少一项功能或操作的单元,其可由硬件、软件或硬件和软件的组合实现。
在本公开实施方式中,术语“用户”指的是观看显示在电子装置上的图像的观看者或是控制电子装置的功能或操作的人,并且可包括管理员或安装工程师。
下文将参照附图详细描述本公开的实施方式,以使本领域普通技术人员可容易地实现本公开的实施方式。然而,本公开可以以多种不同的形式呈现,并且不限于在本文中阐明的本公开的实施方式。为清楚起见,附图中省略了与解释本公开无关的部分,并且在整个说明书中相同的部件都通过相同的参考数字表示。
图1是示出根据本公开实施方式的电子装置的示意图。
参考图1,根据本公开实施方式的电子装置100可体现为各种类型的电子装置,如电视、机顶盒、移动电话、扬声器、平板电脑、数码相机、摄像机、笔记本电脑、台式电脑、电子书终端、数字广播终端、个人数字助理(pda)、便携式多媒体播放器(pmp)、导航装置、mp3播放器、互联网协议电视(iptv)、数字电视(dtv)、可穿戴装置等。可替换地,根据本公开实施方式的电子装置100可以是诸如冰箱、洗衣机、空调、吸尘器、灯泡或空气净化器等家用电器。可替换地,电子装置100可以是设置在固定位置处的固定电子装置、或是具有可移动形式的移动电子装置、或可以是能够接收数字广播服务的数字广播接收器。
在本公开的一个实施方式中,控制装置200可实现为用于控制电子装置100的各种类型的装置,例如遥控器或移动电话。控制装置200中可安装用于控制电子装置100的应用程序,并且控制装置200可通过使用安装的应用程序控制电子装置100。然而,本公开的实施方式不限于此。此外,控制装置200可通过使用红外线(ir)、蓝牙(bt)、wi-fi等控制电子装置100。
用户可对着电子装置说话或发声。用户话语可包括指示电子装置100执行一定功能(例如,控制包括在电子装置100中的硬件/软件组件的操作、内容搜索等)的自然语言。
在本公开的一个实施方式中,电子装置100可使用内部或外部音频输入模块(例如麦克风)将用户的话语转换为音频信号(音频数据),音频信号为电信号。
用户可向控制装置200发声,并且控制装置200可使用内部或外部麦克风将用户话语转换为音频信号(音频数据),其为电信号。控制装置200可将音频信号发送到电子装置100,以及电子装置100可通过通信模块从控制装置200接收对应于用户话语的音频信号。
在本公开的一个实施方式中,当识别出触发词(或唤醒字)或接收到预定的输入时,电子装置100可开始对音频信号进行语音识别。预定的输入可以是用于按压包括在电子装置100中的物理按钮的输入,或用于选择显示在电子装置100上或电子装置100的显示器上的图形界面(例如,图标等)的输入。可替换地,预定的输入可以是用于选择包括在与电子装置100通信的控制装置200中的物理按钮的输入,或用于选择显示在外部装置的显示器上的图形界面的输入。
当对音频信号开始语音识别时,根据本公开实施方式的电子装置100可通过分析用户话语的音频信号来执行语音活动检测。语音活动检测指的是通过检测话语的开始和结束,来区分来自用户话语的音频信号在用户发声时的语音部分和无声部分的过程。
相应地,不处理与无声部分对应的音频信号或音频数据,从而使得电子装置100的资源使用最小化。可替换地,当通过外部服务器或外部装置对音频信号或音频数据执行语音识别时,可不将与无声部分对应的音频信号或音频数据发送给外部服务器或外部装置,以减少网络流量。
在本公开的一个实施方式中,电子装置100可将用户话语的音频数据划分为多个帧,并且识别多个帧中的每一个是语音部分还是非语音部分。例如,电子装置100可基于话语能量阈值、延迟时间、自动结束时间等,识别多个帧中的每一个是语音部分还是非语音部分。当对应于帧的话语能级大于或等于阈值时,电子装置100可识别出该帧对应于语音部分,以及当对应于帧的话语能级小于阈值时,可识别出该帧对应于非语音部分。可替换地,当非语音部分持续延迟时间或更长时间时,电子装置100可确定话语已结束。当未检测到话语终点时,在自动结束时间已过时电子装置100可确定话语已结束。然而,本公开的实施方式并不限于此。
图2a是用于描述在对用户话语的音频数据执行语音活动检测时出现误差的实施例的示意图,以及图2b是用于描述在对用户话语的音频数据执行语音活动检测时出现误差的另一实施例的示意图。
图2a示出了当具有相对较慢的发声速率的用户发声时的音频数据210。
当经过了设定的延迟时间时,语音活动检测器确定话语已结束。当用户的话语速率低时,一个词与另一个词之间的时间段(说出一词之后直到说出随后的一词的时间段)变得比设定的延迟时间更长,因此即使话语未结束其也可确定出话语已结束。例如,如图2a所示,用户的实际话语起点为p1,实际话语终点为p2,实际的语音部分(话语部分)为t1,但语音活动检测器可能确定出用户的话语起点为p3,话语终点为p4,以及用户的语音部分(话语部分)为t2。因此,用户的话语可能丢失。
可替换地,当设定的自动结束时间已经过时,语音活动检测器确定语音已结束。当用户的话语速率高时,在长时间后可能确定出话语已结束,即使话语早已结束。例如,如图2b所示,用户的实际话语起点为p5,实际话语终点为p6,以及实际语音部分(话语部分)为t3,但语音活动检测器可能确定出用户的话语起点为p7,话语终点为p8,以及用户的语音部分(话语部分)为t4。因此,可能出现不必要的等待时间。
在不考虑用户话语特征的情况下通过应用相同参数执行语音活动检测时,语音活动检测的准确率和效率可能较低。
图3是根据本公开实施方式的电子装置的框图。
参照图3,根据本公开实施方式的电子装置100可包括语音输入器310、语音活动检测器(vad)320、触发词识别器330和触发词分析器340。
语音输入器310可接收用户话语的音频数据。例如,当电子装置100通过内部或外部的音频输入模块(例如麦克风)接收用户的话语时,电子装置100可接收来自内部或外部的音频输入模块的用户话语的音频数据。可替换地,当使用外部装置的内部或外部麦克风接收用户话语时,语音输入器310可通过通信模块接收来自外部装置的音频数据。
语音输入器310可执行预处理以减弱或去除音频数据中的噪音。
语音活动检测器320可通过将用户话语的音频数据划分为包括用户语音的语音部分(话语部分)和不包括用户语音的非话语部分(非话语部分或无声部分),来检测用户话语的起点和终点。语音活动检测器320可将音频数据划分为多个帧,并识别多个帧中的每一个是否对应于语音部分或非语音部分。
基于在语音活动检测器320中设置的参数,语音活动检测器320可区分语音部分和非语音部分。例如,语音活动检测器320可基于诸如话语能量阈值、延迟时间、自动结束时间等参数,来识别多个帧中的每一个是语音部分还是非语音部分。当对应于帧的话语能级大于或等于阈值时,语音活动检测器320可识别出该帧为语音部分,并且当对应于帧的话语能级小于阈值时,识别出该帧为非语音部分。
可替换地,当非语音部分持续延迟时间或更长时间时,语音活动检测器320可确定话语已结束。当未检测到话语终点时,语音活动检测器320可在自动结束时间已过时确定出话语已结束。
此外,语音活动检测器320可执行从用户的音频数据中移除非话语部分的过程。
触发词识别器330可识别用户的话语是否对应于触发词。例如,触发词识别器330可识别由vad320检测到的音频数据的话语部分是否对应于触发词。触发词是指示话语开始的词,并且可称为唤醒词、话语开始词等,但不限于此。
可预先设置触发词,并且触发词识别器330可包括搜索具有最大概率的词的孤立词识别器、搜索音频数据的预设关键词的关键词搜索引擎。
可替换地,触发词识别器330可执行以文本或词的形式获取音频数据的话语部分的过程,并识别作为处理结果而获取的文本或词是否对应于触发词。
触发词分析器340可分析对应于触发词的用户话语,以识别用户话语特征。触发词分析器340可分析与触发词对应的语音部分的话语能级和速率,以识别用户话语特征。触发词分析器340可基于用户话语特征改变vad320的参数设置。
例如,触发词分析器340可将发出触发词的用户的话语速率(或话语时间)与参考话语速率(或参考话语时间)进行比较,以改变用于语音活动检测的延迟时间。在这种情况下,参考话语速率是预设值并且可以是一般人话语速率的平均值。
可替换地,可将发出触发词的用户的话语能级与参考话语能级进行比较,以改变用于语音活动检测的话语能量阈值。在这种情况下,参考话语能级可以是各种人的话语能级的平均值。
触发词分析器340可通过使用以下公式1计算值vc和ec。
公式1
这里,vc表示参考话语时间tavg(统计计算出的发出触发词期间的平均时间)与用户发出触发词的话语时间ttrigger之间的比值。ec表示参考话语能级eavg(统计计算出的发出触发词的平均话语能级)与用户发出触发词的话语能级etrigger之间的比值。
触发词分析器340可基于值vc和ec改变例如vad320的延迟时间、话语能量阈值等的参数。
例如,触发词分析器340可通过使用vc值来改变延迟时间。当用户发声速率低时,vc值减小,以及随着vc值减小,延迟时间可改变为增大。另一方面,当用户发声速率高时,vc值增加,以及随着vc值增加,延迟时间可改变为减少。下面将参考图4a和图4b进行详细描述。
此外,触发词分析器340可通过使用ec值来改变话语能量阈值。当用户话语能级低时,ec值增加,以及随着ec值增加,话语能量阈值可改变为降低。另一方面,当用户话语能级高时,ec值减小,以及随着ec值减小,话语能量阈值可改变为增大。因此,当话语能级低的用户发声时,较低的话语能量阈值被降低以防止用户的话语被识别为噪音,以及当话语能级高的用户发声时,较高的话语能量阈值被增加以防止用户的话语被识别为噪音。
触发词分析器340可基于用户话语特征,可变地设置用于分析用户话语特征(例如用户的话语速率或话语能级)的窗口(例如,汉明窗口)的大小。例如,当用户的话语速率高时可减小窗口的大小,以及当用户的话语速率低时可增大窗口的大小,以分析用户话语特征。
此外,触发词分析器340可基于由发出触发词的用户的发声音高来改变vad320的参数设置、信噪比、过零率z、光谱分析的结果等。
图4a和图4b是用于描述根据本公开实施方式分析对应于触发词的音频数据的方法的示意图。
图4a和图4b示出了当不同用户发出触发词时对应于触发词的音频数据。
参考图4a和图4b,第一音频数据410表示当第一用户发出触发词时对应于该触发词的音频数据,以及第二音频数据420表示当第二用户发出第一用户所发出的触发词时对应于该触发词的音频数据。
触发词被说出的话语部分的长度可根据用户而不同,并且当使用相同的参数执行语音活动检测时,语音活动检测的准确性和效率可能与如上参照图2a和图2b所描述的一样低。
在本公开的一个实施方式中,触发词分析器340可通过检测来自第一音频数据410的话语起点ts1和话语终点te1,来计算第一话语时间t1(=te1-ts1)。
触发词分析器340可计算说出触发词的参考话语时间t0与第一用户的第一话语时间t1之间的比值vc1,并基于该比值vc1改变vad320的延迟时间。在这种情况下,参照话语时间t0可以是普通人发出触发词的话语时间。
例如,当vad320的延迟时间设置为平均延迟时间th时,延迟时间可改变为th/vc1。
因此,当第一用户的话语速率高于参考话语速率时,比值vc1大于1并且延迟时间减少,因此可减少确定话语终点te1所需的时间。因此,当具有高话语速率的用户发声时,可减少不必要的等待时间。
此外,触发词分析器340可通过检测第二音频数据420中的话语起点ts1和话语终点te2,来计算第二话语时间t2(=te2-ts1)。
触发词分析器340可计算参考话语时间t0与第二用户的第二话语时间t2之间的比值vc2,并基于比值vc2改变vad320的延迟时间。例如,当vad320的延迟时间设置为平均延迟时间th时,延迟时间可改为th/vc2。
因此,当第二用户的话语速率低于参考话语速率时,比值vc2小于1并且延迟时间增加,因此可增加确定话语终点te2所需的时间。因此,当具有低话语速率的用户发声时,即使当无声部分相对较长,单词之间的无声部分也能不被确定为话语终点。因此,当具有低话语速率的用户发声时,可防止话语的丢失。
图5是根据本公开的实施方式的电子装置的操作方法的流程图。
参照图5,根据本公开实施方式的电子装置100可获取用户话语的音频数据(s510)。电子装置100可通过音频输入模块接收用户话语来获取音频数据,或者通过通信模块从外部装置获取用户话语的音频数据。然而,本公开的实施方式并不限于此。
此外,当识别出触发词或接收到预定的输入时,电子装置100可开始对音频数据的语音识别。
在本公开的一个实施方式中,当对音频信号开始进行语音识别时,电子装置100可通过分析用户话语的音频信号来执行语音活动检测。
电子装置100可基于从用户话语的音频数据中检测到的语音部分来识别用户话语特征(s520)。
用户话语特征可包括,但不限于,用户的话语能量、话语速率、话语时间、话语的音高等。
例如,当用户说出预设关键词时,电子装置100可通过测量用户的话语能量、话语速率、话语时间、发声音高等,并将它们与预设关键词的参考值(例如,平均话语能级、平均话语速率、平均话语时间、平均发声音高等)进行比较,来分析用户话语特征。
在这种情况下,预设关键词的参考值可预先存储在电子装置100中,或从外部装置获取。根据本公开实施方式的预设关键词可以是但不限于,触发词、唤醒词、话语开始词或指示话语开始的类似词。
电子装置100可以基于用户话语特征改变用于语音活动检测的参数(s530)。
电子装置100可基于用户的话语能级、话语速率、话语时间和发声音高,来改变用于执行语音活动检测的参数(例如,话语能量阈值、话语速率阈值、发声音高阈值、延迟时间、自动结束时间、话语分析的窗口大小等)。
电子装置100可通过使用改变的参数对用户话语的音频数据执行语音活动检测(s540)。
图6是根据本公开的另一实施方式的电子装置的操作方法的流程图。
参照图6,根据本公开实施方式的电子装置100可接收用户话语的音频数据(s610)。
例如,当电子装置100通过内部或外部音频输入模块(例如麦克风)接收用户话语时,电子装置100可从内部或外部音频输入模块接收用户话语的音频数据。可替换地,当使用外部装置的内部或外部麦克风接收用户话语时,电子装置100可通过通信模块(通信器)接收来自外部装置的音频数据。
电子装置100可对音频数据执行语音活动检测(s620)。
电子装置100可基于预设的参数从音频数据中区分语音部分(话语部分)和非语音部分(非话语部分)。例如,电子装置100可基于诸如话语能量阈值、延迟时间、自动结束时间等参数,来识别包括在音频数据中的多个帧中的每一个是否对应于语音部分或非语音部分。当对应于帧的话语能级大于或等于阈值时,电子装置100可识别出该帧为语音部分,并且当对应于帧的话语能级小于阈值时,可识别出该帧为非语音部分。
可替换地,当非语音部分持续延迟时间或更长时间时,电子装置100可确定话语已结束。当未检测到话语终点时,电子装置100可在自动结束时间已过时确定出话语已结束。
电子装置100可对被识别为语音部分的话语部分的音频数据是否与触发词相对应进行识别(s630)。触发词是指示话语开始的词,并且可称为唤醒词、话语开始词等,但不限于此。
当音频数据被识别为触发词时,电子装置100可分析对应于触发词的用户话语,以识别用户话语特征(s640)。例如,电子装置100可通过将发出触发词的用户的话语能级、话语速率、话语时间、发声音高等与触发词的参考值(例如,当一般人发出触发词时的平均话语能级、平均话语速率,平均话语时间、平均发声音高等)进行比较,来分析用户话语特征。
电子装置100可基于用户话语特征改变语音活动检测器的设置(s650)。例如,电子装置100可基于用户的话语能级、话语速率、话语时间和发声音高,来改变用于执行语音活动检测的参数(例如,话语能量阈值、话语速度阈值、发声音高阈值、延迟时间、自动结束时间、话语分析的窗口大小等)。
当在接收到触发词后输入用户的自由话语时(s660),电子装置100可通过使用经改变的参数对用户的自由话语执行语音活动检测(s670)。
图7是用于描述根据本公开实施方式的由电子装置执行的、基于用户话语特征改变用于执行语音活动检测的参数的方法的示意图。
参考图7,根据本公开实施方式的电子装置100可接收特定关键词以确定用户话语特征。
例如,当用户发出触发词或执行预定的输入时,电子装置100在其显示器上显示指示说出关键词(例如“你好abc”)的消息710。预定的输入可以是用于按压包括在电子装置100中或控制电子装置100的控制装置200中的物理按钮的输入,或可以是用于选择显示在电子装置100的显示器上或控制装置200的显示器上的图形界面(例如,图标)的输入。
关键词是电子装置100中预设的关键词,并且是简单词的组合而不是长句子。可替换地,电子装置100可存储对应于关键词的参考话语特征(例如,话语能级、话语速率、话语时间、发声音高等)。在这种情况下,对应于关键词的参考话语特征可指的是一般人在发出关键词时的平均话语能量、平均话语速率、平均话语时间、平均发声音高等。
用户可响应于显示的消息发出关键词(例如,“你好abc”)。用户可向电子装置100或控制装置200发声。当用户向电子装置100发声时,电子装置100可通过音频输入模块接收用户话语的音频数据。当用户向控制装置200发声时,电子装置100可通过通信模块接收用户话语的音频数据。
电子装置100可通过对所接收的音频数据执行语音活动检测来检测语音部分,并识别关键词是否包括在语音部分中以获取用于关键词的用户话语特征。例如,电子装置100可获取发出关键词的用户的话语特征(例如,话语能级、话语速率、话语时间、发声音高等)。
电子装置100可将获取的用户话语特征与参考话语特征进行比较来改变用于执行语音活动检测的参数(例如,话语能量阈值、话语速度阈值、发声音高阈值、延迟时间、自动结束时间、用于话语分析的窗口大小等)。
电子装置100可使用改变的参数在用户发声时执行语音活动检测。例如,电子装置100可使用改变的参数对用户在发出关键词后输入的自由话语执行语音活动检测。然而,本公开的实施方式并不限于此。
图8是用于描述根据本公开的实施方式的由电子装置执行的、通过使用包括用户信息的数据库改变用于执行语音活动检测的参数的方法的示意图。
参照图8,根据本公开实施方式的电子装置100可包括存储用户信息的数据库800。根据本公开实施方式的数据库800可包括:对应于用户识别信息的用户面部信息、用户指纹信息、语音活动检测参数或触发词话语特征(例如触发词话语能级、触发词话语速率等)中的至少一个。
例如,当第一用户用他或她的帐户信息登录并发出触发词时,电子装置100可将第一用户的触发词话语能级和触发词话语速率存储在数据库800中作为第一用户信息。
可替换地,电子装置100可在第一用户发出触发词时,通过对第一用户拍照获取第一用户的面部信息,并将获取的第一用户的面部信息作为第一用户信息存储在数据库800中。
可替换地,电子装置100可在第一用户发出触发词时通过外部装置等接收第一用户的指纹信息,并将接收到的第一用户的指纹信息作为第一用户信息存储在数据库800中。
可替换地,电子装置100可基于第一用户的触发词话语能级和触发词话语速率,来确定第一语音活动检测参数,并将确定的第一语音活动检测参数作为第一用户信息存储在数据库800中。
电子装置100也可以同样的方式将第二用户至第四用户的用户信息存储在数据库800中。
当第一用户发声时,电子装置100可通过对第一用户拍照来执行面部识别或接收第一用户的指纹图像来执行指纹识别,以识别第一用户。在这种情况下,即使当第一用户没有发出触发词,也可基于包括在第一用户信息中的第一用户的触发词话语能级、触发词话语速率和第一语音活动检测参数,来改变用于执行语音活动检测的参数。
此外,电子装置100可不仅将关于触发词的话语特征,还将第一用户先前话语输入的话语特征存储在数据库中800中,并且基于第一用户先前话语输入的话语特征来改变用于执行语音活动检测的参数。
图9是示出根据本公开实施方式的语音识别系统的示意图。
参照图9,根据本公开实施方式的语音识别系统可包括电子装置100和服务器900。服务器900可通过网络或短距离通信连接到电子装置100。在本公开的一个实施方式中,服务器900可以是执行语音识别的服务器。
在本公开的一个实施方式中,电子装置100可接收用户话语的音频数据。例如,电子装置100可将用户话语(模拟信号)通过内部或外部音频输入模块(例如麦克风)转换为作为电信号的音频信号(数字信号),并将音频信号发送到处理器。
可替换地,当根据本公开实施方式用户向控制装置200发声时,控制装置200可通过内部或外部麦克风将用户话语(模拟信号)转换为音频信号(数字信号),该音频信号是电信号。控制装置200可通过例如蓝牙(bt)模块的通信模块,将音频信号发送到电子装置100。
电子装置100可通过对音频信号(音频数据)执行语音活动检测来检测语音部分,并将检测到的语音部分发送到服务器900。
在本公开的一个实施方式中,服务器900可对从电子装置100接收的语音部分执行语音识别。语音识别可以是获得与音频信号对应的文本数据的过程。语音识别可包括语音转文本(stt)过程。例如,语音识别可包括将用户发出的语音信号识别为字符串的过程。作为语音识别的结果而获取的文本可以是自然语言的句子、单词或短语的形式。然而,本公开的实施方式并不限于此。
服务器900可通过语音识别来识别触发词是否包括在语音部分中。
当触发词包括在语音部分中时,服务器900可分析对应于触发词的用户话语,以识别用户话语特征。例如,服务器900可通过将发出触发词的用户的话语能级、话语速率、话语时间、发声音高等与触发词的参考值(例如,当一般人发出触发词时的平均话语能级、平均话语速率,平均话语时间、平均发声音高等)进行比较,来分析用户话语特征。
服务器900可将分析话语特征的结果发送到电子装置100。
可替换地,当服务器900识别触发词是否包括在语音部分中,并且将识别的结果通知给电子装置100时,电子装置100可分析对应于触发词的用户话语以识别用户话语特征。由电子装置100执行的通过分析与触发词对应的用户话语来识别用户话语特征的方法,已在上面参照图3至图8进行了详细描述,因此在此处省略对其的详细描述。
电子装置100可基于用户话语特征改变用于执行语音活动检测的参数,并且当输入触发词后输入用户的自由话语时,可通过使用改变的参数对用户的自由话语执行语音活动检测。
电子装置100可将从用户自由话语中检测到的语音部分发送到服务器900,并且服务器900可对用户的自由话语进行语音识别,并基于语音识别的结果执行一定的功能。可替换地,语音识别的结果可发送到电子装置100或另一服务器(未显示)。
当电子装置100接收到语音识别结果时,电子装置100可对应于语音识别的结果执行一定功能。可替换地,当另一服务器接收到语音识别的结果时,另一服务器可基于语音识别的结果执行一定功能或控制另一电子装置执行该功能。
可替换地,电子装置100可对从自由话语中检测到的语音部分执行语音识别,并基于语音识别的结果执行一定功能。
图10是根据本公开实施方式的电子装置的框图。
参照图10,根据本公开实施方式的电子装置100可包括麦克风110、处理器120、存储器130和通信器140。
根据本公开实施方式的麦克风110可接收来自外部装置或说话者(电子装置100的用户)的声音信号。在本公开的一个实施方式中,麦克风110可接收用户话语的语音。麦克风110可接收外部声音信号,并将外部声音信号转换为电信号(音频数据)。麦克风110可使用各种噪声去除算法来去除接收外部声音信号期间产生的噪声。
在本公开的一个实施方式中,通信器140可在处理器120的控制下,向外部装置(例如控制装置、服务器等)发送数据或信号,或从外部装置接收数据或信号。通信器140可根据无线局域网(例如wi-fi)、蓝牙、有线以太网、红外(ir)、低功耗蓝牙(ble)、超声波或zigbee的至少一种方式发送和接收数据或信号,以对应于电子装置100的性能和结构。这里,通信器140可包括至少一个通信模块,该通信模块能够根据对应于无线lan(例如wi-fi)、蓝牙、有线以太网、ir、ble、超声波和zigbee的通信标准来发送和接收数据。
在本公开的一个实施方式中,通信器140可通过使用相同的通信模块(例如wi-fi模块)向控制装置或服务器发送数据或信号,并从控制装置或服务器接收数据或信号。可替换地,在本公开的一个实施方式中,用于与控制装置通信的模块(例如,蓝牙模块或ir模块)和用于与服务器通信的模块(例如,以太网模块或wi-fi模块)可彼此不同。
在本公开的一个实施方式中,处理器120可控制电子装置100的整体操作。此外,处理器120可控制包括在电子装置100中的其他组件以执行一定操作。
在本公开的一个实施方式中,处理器120可执行存储在存储器130中的一个或多个程序。处理器120可包括单核、双核、三核、四核及其倍数。处理器120可包括多个处理器。
在本公开的一个实施方式中,存储器130可存储用于驱动和控制电子装置100的各种数据、程序或应用程序。此外,在本公开的一个实施方式中,存储器130可存储如上参照图8所示并描述的用户信息。例如,存储器130可存储与用户识别信息相对应的用户面部信息、用户指纹信息、语音活动检测参数或触发词话语特征中的至少一项作为用户信息。
存储在存储器130中的程序可包括一个或多个指令。存储在存储器130中的程序(一个或多个指令)或应用程序可由处理器120执行。
在本公开的一个实施方式中,处理器120可获取用户话语的音频数据,并对所获取的音频数据执行语音活动检测。处理器120可执行语音活动检测,以检测音频数据中的语音部分(话语部分),并基于检测出的语音部分识别用户话语特征。例如,处理器120可识别所检测的语音部分是否对应于预设关键词或触发词。处理器120可分析与预设关键词或触发词对应的用户话语来识别用户话语特征。
处理器120可基于用户话语特征(例如话语能级、话语速率、话语时间、发声音高等)来改变执行语音活动检测的参数。例如,处理器120可基于用户话语特征改变话语能量阈值、话语速率阈值、发声音高阈值、延迟时间、自动结束时间、用于分析话语的窗口大小等等。
此外,处理器120还可识别正在发声的用户,并通过使用与识别出的用户对应的用户信息来识别用户话语特征或改变用于执行语音活动检测的参数。
处理器120可通过使用改变的参数对用户的话语执行语音活动检测。
图11是根据本公开的另一实施方式的电子装置1000的框图。
图11中的电子装置1000可与上述参照图1至图10所描述的根据本公开实施方式的电子装置100相对应。
参照图11,根据本公开实施方式的电子装置1000包括:调谐器1040、处理器1010、显示器1020、通信器1050、检测器1030、输入器/输出器1070、视频处理器1080、音频处理器1085、音频输出器1060、存储器1090以及电源1095。
图11中的麦克风1031对应于图10中的麦克风110,图11中的通信器1050对应于图10中的通信器140,图11中的处理器1010对应于图10中的处理器120,以及图11中的存储器1090对应于图10中的存储器130,因此在这里省略了对他们的详细描述。
在本公开的一个实施方式中,通过对经由有线或无线接收的广播信号执行放大、混合或共振,调谐器1040可对各种无线电波组件中的、仅由电子装置1000接收的信道的频率进行调谐和选择。广播信号包括音频数据、视频和附加信息(例如电子节目指南(epg))。
调谐器1040可从各种来源接收广播信号,例如,地面广播、有线广播、卫星广播、互联网广播等。调谐器1040可从诸如模拟广播或数字广播的源中接收广播信号。
在本公开的一个实施方式中,在处理器1010控制下,通信器1050可向外部装置或服务器发送数据或信号,并从外部装置或服务器接收数据或信号。处理器1010可向通过通信器1050连接到其上的外部装置(未显示)发送内容或从外部装置接收内容、从外部装置下载应用程序或执行网页浏览。
此外,通信器1050可包括:包括无线lan模块1051、蓝牙模块1052和有线以太网模块1053中的一个或多个的组合。
视频处理器1080处理由电子装置1000接收到的视频数据。视频处理器1080可对视频数据执行各种图像处理操作,例如解码、缩放、噪声滤波、帧率转换、分辨率转换等。
检测器1030可检测用户的语音、用户的图像或用户的交互,并包括麦克风1031、相机1032和光学接收器1033。
麦克风1031接收用户发出的语音。麦克风1031可将接收到的语音转换为电信号并将电信号输出给处理器1010。用户的语音可包括例如与电子装置1000的菜单或功能对应的语音。
相机1032可接收在相机识别范围内的对应于用户的动作(包括手势)的图像(例如连续帧)。处理器1010可通过使用接收到的对动作的识别结果来选择显示在电子装置1000上的菜单,或者可执行与动作的识别结果相对应的控制。
光学接收器1033通过显示器1020的边框的光学窗口(未显示)等从外部控制装置接收光信号(包括控制信号)。光学接收器1033可接收来自控制装置(未显示)的与用户输入(例如触摸、按压、触摸手势、语音或动作)相对应的光信号。在处理器1010的控制下,可从接收到的光信号中提取控制信号。
在处理器1010的控制下,输入器/输出器1070从电子装置1000外部接收视频(例如,运动的图像)、音频信号(例如,语音或音乐)、附加信息(例如,epg)等。可替换地,在处理器1010的控制下,输入器/输出器1070向外部装置传输视频、音频信号、附加信息等。输入器/输出器1070可包括高清多媒体接口(hdmi)端口1071、组件插孔1072、pc端口1073和usb端口1074中的一个。输入器/输出器1070可包括hdmi端口1071、组件插孔1072、pc端口1073和usb端口1074的组合。此外,输入器/输出器1070可包括显示端口(dp)、雷电端口等。
处理器1010控制电子装置1000的总体操作和电子装置1000的内部组件之间的信号流,并执行数据处理功能。当存在用户输入或满足预设并存储的条件时,处理器1010可执行存储在存储器1090中的操作系统和各种应用程序。
处理器1010可包括随机存取存储器(ram)和只读存储器(rom),其中随机存取存储器(ram)用于存储从电子装置1000的外部输入的信号或数据,或用作与由电子装置1000执行的各种操作对应的存储区域,以及只读存储器(rom)用于存储控制电子装置1000的控制程序。
处理器1010可包括图形处理器(未显示)。图形处理器使用操作单元(未显示)和渲染器(未显示)生成包括各种对象(例如图标、图像和文本)的屏幕。操作单元通过使用由检测器1030检测到的用户输入,计算根据屏幕的布局待显示的每个对象的属性值,例如坐标、形状、大小和颜色。渲染器基于操作单元计算的属性值,生成包括对象的各种布局的屏幕。由渲染器生成的屏幕显示在显示器1020的显示区域上。
显示器1020通过转换由处理器1010处理的图像信号、数据信号、屏幕上显示(osd)信号、控制信号等来生成驱动信号。显示器1020可实现为等离子显示面板(pdp)、液晶面板(lcd)、有机发光二极管(oled)显示器、柔性显示器等,或者可实现为三维(3d)显示器。可替换地,显示器1020可配置为触摸屏,除了用作输出装置外,还用作输入装置。
音频处理器1085处理音频数据。音频处理器1085可对音频数据执行各种操作,例如解码、放大和噪声滤波。音频处理器1085可包括多个音频处理模块,以处理与多段内容对应的音频数据。
在处理器1010的控制下,音频输出器1060输出包括在通过调谐器1040接收的广播信号中的音频数据。音频输出器1060可输出经由通信器1050或输入器/输出器1070输入的音频数据(例如,语音或声音)。在处理器1010的控制下,音频输出器1060可输出存储在存储器1090中的音频数据。音频输出器1060可包括扬声器1061、耳机输出终端1062或索尼/飞利浦数字接口(s/pdif)输出终端1063中的至少一个。音频输出器1060可以包括扬声器1061、耳机输出终端1062和s/pdif输出终端1063的组合。
在处理器1010的控制下,电源1095将来自外部电源的电力提供到电子装置1000的内部组件。可替换地,在处理器1010的控制下,电源1095将从包括在电子装置1000中的一个或多个电池(未显示)输出的电力提供给内部组件。
在处理器1010的控制下,存储器1090可存储用于驱动和控制电子装置1000的各种数据、程序或应用程序。虽然未示出,存储器1090可包括广播接收模块、信道控制模块、音量控制模块、通信控制模块、语音识别模块、动作识别模块、光学接收模块、显示控制模块、音频控制模块、外部输入控制模块、电力控制模块、无线连接(例如蓝牙)的外部装置的电力控制模块、语音数据库(db)或动作数据库(db)。存储器1090的模块和数据库(图中未显示)可实现为软件,以由电子装置1000来执行广播接收控制功能、信道控制功能、音量控制功能、通信控制功能、语音识别功能、动作识别功能和光学接收控制功能、显示控制功能、音频控制功能、外部输入控制功能、电力控制功能或无线连接(例如蓝牙)的外部装置的电力控制功能。处理器1010可通过使用存储在存储器1090中的软件来执行这些功能中的每一个。
图10和图11中所示的电子装置100和1000的框图仅是根据本公开的实施方式的框图。根据实际实现的电子装置100和1000的说明,每个框图的某些组件可组合在一起或省略,或可对其添加新的组件。也就是说,两个或更多个组件可组合成一个组件,或者一个组件可根据需要分成两个或更多个组件。在每个块中执行的功能仅被提供用于解释本公开的实施方式,且本公开的范围不应被解释为限于特定的操作或装置。
根据本公开的实施方式,电子装置的操作方法可以通过各种计算机手段执行的程序指令的形式实现,并记录在计算机可读记录介质上。计算机可读记录介质可包括单独的程序指令、数据文件、数据结构等或其组合。记录在该介质上的程序指令可以是专门为本公开而设计和配置的,也可以是计算机软件领域中的普通技术人员所熟知并可用的。计算机可读记录介质的例子包括例如硬盘、软盘和磁带的磁性介质,例如cd-rom和dvd的光学介质,例如光磁软盘的磁光介质以及例如rom、ram和闪存的硬件装置,它们是专门配置为存储和执行程序指令。程序指令的例子不仅包括由编译器生成的机器代码,而且还包括使用解释器等通过计算机可执行的高级语言代码。
根据在本文中阐明的本公开实施方式的电子装置的操作方法可通过包括在计算机程序产品中来提供。计算机程序产品可作为卖方和买方之间进行交易的产品。
计算机程序产品可包括软件程序和其上存储有软件程序的计算机可读存储介质。例如,计算机程序产品可包括以软件程序的形式通过广播接收装置制造商或电子市场(如googleplaystore或appstore)电子分发的产品(例如可下载的应用程序)。对于电子分发,可将软件程序的至少一部分存储在存储介质中或暂时生成。在这种情况下,存储介质可以是制造商的服务器、电子市场的服务器或临时存储软件程序的中继服务器的存储介质。
计算机程序产品可包括服务器的存储介质或包括服务器和客户端装置的系统中的客户端装置的存储介质。可替换地,当存在通信地连接到服务器或客户端装置的第三装置(例如智能手机)时,计算机程序产品可包括第三装置的存储介质。可替换地,计算机程序产品可包括从服务器传输到客户端装置或第三装置或者从第三装置传输到客户端装置的软件程序。
在这种情况下,服务器、客户端装置和第三装置中的一个可执行计算机程序产品,以执行在本文中阐明的根据本公开实施方式的方法。可替换地,服务器、客户端装置和第三装置中的两个或更多个可执行计算机程序产品,以分配地执行在本文中阐明的根据本公开实施方式的方法。
例如,服务器(例如云服务器或人工智能服务器)可执行存储在其中的计算机程序产品,以控制通信连接到服务器的客户端装置来执行在本文中阐明的根据本公开实施方式的方法。
在本公开的一个实施方式中,电子装置可根据用户话语特征应用不同的参数来执行语音活动检测,从而提高语音活动检测的准确性和效率。
能够防止具有低话语速率的用户的话语丢失,并减少具有高话语速率的用户的不必要的等待时间。
通过使用触发词的话语能够容易地分析用户话语特征。
虽然以上已详细描述了本公开的实施方式,但本公开的范围不限于此,并且应理解,本领域普通技术人员使用在所附权利要求书中限定的对本公开的基本概念而进行的各种修改和改进包括在本公开的范围内。
1.电子装置,包括:
存储器,存储一个或多个指令;以及
处理器,配置为执行存储在所述存储器中的所述一个或多个指令,以接收与用户的语音输入对应的音频数据,
以基于接收的音频数据,识别用户语音特征,
通过使用所识别的用户语音特征来识别用于执行与语音检测对应的功能的参数,以及
通过使用所识别的参数,对所述用户的语音输入执行与语音检测对应的所述功能。
2.如权利要求1所述的电子装置,其中,识别所述用户语音特征包括:基于包括在所述音频数据中的、与所述用户发出的触发词对应的语音部分,识别所述用户语音特征。
3.如权利要求2所述的电子装置,其中,识别所述参数包括:将识别出的用户语音特征与关于所述触发词的参考语音特征进行比较,并基于比较的结果改变所述参数。
4.如权利要求1所述的电子装置,其中,对所述用户的语音输入执行与语音检测对应的所述功能包括:检测在所述用户发声的情况下所述用户的语音在所述接收的音频数据上的起点以及所述用户的语音在所述接收的音频数据上的终点,以区分所述接收的音频数据的话语部分与所述接收的音频数据的非话语部分。
5.如权利要求1所述的电子装置,其中,所识别的用户语音特征包括:所述用户的话语速率、话语能级或发声音高中的至少一项。
6.如权利要求1所述的电子装置,其中,用于执行与语音检测对应的功能的所述参数包括:在所述用户发声的情况下用于识别所述接收的音频数据的话语部分的能量阈值、延迟时间或自动结束时间中的至少一项。
7.如权利要求1所述的电子装置,还包括通信器,所述通信器配置为接收与所述用户的语音输入对应的所述音频数据。
8.如权利要求1所述的电子装置,还包括麦克风,所述麦克风配置为接收所述用户的语音输入并将所述用户的语音输入转换为所述音频数据。
9.电子装置的操作方法,所述操作方法包括:
接收与用户的语音输入对应的音频数据;
基于接收的音频数据,识别用户语音特征;
通过使用所识别的用户语音特征,来识别用于执行与语音检测对应的功能的参数;以及
通过使用所识别的参数,对所述用户的语音输入执行与语音检测对应的所述功能。
10.如权利要求9所述的操作方法,其中,识别所述用户语音特征包括:基于包括在所述音频数据中的、与所述用户发出的触发词对应的语音部分,识别所述用户语音特征。
11.如权利要求10所述的操作方法,其中,识别用于执行与语音检测对应的功能的所述参数包括:将识别出的用户语音特征与关于所述触发词的参考语音特征进行比较,并基于比较的结果改变所述参数。
12.如权利要求9所述的操作方法,其中,对所述用户的语音输入执行与语音检测对应的所述功能包括:检测在所述用户发声的情况下所述用户的语音的起点以及所述用户的语音的终点,以区分所述接收的音频数据的话语部分与所述接收的音频数据的非话语部分。
13.一种非暂时性计算机可读记录介质,在所述非暂时性计算机可读记录介质上记录有用于在计算机中执行如权利要求9所述的操作方法的程序。
技术总结