语音处理装置以及语音处理方法与流程

专利2022-07-08 177

本发明涉及语音处理装置以及语音处理方法，尤其涉及适于在使得用户所发出的语音成为文本并发送的语音处理装置以及语音处理方法中使用的技术。

背景技术：

以往，已知对用户所发出的语音进行语音识别的装置。例如，在专利文献1中记载了如下语音处理装置：具有语音识别功能和语音合成功能这双方的功能，在通过语音合成功能朗读发声数据时，能够将其中断而执行语音识别功能等，能够将一方的功能中断而执行另一方的功能。

另外，以往作为能够进行语音识别的装置存在如下装置：输入用户所发出的语音，使得输入的语音成为文本，将文本作为聊天应用的消息或邮件发送。通过利用这种装置，用户不进行使用手的操作，就能够通过发声这样的手段，向对方发送由期望的内容的文章而成的文本。

现有技术文献

专利文献

专利文献1日本特开平10－161846号公报

技术实现要素：

在上述使得用户所发出的语音成为文本并发送的装置中，以往存在以下问题。即，以往的装置使得在接受语音的期间中用户所发出的全部语音成为文本。因此，在上述期间中，在用户需要发出不想使其成为文本并发送的特定语句，并且用户发出了这样的特定语句的情况下，在最终成为文本的文章内，结果导致包含了这样的特定语句的文本。例如，在以往的装置中有的具有如下功能：在用户发出了某特定语句时，执行与该特定语句对应的特定的处理。另外，在使用这种以往的装置时，需要使该以往的装置执行特定的处理。在这种时候，用户发出特定语句的语音，结果导致在最终成为文本的文章内包含了特定语句的文本。在最终成为文本的文章内包含了不想使其成为文本并发送的语句的文本的情况下，用户需要暂时取消文本的发送，并进行重新发声这样的重复的作业，这成为用户的麻烦。

本发明为了解决这种问题而做出，其目的在于，即使在接受要使其成为文本的文章的语音的期间中，有不想使其成为文本并发送的语句被发声的情况下，用户也无需进行重复的作业。

为了解决上述的课题，在本发明中，发送在接受语音的期间中输入的语音所表示的文章之中的除了特定语句以外的文章的文本。根据如上述那样构成的本发明，不是使得在接受语音的期间中输入的语音所表示的文章的全部都成为文本并发送，而是将特定语句自动地去除，并发送去除了特定语句后的文章的文本。因此，即使在接受语音的期间中，用户发出了不想使其成为文本并发送的特定语句的情况下，也会从最终成为文本并发送的文章中自动地去除特定语句，用户无需暂时取消文本的发送并进行重新发声这样的重复的作业。

附图说明

图1是表示本发明的第1实施方式所涉及的语音处理装置的功能构成例的模块图。

图2是表示聊天室画面的一例的图。

图3是用于说明包含语音接受期间的各期间的关系的图。

图4是表示全语音文本数据的内容的例子的图。

图5是表示本发明的第1实施方式所涉及的语音处理装置的动作例的流程图。

图6是表示本发明的第1实施方式所涉及的语音处理装置的动作例的流程图。

图7是表示本发明的第1实施方式所涉及的语音处理装置的动作例的流程图。

图8是表示本发明的第1实施方式所涉及的语音处理装置的动作例的流程图。

图9是表示本发明的第2实施方式所涉及的语音处理装置的功能构成例的模块图。

图10是表示在消息栏中追加语句的情形的图。

图11是表示本发明的第2实施方式所涉及的语音处理装置的动作例的流程图。

图12是表示本发明的第3实施方式所涉及的语音处理装置的功能构成例的模块图。

附图标记说明：

1、1a、1b语音处理装置

11语音输入部

13、13a、13b文章处理部

14特定处理执行控制部

15文章发送部

16语音指令一览存储部(存储部)

具体实施方式

＜第1实施方式＞

以下基于附图说明本发明的第1实施方式。图1是表示语音处理装置1的功能构成例的模块图。本实施方式所涉及的语音处理装置1是搭载于车辆的装置，具有提供文本聊天的用户界面的功能，该文本聊天的用户界面供多人对话文本的消息。特别是，本实施方式所涉及的语音处理装置1具有如下功能：在文本聊天时，输入由使用本装置的乘员(以下简称为”用户”)在规定的期间内发出的语音，使得输入的语音所表示的文章成为文本，将成为文本的文章作为消息发送(以下称为“消息语音输入功能”)。用户通过利用消息语音输入功能，不进行使用手的输入，就能够生成在文本聊天中向对方发送的消息并进行发送。

进而，本实施方式所涉及的语音处理装置1具有如下功能：在用户发出了预先准备的多个语音指令之中的某一个语音指令的情况下，识别所发出的语音指令，执行与语音指令对应的特定的处理，或者使其他装置执行特定的处理(以下称为“语音指令接受功能”)。语音指令被预先准备，用户知晓各语音指令以及在发出了各语音指令时执行的特定的处理。在本实施方式中，语音指令设为至少有“使刮水器工作。”这样的语句。以下将该语音指令特别称为“刮水器驱动指示指令”。刮水器驱动指示指令是指示开始驱动刮水器的语音指令，如果用户发出了刮水器驱动指示指令，则执行“驱动刮水器”作为对应的特定的处理。

其中，语音指令不限于本实施方式中例示的指令。例如，语音指令也可以是“寻找附近的便利店”这样的指示按照特定的条件检索特定类别的设施的语句、“回家”这样的指示检索回家的路径的语句。关于这些语音指令，语音处理装置1使未图示的导航装置执行对应的处理。以下将语音处理装置1被搭载的车辆称为“本车辆”。

在以下的说明中，在不是后述的语音接受期间的期间中，设为适当地进行语音指令的接受，关于不是语音接受期间的期间中与语音指令相对应地由语音处理装置1执行的处理省略说明。

如图1所示，语音处理装置1与麦克风2以及触摸屏幕3连接。麦克风2设在能够对搭载于本车辆的用户所发出的语音进行收音的位置。麦克风2对语音进行收音，并输出所收音的语音的语音信号。

触摸屏幕3具有液晶显示面板或有机el面板等显示面板、以及与显示面板重叠配置的触摸传感器，在显示区域中显示画面，另外，检测针对接触检测区域的触摸操作。与文本聊天相关的各种画面被显示于触摸屏幕3。触摸屏幕3设在仪表盘的中央部等，能够由用户对显示区域进行视觉辨认并对接触检测区域进行触摸操作的位置。

如图1所示，语音处理装置1具备总括控制部10、语音输入部11、语音数据分析部12、文章处理部13、特定处理执行控制部14以及文章发送部15。上述各功能模块10～15能够由硬件、dsp(digitalsignalprocessor：数字信号处理器)、软件中的任一种构成。例如在由软件构成的情况下，上述各功能模块10～15实际上具备计算机的cpu、ram、rom等而构成，通过ram、rom、硬盘或者半导体存储器等记录介质中存储的程序工作来实现。

如图1所示，语音处理装置1具备语音指令一览存储部16(相当于权利要求书的“存储部”)作为存储介质。语音指令一览存储部16存储语音指令一览数据17。语音指令一览数据17针对各个语音指令，记述了语音指令的语句(以下称为“语音指令语句”)的文本。在本实施方式中，语音指令一览数据17中至少记述了刮水器驱动指示指令的“使刮水器工作。”这样的语音指令语句的文本。

以下，说明语音处理装置1的工作模式从不是聊天模式的模式转移至聊天模式，并且使得用户所发声的文章成为文本并作为消息发送的情况下的语音处理装置1的动作。所谓聊天模式，指的是由语音处理装置1向用户提供文本聊天的用户界面，以供用户能够与期望的对象进行文本聊天的工作模式。

总括控制部10通过语音处理装置1的固件、在固件上工作的应用、其他程序的功能，总括地对语音处理装置1的各部进行控制。总括控制部10能够控制触摸屏幕3来显示各种画面，另外，在对触摸屏幕3进行了触摸操作的情况下，能够检测其位置座标。

总括控制部10在工作模式为不是聊天模式的模式时，在触摸屏幕3显示用于指示向聊天模式转移的按钮(图标)。如果由用户对该按钮进行了触摸操作，则总括控制部10启动与文本聊天相关的应用，通过该应用以及附带的程序的功能，将与文本聊天相关的各种画面显示于触摸屏幕3。

用户在希望与某个对象(也可以是多个人)进行文本聊天的情况下，通过针对规定的画面进行规定的触摸操作，选择使消息语音输入功能开启或关闭，进一步指示打开作为与该对象交换消息的场所的消息交换聊天室。总括控制部10基于用户的选择使消息语音输入功能开启或关闭，另外基于用户的指示将用户所指示的消息交换聊天室的画面20显示于触摸屏幕3。以下将消息交换聊天室的画面20称为“聊天室画面20”。

图2的(a)是将本实施方式所涉及的聊天室画面20简化示出的图。如图2的(a)所示，在聊天室画面20中，在画面的左侧按照时间序列显示记述了对象的消息的消息栏21，并且在右侧按照时间序列显示记述了用户的消息的消息栏21。在一个消息栏21中记述的全部文章成为在一次对话中作为消息被发送的单位。另外，在聊天室画面20中明确表示出消息语音输入功能的开启/关闭。

总括控制部10在消息语音输入功能被开启的状态下打开了消息交换聊天室的情况下，向语音输入部11以及语音数据分析部12输出指示开始消息语音输入功能的功能开启指示信息。另外，总括控制部10在消息语音输入功能被关闭、或者通过用户的指示等关闭了消息交换聊天室的情况下，向语音输入部11以及语音数据分析部12输出指示关闭消息语音输入功能的功能关闭指示信息。

语音输入部11输入用户所发出的语音。以下，详细说明语音输入部11的处理。

语音输入部11在从总括控制部10输入了功能开启指示信息直到输入功能关闭指示信息为止的期间(以下称为“消息语音输入期间”)中，执行以下的处理。即，语音输入部11输入由麦克风2输出的语音信号，针对语音信号进行包括采样、量化、编码的模拟/数字转换处理，进行其他信号处理来生成语音数据，并向缓冲器18进行缓冲。缓冲器18是形成于ram等的工作区域的存储。语音数据是以规定的采样周期(作为一例是16khz)被采样而成的语音波形的数据。

语音数据分析部12对语音接受期间(后述)的开始和结束进行检测。另外，语音数据分析部12对缓冲器18所缓冲的语音数据中出现了消息发送词进行检测。以下详细说明语音数据分析部12的处理。

图3是为了表示消息语音输入期间、消息开始词被发声的期间、消息结束词被发声的期间、消息发送词被发声的期间、以及语音接受期间的各期间的关系，在表示时间经过的轴上明确示出各期间的图。在轴上，时间在图中从左向右经过。首先，利用图3说明消息开始词、消息结束词、消息发送词以及语音接受期间。

在本实施方式中，在希望利用消息语音输入功能，使得某文章成为文本并作为消息发送时，用户对由固定的语句构成的消息开始词进行发声，然后对希望成为文本的文章进行发声，再之后对由固定的语句构成的消息结束词进行发声。消息开始词作为一例是“消息开始”这样的语句，消息结束词作为一例是“消息结束”这样的语句。也就是说，在本实施方式中，从消息开始词结束发声直到消息结束词的发声开始的期间，是接受成为文本的文章(＝用户希望使其成为文本的文章)的语音的期间。另外，该期间相当于“语音接受期间”。

另外，在本实施方式中，如后所述，在用户对消息结束词进行发声之后，在聊天室画面20的消息栏21中显示向对方发送的预定的文章的文本。用户确认在消息栏21中显示的文章的内容，在内容没有问题而希望执行发送的情况下，对消息发送词进行发声。消息发送词作为一例是“消息发送”这样的语句。与用户对消息发送词进行发声相应地向对象发送文章。

在图3中，在定时ts消息语音输入期间开始，在定时te消息语音输入期间结束。在定时ts之后的定时t1消息开始词的发声开始，在定时t1之后的定时t2消息开始词的发声结束。另外，在定时t2之后的定时t3消息结束词的发声开始，在定时t3之后的定时t4消息结束词的发声结束。另外，在定时t4之后的定时t5消息发送词的发声开始，在定时t5之后的定时t6消息发送词的发声结束。在图3的例子的情况下，从定时t2至定时t3为止的期间相当于语音接受期间，该语音接受期间中用户所发声的文章成为文本化的对象。

另外，如果消息语音输入期间开始(＝从总括控制部10输入了功能开启指示信息)，语音数据分析部12则随时分析缓冲器18所缓冲的语音数据，监视语音数据中是否出现了消息开始词的语音波形。在本实施方式中，消息开始词的语音模式(＝消息开始词被发声时的语音波形的模式)被事先登记。也可以登记多个语音模式。语音数据分析部12随时对语音数据的语音波形与消息开始词的语音模式进行比较并计算类似度，在类似度成为一定以上的情况下，判定为语音数据中出现了消息开始词的波形。

在检测到语音数据中出现了消息开始词的语音波形的情况下，语音数据分析部12确定语音数据中的消息开始词的语音波形的结束位置(以下称为“开始词结束位置”)。开始词结束位置是与语音接受期间开始的定时(图3的定时t2)对应的位置。语音数据中的语音波形的位置例如以消息语音输入期间开始的定时(图3的定时ts)作为起点(第0周期)，并以第○周期的形式表现。例如，在语音数据是以16khz的采样周期被采样而成的数据的情况下，开始词结束位置以“第16324周期”的形式被表现。在确定了开始词结束位置之后，语音数据分析部12将表示开始词结束位置的信息输出至文章处理部13。

然后，语音数据分析部12随时分析缓冲器18所缓冲的语音数据，监视语音数据中是否出现了消息结束词的语音波形。该监视基于事先登记的消息结束词的语音模式，以与上述的监视消息开始词的语音波形是否出现的方法相同的方法执行。在检测到语音数据中出现了消息结束词的语音波形的情况下，语音数据分析部12确定语音数据中的消息结束词的语音波形的开始位置(以下称为“结束词开始位置”)。结束词开始位置是与语音接受期间结束的定时(图3的定时t3)对应的位置。在确定了结束词开始位置之后，语音数据分析部12将表示结束词开始位置的信息输出至文章处理部13。

然后，语音数据分析部12随时分析缓冲器18所缓冲的语音数据，监视语音数据中是否出现了消息发送词的语音波形。该监视基于事先登记的消息发送词的语音模式，以与上述的监视消息开始词的语音波形是否出现的方法相同的方法执行。在检测到语音数据中出现了消息发送词的语音波形的情况下，语音数据分析部12将通知语音数据中出现了消息发送词的语音波形的发送指示信息输出至总括控制部10。然后，语音数据分析部12再次开始监视语音数据中是否出现了消息开始词的语音波形。

由语音数据分析部12进行以上处理，结果在用户对消息开始词进行发声时，表示开始词结束位置的信息立即被输出至文章处理部13，在用户对消息结束词进行发声时，表示结束词开始位置的信息立即被输出至文章处理部13。另外，在用户对消息发送词进行发声时，用于通知语音数据中出现了消息发送词的语音波形的发送指示信息立即被输出至总括控制部10。

文章处理部13输出从在语音接受期间内语音输入部11所输入的语音所表示的文章中去除了特定语句后的文章的文本，该语音接受期间即接受要成为文本的文章的语音的期间。特别是，本实施方式所涉及的文章处理部13在语音接受期间结束后，从语音接受期间中语音输入部11输入的全部的语音所表示的文章所成的文本中，提取特定语句的文本并删除，输出删除后的文章的文本。此时，文章处理部13基于与语音指令一览存储部16中事先存储的特定语句的文本之间的一致性，从成为文本的文章中提取特定语句的文本。以下详细说明文章处理部13的处理。

文章处理部13在语音数据分析部12输出了表示消息开始词的结束位置的信息的情况下，将其输入。然后，文章处理部13在语音数据分析部12输出了表示消息结束词的开始位置的信息的情况下，将其输入。文章处理部13如果输入了表示消息结束词的开始位置的信息，则基于该信息以及此前输入的表示消息开始词的结束位置的信息，识别缓冲器18所缓冲的语音数据中的消息开始词的结束位置以及消息结束词的开始位置。另外，文章处理部13取得缓冲器18所缓冲的语音数据之中的属于从消息开始词的结束位置至消息结束词的开始位置为止的范围的语音数据(以下称为“处理对象语音数据”)。

在取得了处理对象语音数据之后，文章处理部13针对处理对象语音数据执行语音识别，使得处理对象语音数据中记录的文章成为文本，生成记述了成为文本的文章的文本数据23(以下称为“全语音文本数据23”)。在生成全语音文本数据23时，文章处理部13将文章按每个语句划分并在数据中记述。所谓语句，是在文章中的要素中成为表现完结的表现内容的最小单位的要素。语句在日语和汉语中基本上以句号“。”结束，另外在英语中基本上以句点“.”结束。

图4的各图是表示全语音文本数据23的内容的例子的图。例如，设为用户在语音接受期间内对“今天谢谢。今后也请多多关照。”的文章进行发声，该文章成为全语音文本数据23中记述的对象。在该情况下，如图4的(a)所示，“今天谢谢。”这样的要素构成一个语句，进而“今后也请多多关照。”这样的要素构成一个语句。其中，在图4的(a)(后述的图4的(b)也同样)中，将划分符号“/”方便地用作划分语句与语句的记号。

在此，如上所述，本实施方式所涉及的语音处理装置1具有语音指令接受功能，用户知晓通过对预先准备的语音指令之中的的某一个语音指令进行发声，能够执行与该语音指令对应的特定的处理。因此，用户有时在语音接受期间内为了执行特定的处理而对语音指令进行发声。

例如，设为用户希望使得“今天谢谢。今后也请多多关照。”这样的文章成为文本并且作为消息发送，在对消息开始词进行发声之后，首先对“今天谢谢。”这样的文章进行发声。另外，设为在该时刻用户注意到车外的雨变大了，考虑需要使刮水器工作。在该情况下，用户为了尽快使刮水器工作，在对“今后也请多多关照。”这样的文章进行发声之前，对“使刮水器工作。”这样的文章进行发声。在该情况下，如图4的(b)所示，在全语音文本数据23中，成为记述了“今天谢谢。”、“使刮水器工作。”以及“今后也请多多关照。”这三个语句的状态。

其中，通过基于与自然语言处理相关的现有技术实施词素分析、语法结构分析、含义结构分析等，适当地基于语音识别生成全语音文本数据23。技术的一部分也可以使用人工智能技术。另外，也可以构成为文章处理部13与外部装置联动地生成全语音文本数据23。例如，也可以构成为使语音处理装置1能够访问网络，文章处理部13向具有基于语音数据生成全语音文本数据23的功能的服务器发送语音数据，作为其响应接受全语音文本数据23。

在生成了全语音文本数据23之后，文章处理部13参照语音指令一览存储部16中存储的语音指令一览数据17，执行以下的处理。即，文章处理部13按全语音文本数据23中记述的文章的每个语句，判定是否与语音指令一览数据17中记述的语音指令语句的某一个具有一致性。如上所述，在本实施方式中，在语音指令一览数据17中作为语音指令语句记述了“使刮水器工作。”这样的语句的文本。因此，在本实施方式中，文章处理部13按全语音文本数据23中记述的每个语句，至少判定是否与“使刮水器工作。”这样的语音指令语句具有一致性。

在判定全语音文本数据23中记述的语句与语音指令一览数据17中记述的语音指令语句之间有无一致性时，在本实施方式中，文章处理部13除了字符串的一致性之外，还反映基于自然语言处理的意图解释处理的意图的一致性，来判定全语音文本数据23中记述的语句与语音指令语句之间有无一致性。因此，除了各语句的字符串完全一致的情况之外，在意图一致的范围内产生了文字上的差异的情况下，文章处理部13也有时判定为各语句具有一致性。

文章处理部13针对全语音文本数据23中记述的语句之中的与哪个语音指令语句都不具有一致性的语句，维持全语音文本数据23中记述的状态。另一方面，文章处理部13针对全语音文本数据23中记述的语句之中的与某一个语音指令语句具有一致性的语句，从全语音文本数据23删除该语句。例如，在全语音文本数据23的内容是图4的(b)中示出的内容的情况下，第2语句即“使刮水器工作。”的语句与语音指令语句一致。因此在该情况下，文章处理部13将该第2语句从全语音文本数据23中删除。进行以上处理的结果是，在全语音文本数据23中记述了与某一个语音指令语句具有一致性的语句的情况下，通过文章处理部13从全语音文本数据23中提取该语句并删除。

文章处理部13在执行了关于判定与语音指令语句的一致性以及删除具有一致性的语句的处理之后，将处理后的全语音文本数据23(以下称为“处理后语音文本数据”)输出至总括控制部10。进而，文章处理部13在判定为全语音文本数据23中的某语句与某语音指令语句具有一致性的情况下，将用于识别与该语音指令语句对应的语音指令的识别信息输出至特定处理执行控制部14。

特定处理执行控制部14基于由文章处理部13去除的特定语句，执行特定的处理，或者使具有执行特定的处理的功能的装置执行特定的处理。以下，详细说明特定处理执行控制部14的处理。

特定处理执行控制部14在从文章处理部13输入了语音指令的识别信息的情况下，执行以下的处理。即，特定处理执行控制部14基于输入的识别信息识别语音指令(＝用户所发出的语音指令)，执行用于成为执行了与识别出的语音指令对应的特定的处理后的状态的处理。关于各语音指令，特定处理执行控制部14所执行的处理被预先决定，特定处理执行控制部14通过执行预先决定的处理，成为执行了与语音指令对应的特定的处理后的状态。

例如，在输入了刮水器驱动指示指令的识别信息的情况下，特定处理执行控制部14向控制刮水器的驱动的控制单元，输出指示刮水器的驱动的控制指令。控制单元输入控制指令，开始驱动刮水器。

总括控制部10在从文章处理部13输入了处理后语音文本数据的情况下，执行以下处理。即，总括控制部10在聊天室画面20中生成消息栏21，并且将输入的处理后语音文本数据中记述的文章作为消息显示于消息栏21。例如，在显示图2的(a)所示的聊天室画面20的状況下，输入了与图4的(a)的全语音文本数据23相同内容的处理后语音文本数据的情况下，总括控制部10以如图2的(b)所示的方式，生成消息栏21，在该消息栏21中显示消息。用户确认消息栏21的消息的内容，如果内容没有问题，则对消息发送词进行发声，由此指示发送消息。如果消息发送词被发声，则语音数据中出现消息发送词的语音波形，语音数据分析部12将发送指示信息输出至总括控制部10。

在显示消息后，总括控制部10监视从语音数据分析部12是否输入了发送指示信息。在输入了发送指示信息的情况下，总括控制部10向文章发送部15指示发送消息。

文章发送部15基于来自总括控制部10的指示，针对规定的服务器按照协议发送消息。结果，从用户在语音接受期间内发声的文章中去除了语音指令语句后的文章成为文本，并作为消息被发送给对方。

如以上说明，本实施方式所涉及的语音处理装置1发送从在接受语音的期间中输入的语音所表示的文章中去除了语音指令语句(特定语句)后的文章的文本。根据该结构，不是使在接受语音的期间中输入的语音所表示的全部文章都成为文本并发送，而是自动地去除语音指令语句，发送去除了语音指令语句后的文章的文本。因此，即使在接受语音的期间中，用户发出了不想使其成为文本并发送的语音指令的情况下，也自动地从最终作为文本发送的文章中去除语音指令，用户无需暂时取消文本的发送并进行重新发声这样的重复的作业。

接着，利用流程图说明语音处理装置1的动作。图5的流程图fa是表示与聊天室画面20的显示、以及功能开启指示信息和功能关闭指示信息的输出相关的总括控制部10的动作例的流程图。在利用流程图fa说明的总括控制部10的处理中，设为用户在指示打开消息交换聊天室时，选择开启消息语音输入功能。

如图5的流程图fa所示，用户针对触摸屏幕3进行规定的触摸操作，选择开启消息语音输入功能，并且指示打开用于与期望的对象进行文本聊天的消息交换聊天室(步骤sx1)。与步骤sx1的指示相应地，总括控制部10基于用户的选择开启消息语音输入功能(步骤sa1)，将对应的聊天室画面20显示于触摸屏幕3(步骤sa2)。

接下来，总括控制部10向语音输入部11以及语音数据分析部12输出功能开启指示信息(步骤sa3)。然后，总括控制部10监视消息语音输入功能是否被关闭，或者是否根据用户的指示等关闭了消息交换聊天室(步骤sa4)。在消息语音输入功能被关闭，或者关闭了消息交换聊天室的情况下，将功能关闭指示信息输出至语音输入部11以及语音数据分析部12(步骤sa5)。

图6的流程图fb是表示语音输入部11的动作例的流程图。语音输入部11重复执行流程图fb的处理。如图6所示，语音输入部11监视是否输入了在流程图fa的步骤sa3中总括控制部10输出的功能开启指示信息(步骤sb1)。在输入了功能开启指示信息的情况下(步骤sb1：是)，语音输入部11开始基于从麦克风2输入的语音信号生成语音数据以及将语音数据向缓冲器18缓冲(步骤sb2)。接下来，语音输入部11监视是否从总括控制部10输入了功能关闭指示信息(步骤sb3)。在输入了功能关闭指示信息的情况下(步骤sb3：是)，语音输入部11结束语音数据的生成以及缓冲(步骤sb4)。在步骤sb4的处理后，结束流程图fb。

图7、图8是表示语音数据分析部12、文章处理部13、特定处理执行控制部14、总括控制部10以及文章发送部15的动作例的流程图。在图7中，流程图fc表示语音数据分析部12的动作例，流程图fd表示文章处理部13的动作例。另外在图8中，流程图fe表示特定处理执行控制部14的动作例，流程图ff表示总括控制部10的动作例，流程图fg表示文章发送部15的动作例。

如图7的流程图fc所示，语音数据分析部12监视是否输入了在流程图fa的步骤sa3中总括控制部10输出的功能开启指示信息(步骤sc1)。在输入了的情况下(步骤sc1：是)，语音数据分析部12监视是否输入了在流程图fa的步骤sa5中总括控制部10输出的功能关闭指示信息(步骤sc2)，并且监视在语音数据中是否出现了消息开始词的语音波形(步骤sc3)。在输入了功能关闭指示信息的情况下(步骤sc2：是)，流程图fc的处理结束。在出现了消息开始词的语音波形的情况下(步骤sc3：是)，语音数据分析部12确定开始词结束位置，将表示开始词结束位置的信息输出至文章处理部13(步骤sc4)。

接下来，语音数据分析部12监视在语音数据中是否出现了消息结束词的语音波形(步骤sc5)。在出现了语音波形的情况下(步骤sc5：是)，语音数据分析部12确定结束词开始位置，并将表示结束词开始位置的信息输出至文章处理部13(步骤sc6)。

接下来，语音数据分析部12监视在语音数据中是否出现了消息发送词的语音波形(步骤sc7)。在检测到出现了语音波形的情况下(步骤sc7：是)，语音数据分析部12将发送指示信息输出至总括控制部10(步骤sc8)。在步骤sc8的处理后，流程图fc结束。语音数据分析部12重复执行流程图fc的处理。

如图7的流程图fd所示，文章处理部13监视是否输入了表示消息开始词的结束位置的信息(步骤sd1)。在输入了的情况下(步骤sd1：是)，文章处理部13监视是否输入了表示消息结束词的开始位置的信息(步骤sd2)。在输入了的情况下(步骤sd2：是)，文章处理部13基于在步骤sd1中输入的信息以及在步骤sd2中输入的信息，取得处理对象语音数据(步骤sd3)。

接下来，文章处理部13针对处理对象语音数据执行语音识别，使得处理对象语音数据中记录的文章成为文本，并生成全语音文本数据23(步骤sd4)。接下来，文章处理部13参照语音指令一览存储部16中存储的语音指令一览数据17，执行以下的处理。即，文章处理部13按全语音文本数据23中记述的文章的每个语句，判定是否与语音指令一览数据17中记述的语音指令语句的某一个具有一致性，将具有一致性的语句从全语音文本数据23中删除，生成处理后语音文本数据(步骤sd5)。接下来，文章处理部13将处理后语音文本数据输出至总括控制部10(步骤sd6)。进而，文章处理部13在判定为全语音文本数据23中的某语句与某语音指令语句具有一致性的情况下，将该语音指令语句所涉及的识别信息输出至特定处理执行控制部14(步骤sd7)。在步骤sd7的处理后，流程图fd结束。文章处理部13重复执行流程图fd的处理。

如图8的流程图fe所示，特定处理执行控制部14监视是否输入了识别信息(步骤se1)。在输入了的情况下(步骤se1：是)，特定处理执行控制部14基于输入的识别信息对语音指令进行识别，执行用于成为与识别出的语音指令对应的特定的处理被执行后的状态的处理(步骤se2)。在步骤se2的处理后，流程图fe结束。特定处理执行控制部14重复执行流程图fe的处理。

如图8的流程图ff所示，总括控制部10监视是否从文章处理部13输入了处理后语音文本数据(步骤sf1)。在输入了的情况下(步骤sf1：是)，总括控制部10在聊天室画面20中生成消息栏21，并且将输入的处理后语音文本数据中记述的文章在消息栏21作为消息显示(步骤sf2)。接下来，总括控制部10监视是否从语音数据分析部12输入了发送指示信息(步骤sf3)。在输入了的情况下(步骤sf3：是)。总括控制部10向文章发送部15指示发送消息(步骤sf4)。在步骤sf4的处理后，流程图ff结束。总括控制部10重复执行流程图ff的处理。

如图8的流程图fg所示，文章发送部15监视是否有来自总括控制部10的指示(步骤sg1)。在有指示的情况下(步骤sg1：是)，文章发送部15发送消息栏21中显示的消息(步骤sg2)。在步骤sg2的处理后，流程图fg结束。总括控制部10重复执行流程图fg的处理。

＜第2实施方式＞

接着说明第2实施方式。在以下的第2实施方式的说明中，针对与第1实施方式的要素相同的要素赋予相同标记，省略其详细说明。图9是表示本实施方式所涉及的语音处理装置1a的功能构成例的模块图。如图9所示，本实施方式所涉及的语音处理装置1a替代第1实施方式所涉及的文章处理部13而具备文章处理部13a，替代第1实施方式所涉及的总括控制部10而具备总括控制部10a。本实施方式所涉及的语音处理装置1a的处理中，消息语音输入期间开始后的文章处理部13a的处理以及总括控制部10a的处理与第1实施方式不同。以下，说明消息语音输入期间的开始后的语音处理装置1a的处理。

与第1实施方式相同，语音数据分析部12随时分析缓冲器18所缓冲的语音数据，根据分析结果，将表示开始词结束位置的信息以及表示消息结束词的开始位置的信息输出至文章处理部13a。如果输入了表示开始词结束位置的信息，则文章处理部13a在此后随时对缓冲器18所缓冲的语音数据执行语音识别以及语言解析，监视在语音数据所表示的文章中是否出现了语句。

例如，设为用户对图4的(b)所示的文章进行了发声。在该情况下，文章处理部13a在与第1语句的“今天谢谢。”这样的语句对应的语音数据的末尾被缓冲至缓冲器18的时刻，根据语音识别以及语言解析的结果，检测为出现了“语句”。同样，文章处理部13a在与第2语句以及第3语句对应的语音数据的末尾被缓冲的时刻，分别检测为出现了“语句”。其中，由于文章处理部13a的分析需要时间，因此有可能在与语句对应的语音数据的末尾被缓冲至缓冲器18的定时与检测到在语音数据所表示的文章中出现了语句的定时之间产生若干的时滞。

文章处理部13a监视在语音数据所表示的文章中是否出现了语句，直到从语音数据分析部12输入表示结束词开始位置的信息为止。如果从语音数据分析部12输入了表示结束词开始位置的信息，则文章处理部13a识别语音数据中的结束词开始位置，废弃针对结束词开始位置以后的语音数据的分析结果，将结束词开始位置以后的语音数据不作为监视是否出现了“语句”的对象。

文章处理部13a在每次检测到出现了语句时，执行以下的处理。即，文章处理部13a参照语音指令一览存储部16中存储的语音指令一览数据17，判定出现的语句是否与语音指令一览数据17中记述的语音指令语句的某一个具有一致性。在出现的语句与哪个语音指令语句都不具有一致性的情况下，文章处理部13a将记述了出现的语句的文本的文本数据输出至总括控制部10a。

另一方面，在出现的语句与某一个语音指令语句具有一致性的情况下，文章处理部13a废弃所出现的语句。在该情况下，记述了出现的语句的文本的文本数据不被输出至总括控制部10a。进而，在出现的语句与某一个语音指令语句具有一致性的情况下，文章处理部13a将被判定为与出现的语句具有一致性的语音指令语句所对应的语音指令的识别信息输出至特定处理执行控制部14。输入了识别信息的情况下的特定处理执行控制部14的处理如第1实施方式中所说明的那样。

总括控制部10a在每次从文章处理部13a输入了记述了一个语句的文本数据时，在聊天室画面20的消息栏21中，追加该文本数据中记述的一个语句的文本。其中，适当地生成消息栏21。进而，总括控制部10a监视是否从语音数据分析部12输入了发送指示信息。在输入了发送指示信息的情况下，总括控制部10a向文章发送部15指示发送消息。文章发送部15与第1实施方式相同，与指示相应地发送消息(包含消息栏21中记述的全部语句的消息)。

进行以上的处理，结果关于用户在语音接受期间内发声的文章中包括的各个语句，针对与语音指令语句不具有一致性的语句，将该语句的文本通过文章处理部13a输出至总括控制部10a。另一方面，针对与语音指令语句具有一致性的语句，不将该语句的文本通过文章处理部13a输出至总括控制部10a，该语句的文本不成为通过文章发送部15发送的对象。

图10是表示通过总括控制部10a的处理在消息栏21中追加语句的情形的图。现在，设为聊天室画面20的内容如图10的(a)所示，在该状态下，用户对图4的(b)的文章进行发声。如果用户对第1语句的“今天谢谢。”这样的语句进行了发声，则与其相应地生成消息栏21a，并且将该语句显示于消息栏21a(图10的(b))。接下来如果用户对第2语句的“使刮水器工作。”这样的语句进行发声，则由于该语句与语音指令语句一致，因此不被追加至消息栏21a。更接下来如果用户对第3语句的“下次也请多多关照。”这样的语句进行发声，则与其相应地将该语句显示于消息栏21a(图10的(c))。然后，如果用户对消息发送词进行了发声，则包括消息栏21a中记述的全部语句的文章被作为消息通过文章发送部15发送。

根据本实施方式的结构，具有与第1实施方式相同的效果。即，不是使得在接受语音的期间中输入的语音所表示的全部文章成为文本并发送，而是自动地去除语音指令，发送去除了语音指令后的文章的文本。因此，即使在接受语音的期间中，用户发出了不想使其成为文本并发送的语音指令的情况下，也自动地从最终成为文本发送的文章中去除语音指令，用户无需暂时取消文本的发送并进行重新发声的重复的作业。

接着，利用流程图说明本实施方式所涉及的语音处理装置1a的动作例。图11的流程图fh是表示文章处理部13a的动作例的流程图，流程图fi是表示总括控制部10a的动作例的流程图。

如图11的流程图fh所示，文章处理部13a监视是否输入了表示开始词结束位置的信息(步骤sh1)。在输入了的情况下(步骤sh1：是)，文章处理部13a监视是否输入了表示结束词开始位置的信息(步骤sh2)，并且监视语音数据所表示的文章中是否出现了“语句”(步骤sh3)。在出现了语句的情况下(步骤sh3：是)，文章处理部13a参照语音指令一览存储部16中存储的语音指令一览数据17，判定所出现的语句是否与语音指令一览数据17中记述的语音指令语句的某一个具有一致性(步骤sh4)。

在出现的语句与哪个语音指令语句都不具有一致性的情况下(步骤sh4：否)，则文章处理部13a将记述了出现的语句的文本的文本数据输出至总括控制部10a(步骤sh5)。在步骤sh5的处理后，处理步骤返回步骤sh2。另一方面，在出现的语句与某一个语音指令语句具有一致性的情况下(步骤sh4：是)，处理步骤返回步骤sh2。在该情况下，记述了出现的语句的文本的文本数据不被输出至总括控制部10a。

在输入了表示结束词开始位置的信息的情况下(步骤sh2：是)，文章处理部13a对语音数据中的结束词开始位置进行识别，废弃针对结束词开始位置以后的语音数据的分析结果(步骤sh6)。在步骤sh6的处理后，流程图fh结束。文章处理部13a重复执行流程图fh的处理。

如图11的流程图fi所示，总括控制部10a监视是否从语音数据分析部12输入了发送指示信息(步骤si1)，并且监视是否从文章处理部13a输入了文本数据(步骤si2)。在输入了文本数据的情况下(步骤si2：是)，总括控制部10a在消息栏21中追加文本数据中记述的语句的文本(步骤si3)。在步骤si3的处理后，处理步骤返回步骤si1。另一方面，在输入了发送指示信息的情况下，总括控制部10a向文章发送部15指示发送消息(步骤si4)。在步骤si4的处理后，流程图fi结束。总括控制部10a重复执行流程图fi的处理。

＜第3实施方式＞

接着说明第3实施方式。在以下的第3实施方式的说明中，针对与第1实施方式的要素相同的要素赋予相同标记，并省略其详细说明。图12是表示本实施方式所涉及的语音处理装置1b的功能构成例的模块图。如图12所示，语音处理装置1b在替代第1实施方式所涉及的文章处理部13而具有文章处理部13b，以及不具有特定处理执行控制部14这些方面与第1实施方式所涉及的语音处理装置1不同。

在本实施方式中，在本车辆除了语音处理装置1b之外还设有未图示的特定处理执行装置。特定处理执行装置是与语音处理装置1b独立的装置。特定处理执行装置具有如下功能：在由用户发出了某一个语音指令的情况下，对发出的语音指令进行识别，执行与识别出的语音指令对应的特定的处理，或者执行使处于控制下的其他装置执行与该语音指令对应的特定的处理。在设置了这种特定处理执行装置的环境下，用户与第1实施方式相同，有可能在语音接受期间中为了使特定处理执行装置(或者其控制下的装置)执行特定的处理而发出语音指令。

本实施方式所涉及的语音处理装置1b的文章处理部13b执行以下的处理作为与第1实施方式所涉及的文章处理部13不同的处理。即，第1实施方式所涉及的文章处理部13在判定为全语音文本数据23的某语句与某语音指令语句具有一致性的情况下，将与该语音指令语句对应的语音指令的识别信息输出至特定处理执行控制部14。另一方面，本实施方式所涉及的文章处理部13b不执行这样的识别信息的输出。

根据本实施方式的结构，也与上述第1实施方式相同，即使在接受语音的期间中，用户发出了不想使其成为文本并发送的语音指令的情况下，也自动地从最终成为文本并发送的文章中去除语音指令，用户无需暂时取消文本的发送并进行重新发声的重复的作业。

说明了以上三个实施方式，但上述各实施方式均不过表示实施本发明时的具体化的一例，不应该由此对本发明的技术的范围进行限定性解释。即，本发明在不脱离其主旨或者其主要特征的情况下，能够以多种形态实施。

例如，在上述各实施方式中，文章发送部15作为文本聊天中的消息的发送来进行对文本的发送，但文本的发送不限于各实施方式中例示的方式。例如，文本的发送也可以通过邮件进行。另外，文本的发送不意味着仅向特定对象发送，是广泛包括向服务器或特定的主机装置发送文本等针对外部装置传送文本的概念。例如，针对消息投稿网站或论坛网站按照协议发送文章的文本也包括在文本的发送中。

另外，在第1实施方式中，语音处理装置1设于车辆，防止发送在车内发声的语音指令的文本。但是，语音处理装置1不必须设在车内，另外，防止发送文本的对象也不限于语音指令。待防止发送文本的对象例如也可以是不适于成为文本并发送且预先登记的语句。关于第2、第3实施方式也同样。

另外，在上述各实施方式中，通过用户发送消息开始词，语音接受期间开始。关于这点，也可以构成为在用户对触摸屏幕3进行了规定的触摸操作时，或在能够检测手势的结构中用户进行了规定的手势时，语音接受期间开始。这对于消息结束词以及消息发送词也同样。特别是，关于消息结束词，也可以构成为在用户在一定的期间没有发声时对其进行检测，语音接受期间结束。

技术特征：

1.一种语音处理装置，其特征在于，具备：

语音输入部，输入用户所发出的语音；

文章处理部，输出从在语音接受期间内所述语音输入部输入的语音所表示的文章中去除了特定语句后的文章的文本，该语音接受期间即接受要成为文本的文章的语音的期间；以及

文章发送部，发送所述文章处理部所输出的文本。

2.如权利要求1所述的语音处理装置，其特征在于，

所述特定语句是指示执行特定的处理的语句，

所述语音处理装置还具备：

特定处理执行控制部，基于由所述文章处理部去除的所述特定语句，执行所述特定的处理，或者，使具有执行所述特定的处理的功能的装置执行所述特定的处理。

3.如权利要求1所述的语音处理装置，其特征在于，

所述文章处理部在所述语音接受期间结束后，从在所述语音接受期间中所述语音输入部输入的全部语音所表示的文章所成的文本中，提取所述特定语句的文本并删除，输出删除后的文章的文本。

4.如权利要求3所述的语音处理装置，其特征在于，

所述文章处理部基于与存储部事先存储的所述特定语句的文本之间的一致性，从成为文本的文章中提取所述特定语句的文本。

5.如权利要求3所述的语音处理装置，其特征在于，

所述特定语句是指示执行特定的处理的语句，

所述语音处理装置还具备：

特定处理执行控制部，基于由所述文章处理部提取的所述特定语句的文本，执行所述特定的处理，或者使具有执行所述特定的处理的功能的装置执行所述特定的处理。

6.如权利要求1所述的语音处理装置，其特征在于，

所述文章处理部在所述语音接受期间中，随时对所述语音输入部输入的语音进行语音识别并监视是否出现了语句，在每次出现语句时判定所出现的语句是否是所述特定语句，在不是所述特定语句的情况下，输出所出现的语句的文本，另一方面，在是所述特定语句的情况下，不输出所出现的语句的文本。

7.如权利要求6所述的语音处理装置，其特征在于，

所述文章处理部基于与存储部事先存储的所述特定语句的文本之间的一致性，判定成为文本的语句是否是所述特定语句。

8.如权利要求6所述的语音处理装置，其特征在于，

所述特定语句是指示执行特定的处理的语句，

所述语音处理装置还具备：

特定处理执行控制部，在由所述文章处理部判定为成为文本的语句是所述特定语句的情况下，执行所述特定的处理，或者使具有执行所述特定的处理的功能的装置执行所述特定的处理。

9.一种语音处理方法，其特征在于，包括如下步骤：

语音处理装置的文章处理部输出从在语音接受期间内所述语音处理装置的语音输入部输入的语音所表示的文章中去除了特定语句后的文章的文本的步骤，该语音接受期间即接受要成为文本的文章的语音的期间；以及

所述语音处理装置的文章发送部发送所述文章处理部输出的文本的步骤。

技术总结
课题在于，提供“语音处理装置以及语音处理方法”，使得即使在接受要成为文本的文章的语音的期间中，发出了不想成为文本并发送的语句的情况下，用户也无需进行重复的作业。解决手段在于，语音处理装置(1)具备：语音输入部(11)，输入用户所发出的语音；文章处理部(13)，输出从在接受要成为文本的文章的语音的期间即语音接受期间内语音输入部(11)输入的语音所表示的文章中去除了特定语句后的文章的文本；以及文章发送部(15)，发送文章处理部(13)输出的文本；不是使得语音接受期间内输入的语音所表示的全部文章都成为文本并发送，而是自动地去除特定语句。

技术研发人员：李丹
受保护的技术使用者：阿尔派株式会社
技术研发日：2019.08.23
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-14603.html

专利

最新回复(0)