一种音频合成方法、装置以及计算机可读存储介质与流程

专利2022-07-08 135

本发明涉及音频数据处理领域，尤其涉及一种音频合成方法、装置以及计算机可读存储介质。

背景技术：

歌唱合成在处理过程中，有两种客户端录音方案：第一种需要使用者把全部的歌词录完后进行语音处理和歌曲合成，第二种则是分句录制处理，使用者每录一句提交一次进行语音处理，待歌词全部录完后进行歌曲处理合成处理。

使用第一种方式使用者会有超长等待时间，并且如果录音过程中出现问题的话，那么整首歌的歌词需要全部重录，是一种体验非常差的方式。相比第一种方式，第二种方法可以有效的回避一次录错全部重录的问题，并且也能在一定程度上减少用户等待的感觉，但是实际上，总等待时间没有变化，导致用户体验感下降。

技术实现要素：

本发明实施例提供了一种音频合成方法、装置以及计算机可读存储介质，具有减少了用户的等待时间，进而提升了用户体验感的技术效果。

本发明一方面提供一种音频合成方法，所述方法包括：接收对应于目标对象的第一音频数据，其中所述第一音频数据为目标音频数据的一部分；若所接收的第一音频数据满足预设条件，则向所述目标对象反馈第一指示数据，以指示所述目标对象发送第二音频数据，其中所述第二音频数据为所述目标音频数据的一部分；在向所述目标对象反馈第一指示数据的同时，对所述第一音频数据进行音频合成处理。

在一可实施方式中，所述所接收的第一音频数据满足预设条件，包括：根据所述目标音频数据，判断所述第一音频数据所对应的第一文本数据的准确度；若所述准确度超过预设阈值，则判定所接收的第一音频数据满足预设条件。

在一可实施方式中，所述根据所述目标音频数据，计算所述第一音频数据所对应的第一文本数据的准确度，包括：获取对应于所述目标音频数据的目标文本数据；将所述第一文本数据与所述目标文本数据进行文本对比，判断所述第一文本数据的准确度。

在一可实施方式中，若所接收的第一音频数据不满足预设条件，所述方法还包括：向所述目标对象反馈第二指示数据，以指示所述目标对象重新录制并发送第一音频数据。

在一可实施方式中，所述方法还包括：根据所述目标音频数据，判断所述第二音频数据是否为所述目标音频数据的最后一部分；若判定所述第二音频数据为所述目标音频数据的最后一部分，则获取所述第一音频数据和第一音频数据经音频合成处理后的第一合成音频数据和第二合成音频数据；将所获取的第一合成音频数据和第二合成音频数据按照接收顺序进行音频拼接处理，生成第三音频数据，并将所得到的第三音频数据反馈给所述目标对象。

本发明另一方面提供一种音频合成装置，所述装置包括：数据接收模块，用于接收对应于目标对象的第一音频数据，其中所述第一音频数据为目标音频数据的一部分；数据反馈模块，用于若所接收的第一音频数据满足预设条件，则向所述目标对象反馈第一指示数据，以指示所述目标对象发送第二音频数据，其中所述第二音频数据为所述目标音频数据的一部分；数据处理模块，用于在向所述目标对象反馈第一指示数据的同时，对所述第一音频数据进行音频合成处理。

在一可实施方式中，所述数据反馈模块具体用于：根据所述目标音频数据，判断所述第一音频数据所对应的第一文本数据的准确度；若所述准确度超过预设阈值，则判定所接收的第一音频数据满足预设条件。

在一可实施方式中，若所接收的第一音频数据不满足预设条件，所述数据反馈模块还具体用于：向所述目标对象反馈第二指示数据，以指示所述目标对象重新录制并发送第一音频数据。

在一可实施方式中，所述数据处理模块还用于：根据所述目标音频数据，判断所述第二音频数据是否为所述目标音频数据的最后一部分；若判定所述第二音频数据为所述目标音频数据的最后一部分，则获取所述第一音频数据和第一音频数据经音频合成处理后的第一合成音频数据和第二合成音频数据；将所获取的第一合成音频数据和第二合成音频数据按照接收顺序进行音频拼接处理，生成第三音频数据，并将所得到的第三音频数据反馈给所述目标对象。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的音频合成方法。

在本发明实施例中，本方案在执行时，不需要等待目标对象事先将全部的音频数据录制完成后再进行音频合成处理，可以在目标对象进行录制的同时对已经录制的音频数据进行音频合成处理，使得极大减少了用户的等待时间，进而提升了用户体验感。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种音频合成方法的实现流程示意图；

图2为本发明实施例一种音频合成方法中以歌曲为例的具体实现流程示意图；

图3为本发明实施例一种音频合成装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种音频合成方法的实现流程示意图；

图2为本发明实施例一种音频合成方法中以歌曲为例的具体实现流程示意图。

结合图1和图2所示，本发明一方面提供一种音频合成方法，方法包括：

步骤101，接收对应于目标对象的第一音频数据，其中第一音频数据为目标音频数据的一部分；

步骤102，若所接收的第一音频数据满足预设条件，则向目标对象反馈第一指示数据，以指示目标对象发送第二音频数据，其中第二音频数据为目标音频数据的一部分；

步骤103，在向目标对象反馈第一指示数据的同时，对第一音频数据进行音频合成处理。

本实施例中，在步骤101中，目标对象可以是人或动物，也可以是具有语音功能的智能终端，如手机、平板、手环等。目标音频数据可以是一首歌曲，也可以是朗读或者演讲语音，第一音频数据可以是目标音频数据中的字、词或者段落语音。第一音频数据的接收方式可以是从网页端、小程序或者应用程序通过http或者ajax传输得到，其中，http为客户端发送一次请求，服务器端接，ajax为一种创建交互式网页应用的网页开发技术。

在步骤102中，预设条件可以是判断第一音频数据中是否包含人声、是否包含多个说话人或者是否包含噪声，相应的，满足预设条件可以是第一音频数据中包含人声、不包含多个说话人或者不包含噪声。第一指示数据可以是文本或者语音的形式进行提示。第二音频数据也可以是目标音频数据中的字、词或者段落语音。

在步骤103中，在向目标对象反馈第一指示数据的同时，即以异步调用的方式对第一音频数据进行音频合成处理。

由此，本方案在执行时，不需要等待目标对象事先将全部的音频数据录制完成后再进行音频合成处理，可以在目标对象进行录制的同时对已经录制的音频数据进行音频合成处理，使得极大减少了用户的等待时间，进而提升了用户体验感。

在一可实施方式中，所接收的第一音频数据满足预设条件，包括：

根据目标音频数据，判断第一音频数据所对应的第一文本数据的准确度；

若准确度超过预设阈值，则判定所接收的第一音频数据满足预设条件。

本实施例中，第一文本数据与第一音频数据相对应，可通过语音识别技术对第一音频数据进行语音识别得到第一文本数据。准确度可以是

步骤102中第一音频数据满足预设条件优选为：以目标音频数据为基准，判断第一音频数据所对应的第一文本数据的准确度，其中，准确度可以表征第一文本数据中文字的正确率，也可以表征第一文本数据与目标音频数据中最接近的文本数据的相似度。

若正确率或者相似度超过预设阈值，则判定所接收的第一音频数据满足预设条件，其中预设阈值可根据实际应用情况自行预先设置。

在一可实施方式中，根据目标音频数据，计算第一音频数据所对应的第一文本数据的准确度，包括：

获取对应于目标音频数据的目标文本数据；

将第一文本数据与目标文本数据进行文本对比，判断第一文本数据的准确度。

本实施例中，准确度的计算优选为：通过语音识别技术对目标音频数据进行语音识别，得到对应的目标文本数据，接着将第一文本数据与目标文本数据进行文本对比，其中，文本对比方式可以是将第一文本数据与目标文本数据进行文字正确性对比；还可以是将目标文本数据按照标点分成多个文本片段数据，分别计算多个文本片段数据与第一文本数据的相似度，取最高的相似度为准确度。

在一可实施方式中，若所接收的第一音频数据不满足预设条件，方法还包括：

向目标对象反馈第二指示数据，以指示目标对象重新录制并发送第一音频数据。

本实施例中，若所接收的第一音频数据不满足预设条件，则说明利用该第一音频数据所合成的音频质量是非常糟糕的，因此不对其进行音频合成处理，向目标对象反馈第二指示数据，其中第二指示数据可以以文本或者语音的形式发送，以指示目标对象重新录制音频。

在一可实施方式中，方法还包括：

根据目标音频数据，判断第二音频数据是否为目标音频数据的最后一部分；

若判定第二音频数据为目标音频数据的最后一部分，则获取第一音频数据和第一音频数据经音频合成处理后的第一合成音频数据和第二合成音频数据；

将所获取的第一合成音频数据和第二合成音频数据按照接收顺序进行音频拼接处理，生成第三音频数据，并将所得到的第三音频数据反馈给目标对象。

本实施例中，是否为目标音频数据的最后一部分的方式可以为：按照目标音频数据所对应的目标文本数据中片段数据数量以及已接收音频数据数量来判断；也可以是按照目标音频数据的时长和已接收音频数据的时长来判断。

若判定第二音频数据为目标音频数据的最后一部分，则将已经音频合成处理的所有合成音频数据按照接收顺序音频拼接处理，生成完整的第三音频数据，并将第三音频数据反馈给目标对象。

图3为本发明实施例一种音频合成装置的结构组成示意图；

结合图3所示，本发明实施例另一方面提供一种音频合成装置，装置包括：

数据接收模块201，用于接收对应于目标对象的第一音频数据，其中第一音频数据为目标音频数据的一部分；

数据反馈模块202，用于若所接收的第一音频数据满足预设条件，则向目标对象反馈第一指示数据，以指示目标对象发送第二音频数据，其中第二音频数据为目标音频数据的一部分；

数据处理模块203，用于在向目标对象反馈第一指示数据的同时，对第一音频数据进行音频合成处理。

本实施例中，在数据接收模块201中，目标对象可以是人或动物，也可以是具有语音功能的智能终端，如手机、平板、手环等。目标音频数据可以是一首歌曲，也可以是朗读或者演讲语音，第一音频数据可以是目标音频数据中的字、词或者段落语音。第一音频数据的接收方式可以是从网页端、小程序或者应用程序通过http或者ajax传输得到，其中，http为客户端发送一次请求，服务器端接，ajax为一种创建交互式网页应用的网页开发技术。

在数据反馈模块202中，预设条件可以是判断第一音频数据中是否包含人声、是否包含多个说话人或者是否包含噪声，相应的，满足预设条件可以是第一音频数据中包含人声、不包含多个说话人或者不包含噪声。第一指示数据可以是文本或者语音的形式进行提示。第二音频数据也可以是目标音频数据中的字、词或者段落语音。

在数据处理模块203中，在向目标对象反馈第一指示数据的同时，即以异步调用的方式对第一音频数据进行音频合成处理。

在一可实施方式中，数据反馈模块202具体用于：

根据目标音频数据，判断第一音频数据所对应的第一文本数据的准确度；

若准确度超过预设阈值，则判定所接收的第一音频数据满足预设条件。

本实施例中，第一文本数据与第一音频数据相对应，可通过语音识别技术对第一音频数据进行语音识别得到第一文本数据。准确度可以是

数据反馈模块202中第一音频数据满足预设条件优选为：以目标音频数据为基准，判断第一音频数据所对应的第一文本数据的准确度，其中，准确度可以表征第一文本数据中文字的正确率，也可以表征第一文本数据与目标音频数据中最接近的文本数据的相似度。

若正确率或者相似度超过预设阈值，则判定所接收的第一音频数据满足预设条件，其中预设阈值可根据实际应用情况自行预先设置。

在一可实施方式中，若所接收的第一音频数据不满足预设条件，数据反馈模块202还具体用于：

向目标对象反馈第二指示数据，以指示目标对象重新录制并发送第一音频数据。

在一可实施方式中，数据处理模块203还用于：

根据目标音频数据，判断第二音频数据是否为目标音频数据的最后一部分；

若判定第二音频数据为目标音频数据的最后一部分，则获取第一音频数据和第一音频数据经音频合成处理后的第一合成音频数据和第二合成音频数据；

将所获取的第一合成音频数据和第二合成音频数据按照接收顺序进行音频拼接处理，生成第三音频数据，并将所得到的第三音频数据反馈给目标对象。

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的音频合成方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于接收对应于目标对象的第一音频数据，其中第一音频数据为目标音频数据的一部分；若所接收的第一音频数据满足预设条件，则向目标对象反馈第一指示数据，以指示目标对象发送第二音频数据，其中第二音频数据为目标音频数据的一部分；在向目标对象反馈第一指示数据的同时，对第一音频数据进行音频合成处理。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

技术特征：

1.一种音频合成方法，其特征在于，所述方法包括：

接收对应于目标对象的第一音频数据，其中所述第一音频数据为目标音频数据的一部分；

若所接收的第一音频数据满足预设条件，则向所述目标对象反馈第一指示数据，以指示所述目标对象发送第二音频数据，其中所述第二音频数据为所述目标音频数据的一部分；

在向所述目标对象反馈第一指示数据的同时，对所述第一音频数据进行音频合成处理。

2.根据权利要求1所述的方法，其特征在于，所述所接收的第一音频数据满足预设条件，包括：

根据所述目标音频数据，判断所述第一音频数据所对应的第一文本数据的准确度；

若所述准确度超过预设阈值，则判定所接收的第一音频数据满足预设条件。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标音频数据，计算所述第一音频数据所对应的第一文本数据的准确度，包括：

获取对应于所述目标音频数据的目标文本数据；

将所述第一文本数据与所述目标文本数据进行文本对比，判断所述第一文本数据的准确度。

4.根据权利要求1所述的方法，其特征在于，若所接收的第一音频数据不满足预设条件，所述方法还包括：

向所述目标对象反馈第二指示数据，以指示所述目标对象重新录制并发送第一音频数据。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标音频数据，判断所述第二音频数据是否为所述目标音频数据的最后一部分；

若判定所述第二音频数据为所述目标音频数据的最后一部分，则获取所述第一音频数据和第一音频数据经音频合成处理后的第一合成音频数据和第二合成音频数据；

将所获取的第一合成音频数据和第二合成音频数据按照接收顺序进行音频拼接处理，生成第三音频数据，并将所得到的第三音频数据反馈给所述目标对象。

6.一种音频合成装置，其特征在于，所述装置包括：

数据接收模块，用于接收对应于目标对象的第一音频数据，其中所述第一音频数据为目标音频数据的一部分；

数据反馈模块，用于若所接收的第一音频数据满足预设条件，则向所述目标对象反馈第一指示数据，以指示所述目标对象发送第二音频数据，其中所述第二音频数据为所述目标音频数据的一部分；

数据处理模块，用于在向所述目标对象反馈第一指示数据的同时，对所述第一音频数据进行音频合成处理。

7.根据权利要求6所述的装置，其特征在于，所述数据反馈模块具体用于：

根据所述目标音频数据，判断所述第一音频数据所对应的第一文本数据的准确度；

若所述准确度超过预设阈值，则判定所接收的第一音频数据满足预设条件。

8.根据权利要求6所述的装置，其特征在于，若所接收的第一音频数据不满足预设条件，所述数据反馈模块还具体用于：

向所述目标对象反馈第二指示数据，以指示所述目标对象重新录制并发送第一音频数据。

9.根据权利要求8所述的装置，其特征在于，所述数据处理模块还用于：

根据所述目标音频数据，判断所述第二音频数据是否为所述目标音频数据的最后一部分；

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的音频合成方法。

技术总结
本发明公开了一种音频合成方法、装置以及计算机可读存储介质，包括：接收对应于目标对象的第一音频数据，其中所述第一音频数据为目标音频数据的一部分；若所接收的第一音频数据满足预设条件，则向所述目标对象反馈第一指示数据，以指示所述目标对象发送第二音频数据，其中所述第二音频数据为所述目标音频数据的一部分；在向所述目标对象反馈第一指示数据的同时，对所述第一音频数据进行音频合成处理。本方案在执行时，不需要等待目标对象事先将全部的音频数据录制完成后再进行音频合成处理，可以在目标对象进行录制的同时对已经录制的音频数据进行音频合成处理，使得极大减少了用户的等待时间，进而提升了用户体验感。

技术研发人员：郁霖;雷欣;李志飞
受保护的技术使用者：出门问问(苏州)信息科技有限公司
技术研发日：2020.11.27
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-14662.html

专利

最新回复(0)