一种基于语义上下文场景的中文小说语音合成系统的制作方法

专利2022-07-08 152

本发明涉及语音合成领域，具体涉及一种基于语义上下文场景的中文小说语音合成系统。

背景技术：

语音小说，顾名思义就是能发出声音的小说，引申为：一种既保留了内含丰富的小说情节、又通过播音员将文字通过语言表达出来形成有声的“读本”，然后配合后期的制作合成变成一部有丰富的感情又有美丽动听背景音乐的有声音的小说，在将文字小说转化为语音小说时需要使用到语音合成系统。

现有的语音合成系统，在将文字小说转化为语音小说时，其准确度不够好，容易导致语音小说出现较大歧义，并且转化语音小说的质量较差，给语音合成系统的使用带来了一定的影响，因此，提出一种基于语义上下文场景的中文小说语音合成系统。

技术实现要素：

本发明所要解决的技术问题在于：如何解决现有的语音合成系统，在将文字小说转化为语音小说时，其准确度不够好，容易导致语音小说出现较大歧义，并且转化语音小说的质量较差，给语音合成系统的使用带来了一定的影响的问题，提供了一种基于语义上下文场景的中文小说语音合成系统。

本发明是通过以下技术方案解决上述技术问题的，本发明包括文本扫描模块、电子稿导入模块、文字识别模块、文字提取模块、文字处理模块、特殊字符检索模块、总控模块与语音生成模块；

所述文本扫描模块用于将纸质的小说文稿扫描为电子文稿，所述电子稿导入模块用于导入小说的电子文稿；

所述文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别；

所述文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块；

所述文字处理模块对获取到的小说文字内容进行文字处理，所述文字处理的过程包括分词，词性标注，韵律结构预测与多音字消岐，所述词性标注的内容包括名词、动词与形容词；

所述文字处理模块处理后的文字内容被发送到特征字符检索模块，进行特征内容的检索，检索完成后总控模块即控制语音生成模块将经过特殊字符检索后的小说文稿转化为语音内容；

所述语音内容被发送到评分模块进行人工评分，当评分符合标准时总控模模块即控制语音发送模块将小说语音发送出。

优选的，所述文字识别模块进行文字识别的具体过程如下：

步骤一：电子文稿中的每个字符标记为一个识别区域，将其放大预设倍数；

步骤二：通过orc文字识别技术对放大后的识别区域进行识别，对同一个区域使用三种不同的预设放大倍数识别；

步骤三：当三种不同预设倍数放大识别后的文字有两次及以上相同时即进行下一识别区域的识别；

步骤四：当同一个区域使用三种不同的预设放大倍数识别的文字均不相同时，即将其标注为未识别字体采用人工识别。

优选的，所述特殊字符检索模块检索特殊字符的具体处理模块入下：

s1：特征内容包括预设语气词库与预设语气符号库；

s2：从小说文字内容检索出预设语气词库与预设语气符号库；

s3：当检索到预设语气词库与预设语气符号库内的内容时，对该内容进行重点标记；

所述预设语气词库与预设语气符号库内的预设语气词与预设语气符号均设置了预设读音。

优选的，所述词性标注的名词、动词与形容词均均预设对应的读音。

优选的，所述评分模块评分的具体过程如下：

步骤一：小说文字转化为语音内容之后将其发送到随机的x个评分人员的智能移动终端，x≥5；

步骤二：随机的x个评分人员每个人对听到的语音小说进行语气和上下文连贯性进行评分，得到x个评分k；

步骤三：通过公式k1 k2 k3…… kx＝k和得到总评分k和；

步骤四：再通过公式k和/x＝k均得到平均分值k均；

步骤五：再计算出最大评分值kmax与最小评分值kmin之间的差值得到分值差kk差；

步骤六：当平均分值k均大于预设值，且分值差kk差小于预设值时即评分符合标准时；

步骤七：当平均分值k均小于预设值，分值差kk差小于预设值时或平均分值k均大于预设值，分值差kk差大于预设值时，即评分不符合标准。

优选的，当评分不符合标准时，评分不符合标准发送到总控模块，所述总控模块发出复核指令，复核指令被发送到文字处理模块，对小说文字重新进行文字处理。

本发明相比现有技术具有以下优点：该基于语义上下文场景的中文小说语音合成系统，通过在对小说文稿进行识别时，更加细致的处理，能够有效的避免文字识别出错导致的小说装换为语音内容后语义出现问题的状况发生，让该系统能够进行更加精准的语音识别，同时在语音识别后，设置了随机人员对小说内容进行试听处理，并进行评分，通过评分来判定被转为语音的小说是否合格，并在不合格时对小说进行重新处理来修正语音和上下文连续问题，该种设置能够让该系统合成的语音小说品质更高，让该系统更加值得推广使用。

附图说明

图1是本发明的系统框图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种技术方案：一种基于语义上下文场景的中文小说语音合成系统，包括文本扫描模块、电子稿导入模块、文字识别模块、文字提取模块、文字处理模块、特殊字符检索模块、总控模块与语音生成模块；

所述文本扫描模块用于将纸质的小说文稿扫描为电子文稿，所述电子稿导入模块用于导入小说的电子文稿；

所述文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别；

所述文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块；

所述语音内容被发送到评分模块进行人工评分，当评分符合标准时总控模模块即控制语音发送模块将小说语音发送出。

所述文字识别模块进行文字识别的具体过程如下：

步骤一：电子文稿中的每个字符标记为一个识别区域，将其放大预设倍数；

步骤二：通过orc文字识别技术对放大后的识别区域进行识别，对同一个区域使用三种不同的预设放大倍数识别；

步骤三：当三种不同预设倍数放大识别后的文字有两次及以上相同时即进行下一识别区域的识别；

步骤四：当同一个区域使用三种不同的预设放大倍数识别的文字均不相同时，即将其标注为未识别字体采用人工识别。

所述特殊字符检索模块检索特殊字符的具体处理模块入下：

s1：特征内容包括预设语气词库与预设语气符号库；

s2：从小说文字内容检索出预设语气词库与预设语气符号库；

s3：当检索到预设语气词库与预设语气符号库内的内容时，对该内容进行重点标记；

所述预设语气词库与预设语气符号库内的预设语气词与预设语气符号均设置了预设读音。

所述词性标注的名词、动词与形容词均均预设对应的读音。

所述评分模块评分的具体过程如下：

步骤一：小说文字转化为语音内容之后将其发送到随机的x个评分人员的智能移动终端，x≥5；

步骤二：随机的x个评分人员每个人对听到的语音小说进行语气和上下文连贯性进行评分，得到x个评分k；

步骤三：通过公式k1 k2 k3…… kx＝k和得到总评分k和；

步骤四：再通过公式k和/x＝k均得到平均分值k均；

步骤五：再计算出最大评分值kmax与最小评分值kmin之间的差值得到分值差kk差；

步骤六：当平均分值k均大于预设值，且分值差kk差小于预设值时即评分符合标准时；

步骤七：当平均分值k均小于预设值，分值差kk差小于预设值时或平均分值k均大于预设值，分值差kk差大于预设值时，即评分不符合标准。

当评分不符合标准时，评分不符合标准发送到总控模块，所述总控模块发出复核指令，复核指令被发送到文字处理模块，对小说文字重新进行文字处理。

综上，本发明在使用时，文本扫描模块用于将纸质的小说文稿扫描为电子文稿，电子稿导入模块用于导入小说的电子文稿，文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别，文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块，文字处理模块对获取到的小说文字内容进行文字处理，文字处理的过程包括分词，词性标注，韵律结构预测与多音字消岐，词性标注的内容包括名词、动词与形容词，文字处理模块处理后的文字内容被发送到特征字符检索模块，进行特征内容的检索，检索完成后总控模块即控制语音生成模块将经过特殊字符检索后的小说文稿转化为语音内容，语音内容被发送到评分模块进行人工评分，当评分符合标准时总控模模块即控制语音发送模块将小说语音发送出。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征：

1.一种基于语义上下文场景的中文小说语音合成系统，其特征在于，包括文本扫描模块、电子稿导入模块、文字识别模块、文字提取模块、文字处理模块、特殊字符检索模块、总控模块与语音生成模块；

所述文本扫描模块用于将纸质的小说文稿扫描为电子文稿，所述电子稿导入模块用于导入小说的电子文稿；

所述文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别；

所述文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块；

所述语音内容被发送到评分模块进行人工评分，当评分符合标准时总控模模块即控制语音发送模块将小说语音发送出。

2.根据权利要求1所述的一种基于语义上下文场景的中文小说语音合成系统，其特征在于：所述文字识别模块进行文字识别的具体过程如下：

步骤一：电子文稿中的每个字符标记为一个识别区域，将其放大预设倍数；

步骤二：通过orc文字识别技术对放大后的识别区域进行识别，对同一个区域使用三种不同的预设放大倍数识别；

步骤三：当三种不同预设倍数放大识别后的文字有两次及以上相同时即进行下一识别区域的识别；

步骤四：当同一个区域使用三种不同的预设放大倍数识别的文字均不相同时，即将其标注为未识别字体采用人工识别。

3.根据权利要求1所述的一种基于语义上下文场景的中文小说语音合成系统，其特征在于：所述特殊字符检索模块检索特殊字符的具体处理模块入下：

s1：特征内容包括预设语气词库与预设语气符号库；

s2：从小说文字内容检索出预设语气词库与预设语气符号库；

s3：当检索到预设语气词库与预设语气符号库内的内容时，对该内容进行重点标记；

所述预设语气词库与预设语气符号库内的预设语气词与预设语气符号均设置了预设读音。

4.根据权利要求1所述的一种基于语义上下文场景的中文小说语音合成系统，其特征在于：所述词性标注的名词、动词与形容词均均预设对应的读音。

5.根据权利要求1所述的一种基于语义上下文场景的中文小说语音合成系统，其特征在于：所述评分模块评分的具体过程如下：

步骤一：小说文字转化为语音内容之后将其发送到随机的x个评分人员的智能移动终端，x≥5；

步骤二：随机的x个评分人员每个人对听到的语音小说进行语气和上下文连贯性进行评分，得到x个评分k；

步骤三：通过公式k1 k2 k3…… kx＝k和得到总评分k和；

步骤四：再通过公式k和/x＝k均得到平均分值k均；

步骤五：再计算出最大评分值kmax与最小评分值kmin之间的差值得到分值差kk差；

步骤六：当平均分值k均大于预设值，且分值差kk差小于预设值时即评分符合标准时；

步骤七：当平均分值k均小于预设值，分值差kk差小于预设值时或平均分值k均大于预设值，分值差kk差大于预设值时，即评分不符合标准。

6.根据权利要求5所述的一种基于语义上下文场景的中文小说语音合成系统，其特征在于：当评分不符合标准时，评分不符合标准发送到总控模块，所述总控模块发出复核指令，复核指令被发送到文字处理模块，对小说文字重新进行文字处理。

技术总结
本发明公开了一种基于语义上下文场景的中文小说语音合成系统，包括文本扫描模块、电子稿导入模块、文字识别模块、文字提取模块、文字处理模块、特殊字符检索模块、总控模块与语音生成模块；所述文本扫描模块用于将纸质的小说文稿扫描为电子文稿，所述电子稿导入模块用于导入小说的电子文稿；所述文字识别模块用于对文本扫描模块扫描出的电子文稿和电子稿导入模块导入的电子稿进行文字识别；所述文字提取模块用于将文字识别模块识别出的小说文字内容提取出，发送到文字处理模块；所述文字处理模块对获取到的小说文字内容进行文字处理，所述文字处理的过程包括分词，词性标注。本发明能够更好的进行中文小说语音合成，更加值得推广使用。

技术研发人员：胡程远
受保护的技术使用者：合肥三恩信息科技有限公司
技术研发日：2020.11.25
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-20049.html

专利

最新回复(0)