一种手写文字识别模型训练方法和手写文字识别方法与流程

专利2026-03-01 26

本技术涉及图像处理，尤其涉及一种手写文字识别模型训练方法和手写文字识别方法。

背景技术：

1、目前，文字识别模型主要将文字识别问题视为无分割序列识别问题，且大部分既有模型均基于以下框架：首先通过骨干网络如cnn等提取图像特征；其次构建网络对特征进行融合；最后使用ctc解码器或attention解码器进行解码。但是，基于cnn的特征提取通常用于提取局部字符特征，对图像全局特征关注度不足，提取全局特征时表现欠佳。而手写文字多来自于文字图像，虽然图片背景信息较为简单，但文字字形变换较为多样，手写风格作为一种特殊的识别信息尚未作为全局特征进行提取。此外，手写风格差异也存在于单个文字内部与不同文字之间，例如，文字内部相同的笔画具有相似的长短曲折，不同文字之间具有相似的间距、连笔、断笔等特征，这些也尚未作为辅助特征，来提高文字识别准确率。因此，如何克服上述问题，提高手写文字识别准确率，是需要解决的技术问题。

技术实现思路

1、本技术意在提供一种手写文字识别模型训练方法和手写文字识别方法以及相应装置、电子设备、存储介质，所要解决的技术问题通过以下技术方案来实现。

2、本实施例第一方面，提出了一种手写文字识别模型训练方法，包括：

3、构建待训练的手写文字识别模型；所述手写文字识别模型包括第一特征提取网络、图像匹配网络和文字识别网络；

4、获取文字图像样本集；其中，文字图像样本包括具有相同文字内容的印刷体文字图像和手写体文字图像；

5、将经过融合处理的所述文字图像样本，输入至所述第一特征提取网络，获得第一文字图像特征向量；

6、将所述第一文字图像特征向量，输入至所述图像匹配网络和所述文字识别网络，获得图像匹配结果和文字识别结果；

7、依据模型训练目标损失函数对所述手写文字识别模型的参数进行训练，直至达到预设的迭代终止条件，以便获得经训练的手写文字识别模型。

8、进一步地，所述第一特征提取网络基于resnet网络进行构建，用于获得第一文字图像特征向量；和/或，所述获得第一文字图像特征向量，包括：

9、确定resnet网络的预设步长和所述第一文字图像特征向量的预设尺寸；

10、依据所述预设步长，将所述文字图像样本通过resnet网络的多个预设卷积层，以便在图像横向设定尺寸的基础上，调整图像纵向的尺寸，获得满足所述预设尺寸的所述第一文字图像特征向量。

11、进一步地，对所述文字图像样本进行融合处理，包括：依据预设概率和预设顺序，对所述印刷体文字图像和所述手写体文字图像进行图像叠加，获得文字图像融合样本；其中所述预设概率包括所述印刷体文字图像和所述手写体文字图像分别取50%。

12、进一步地，所述图像匹配网络包括第二特征提取网络和特征匹配模块；和/或，将所述第一文字图像特征向量，输入至所述图像匹配网络，获得图像匹配结果，包括：

13、将所述印刷体文字图像输入至所述第二特征提取网络，获得印刷体监督特征向量，并将所述印刷体监督特征向量作为标签；

14、将所述第一文字图像特征向量和所述印刷体监督特征向量，输入至所述特征匹配模块，获得所述图像匹配结果；所述特征匹配模块包括计算特征向量之间的相似度，所述相似度包括均方误差。

15、进一步地，所述文字识别网络包括特征编码模块和特征解码模块；和/或，将所述第一文字图像特征向量，输入至所述文字识别网络，获得文字识别结果，包括：

16、将所述第一文字图像特征向量，输入至所述特征编码模块，获得第二文字图像特征向量；所述特征编码模块包括基于bilstm网络进行构建；

17、将所述第二文字图像特征向量，输入至所述特征解码模块，获得所述文字识别结果；所述特征解码模块包括基于ctc解码器进行构建。

18、进一步地，所述模型训练目标损失函数由对应于所述文字识别网络的第一损失函数和对应于所述图像匹配网络的第二损失函数确定。

19、进一步地，所述第一损失函数依据所述文字识别结果确定；所述第二损失函数依据所述图像匹配结果确定。

20、本实施例第二方面，提出了一种手写文字识别方法，包括：

21、基于第一方面所述的手写文字识别模型训练方法，获得经训练的手写文字识别模型，所述手写文字识别模型包括第一特征提取网络和文字识别网络；

22、获取待识别手写文字图像；

23、将所述待识别手写文字图像，输入至所述第一特征提取网络，获得文字图像特征向量；

24、将所述文字图像特征向量，输入至所述文字识别网络，获得文字识别结果。

25、本实施例第三方面，提出一种手写文字识别模型训练装置，包括：

26、模型构建模块，被配置为构建待训练的手写文字识别模型；所述手写文字识别模型包括第一特征提取网络、图像匹配网络和文字识别网络；

27、文字图像样本获取模块，被配置为获取文字图像样本集；其中，文字图像样本包括具有相同文字内容的印刷体文字图像和手写体文字图像；

28、第一特征提取模块，被配置为将经过融合处理的所述文字图像样本，输入至所述第一特征提取网络，获得第一文字图像特征向量；

29、匹配识别模块，被配置为将所述第一文字图像特征向量，输入至所述图像匹配网络和所述文字识别网络，获得图像匹配结果和文字识别结果；

30、模型训练模块，被配置为依据模型训练目标损失函数对所述手写文字识别模型的参数进行训练，直至达到预设的迭代终止条件，以便获得经训练的手写文字识别模型。

31、本实施例第四方面，提出一种手写文字识别装置，包括：

32、模型获取模块，被配置为基于第一方面所述的手写文字识别模型训练方法，获得经训练的手写文字识别模型，所述手写文字识别模型包括第一特征提取网络和文字识别网络；

33、待识别文字图像获取模块，被配置为获取待识别手写文字图像；

34、特征提取模块，被配置为将所述待识别手写文字图像，输入至所述第一特征提取网络，获得文字图像特征向量；

35、识别结果获取模块，被配置为将所述文字图像特征向量，输入至所述文字识别网络，获得文字识别结果。

36、本实施例第五方面，提出了一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，所述处理器在执行所述计算机程序时，实现如第一方面或者第二方面所述方法的步骤。

37、本实施例第六方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面或者第二方面所述方法的步骤。

38、本技术实施例包括以下优点：

39、本技术实施例提供的手写文字识别模型训练方法，通过构建待训练的手写文字识别模型，包括第一特征提取网络、图像匹配网络和文字识别网络；获取文字图像样本集；其中，文字图像样本包括具有相同文字内容的印刷体文字图像和手写体文字图像；将经过融合处理的文字图像样本，输入至第一特征提取网络，获得第一文字图像特征向量；将第一文字图像特征向量，输入至图像匹配网络和文字识别网络，获得图像匹配结果和文字识别结果；依据模型训练目标损失函数对手写文字识别模型的参数进行训练，直至达到预设的迭代终止条件，以便获得经训练的手写文字识别模型。本技术采用包括文字识别任务和图像匹配任务的多任务模型训练框架，并基于文字识别任务的损失函数和图像匹配任务的损失函数构建模型目标损失函数；同时，多任务模型训练的图像匹配任务，采用印刷体文字图像提取全局特征向量作为辅助监督信息，使得进行文字识别结果预测时，识别准确率得到有效提高。

技术特征：

1.一种手写文字识别模型训练方法，其特征在于，包括：

2.根据权利要求1所述的手写文字识别模型训练方法，其特征在于，所述第一特征提取网络基于resnet网络进行构建，用于获得第一文字图像特征向量；和/或，所述获得第一文字图像特征向量，包括：

3.根据权利要求2所述的手写文字识别模型训练方法，其特征在于，对所述文字图像样本进行融合处理，包括：依据预设概率和预设顺序，对所述印刷体文字图像和所述手写体文字图像进行图像叠加，获得文字图像融合样本；其中所述预设概率包括所述印刷体文字图像和所述手写体文字图像分别取50%。

4.根据权利要求1至3任一项所述的手写文字识别模型训练方法，其特征在于，所述图像匹配网络包括第二特征提取网络和特征匹配模块；和/或，将所述第一文字图像特征向量，输入至所述图像匹配网络，获得图像匹配结果，包括：

5.根据权利要求4所述的手写文字识别模型训练方法，其特征在于，所述文字识别网络包括特征编码模块和特征解码模块；和/或，将所述第一文字图像特征向量，输入至所述文字识别网络，获得文字识别结果，包括：

6.根据权利要求5所述的手写文字识别模型训练方法，其特征在于，所述模型训练目标损失函数由对应于所述文字识别网络的第一损失函数和对应于所述图像匹配网络的第二损失函数确定。

7.根据权利要求6所述的手写文字识别模型训练方法，其特征在于，所述第一损失函数依据所述文字识别结果确定；所述第二损失函数依据所述图像匹配结果确定。

8.一种手写文字识别方法，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行权利要求1至8任一项所述方法的步骤。

技术总结
本申请涉及一种手写文字识别模型训练方法和手写文字识别方法，其中手写文字识别模型训练方法包括构建待训练的手写文字识别模型，包括第一特征提取网络、图像匹配网络和文字识别网络；获取文字图像样本集；其中，文字图像样本包括具有相同文字内容的印刷体文字图像和手写体文字图像；将经过融合处理的文字图像样本，输入至第一特征提取网络，获得第一文字图像特征向量；将第一文字图像特征向量，输入至图像匹配网络和文字识别网络，获得图像匹配结果和文字识别结果；依据模型训练目标损失函数对手写文字识别模型的参数进行训练，以便获得经训练的手写文字识别模型。本申请能够结合局部和全局特征，提高手写文字识别准确率。

技术研发人员：闫林,李敏,申亚雪,李天麒,王丽华,罗文丽,王湛,张冲,高建涛,乔刚,潘曼妮
受保护的技术使用者：中国电子科技集团公司信息科学研究院
技术研发日：
技术公布日：2024/4/29

转载请注明原文地址:https://wp.8miu.com/read-95934.html

专利

最新回复(0)