文字识别方法、电子设备及存储介质与流程

专利2026-05-08 3

本发明涉及计算机图像处理的，具体地涉及文字识别方法、电子设备及存储介质。

背景技术：

1、在计算机图像处理领域中，ocr技术(optical character recognition技术)是对图像中的文字进行识别的一种技术。现有的ocr识别一般是两种场景，要么是利用经由大数据提供的通用文字对应的图像样本训练的通用文字识别模型进行文字识别，要么则利用经由特定风格的文字对应的图像样本训练的特定文字识别模型进行文字识别。然而现有的文字图像中经常同时包含通用文字与多种特定风格的文字，在面对这种文字繁杂的文字图像时，使用通用文字识别模型虽然通用性高但是对于一些特殊的文字识别精准度较低，而使用特定文字识别模型只能对其对应风格的文字具有较高的识别精准度，而对于非对应风格的文字的识别精准度很低，文字识别的效果较差。

2、本背景技术描述的内容仅为了便于了解本领域的相关技术，不视作对现有技术的承认。

技术实现思路

1、因此，本发明实施例意图提供一种文字识别方法、电子设备及存储介质。

2、在第一方面，本发明实施例提供了一种文字识别方法，包括：

3、对获取的待检测图像进行图像分割，确定包含文字的文字图像区域；

4、对所述文字图像区域内的文字进行风格识别，确定所述文字图像区域内的文字的文字风格；

5、在多种经训练的预设第一文字识别模型中确定所述文字风格对应的第一文字识别模型，其中每种所述预设第一文字识别模型对应一种预设文字风格；

6、利用所述第一文字识别模型对所述文字图像区域内的文字进行识别。

7、在本发明的一些实施例中，所述对获取的待检测图像进行图像分割，确定包含文字的文字图像区域，包括：

8、在本发明的一些实施例中，所述利用经训练的文字分割检测模型，对获取的待检测图像进行图像分割，确定包含文字的文字图像区域，包括：

9、将所述待检测图像分割检测模型输入所述经训练的文字分割检测模型，得到对应待检测图像的的二值化响应图，其中，所述二值化响应图的二值用于表征对应的图像区域是否对应有文字；

10、对所述二值化分割响应图进行膨胀处理，以连通部分对应文字的图像区域；

11、根据所述二值化响应图，在所述待检测图像中包围出至少一个多边形区域作为文字图像区域，每个所述多边形区域包含一个或多个相邻的对应有文字的图像区域。

12、在本发明的一些实施例中，在对所述文字图像区域内的文字进行风格识别之前，所述方法还包括：

13、确定所述文字图像区域内的文字的文字方向；

14、响应于所述文字图像区域内的文字的文字方向不为第一预设方向，将所述文字图像区域内的不为所述第一预设方向的文字调整为所述第一预设方向。

15、在本发明的一些实施例中，在对所述文字图像区域内的文字进行风格识别之前，所述方法还包括：

16、将所述文字图像区域裁剪成多个文字图片。

17、在本发明的一些实施例中，所述将所述文字图像区域裁剪成多个文字图片，包括：

18、根据用于输入所述风格分类模型的标准图片尺寸确定标准宽高比；

19、根据所述标准宽高比以及所述文字图像区域的尺寸确定裁剪尺寸；

20、根据所述裁剪尺寸对所述文字图像区域进行裁剪，生成所述多个文字图片。

21、在本发明的一些实施例中，所述根据所述裁剪尺寸对所述文字图像区域进行裁剪，生成所述多个文字图片，包括：

22、根据所述裁剪尺寸对所述文字图像区域进行裁剪，生成多个等高度的裁剪文字图像；

23、确定各个所述裁剪文字图像是否满足所述标准宽高比，将满足所述标准宽高比的多个所述裁剪文字图像作为所述文字图片，将不满足所述标准宽高比的所述裁剪文字图像进行宽度补齐并作为所述文字图片。

24、在本发明的一些实施例中，所述将所述多个文字图片输入所述经训练的风格分类模型，确定所述文字图像区域内的文字的文字风格，包括：

25、将所述多个文字图片输入所述经训练的风格分类模型，对所述多个文字图片内的文字分别进行风格分类，得到所述多个文字图片分别对应的多个预分类结果；

26、对所述多个预分类结果进行加权平均，得到各预设文字风格的平均加权值；

27、根据所述平均加权值，以置信度最大的预设文字风格作为所述文字图像区域内的文字的文字风格。

28、在本发明的一些实施例中，所述第一文字识别模型包括通用文字识别模型，所述通用文字识别模型根据如下通用训练步骤生成：

29、获取通用训练样本集，所述通用训练样本集包括多种文字风格的多个通用训练样本，所述通用训练样本包括文字区域图像以及对应的文字内容标签；

30、将所述通用训练样本输入所述通用文字识别模型的特征提取模块，以获得第一通用图像特征序列以及第一通用文字特征序列；

31、将所述第一通用图像特征序列输入所述通用文字识别模型的注意力模块确定注意力损失，根据所述注意力损失迭代更新所述通用文字识别模型；

32、将所述第一通用图像特征序列输入所述通用文字识别模型的自注意力模块得到第二通用图像特征序列，将所述第二图像特征序列输入所述通用文字识别模型的全连接层得到第二通用文字特征序列；

33、根据所述第一通用文字特征序列以及第二通用文字特征序列确定第一序列分类损失，根据所述第一序列分类损失迭代更新所述通用文字识别模型。

34、在本发明的一些实施例中，所述第一文字识别模型包括特定风格文字识别模型，所述特定风格文字识别模型基于所述通用文字识别模型根据如下微调训练步骤生成：

35、获取微调训练样本集，所述微调训练样本集包括特定文字风格的多个微调训练样本，所述微调训练样本包括文字区域图像以及对应的文字内容标签；

36、将所述微调训练样本输入所述通用文字识别模型的特征提取模块，以获得第一微调图像特征序列以及第一微调文字特征序列；

37、将所述第一微调图像特征序列输入所述通用文字识别模型的注意力模块以获得第二注意力损失，根据所述第二注意力损失迭代更新所述通用文字识别模型；

38、将所述第一微调图像特征序列输入所述通用文字识别模型的自注意力模块得到第二微调图像特征序列，将所述第二微调图像特征序列输入所述通用文字识别模型的全连接层得到第二微调文字特征序列；

39、根据所述第一微调文字特征序列以及第二微调文字特征序列确定第二序列分类损失，根据所述第二序列分类损失迭代更新所述通用文字识别模型，以生成所述特定风格文字识别模型。

40、第二方面，本发明实施例提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本发明实施例的文字识别方法。

41、第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现任一本发明实施例的文字识别方法。

42、本发明实施例中所公开的文字识别方法中，通过对获取的待检测图像进行图像分割，确定包含文字的文字图像区域；对文字图像区域内的文字进行文字风格识别，确定文字图像区域内的文字的文字风格；在多种经训练的预设第一文字识别模型中确定所述文字风格对应的第一文字识别模型，其中每种预设第一文字识别模型对应一种预设文字风格；最后利用第一文字识别模型对文字图像区域内的文字进行识别。本发明实施例中所公开的文字识别方法使得电子设备在对待检测图像进行文字识别时，可以针对待检测图像中的文字图像区域的文字智能地选择出对应其文字的第一文字识别模型，以实现精准地对待检测图像内的文字进行识别。本发明实施例提供的文字识别方法能够被应用于各种风格文字的识别，从而可以利用本发明实施例提供的文字识别方法对同时包含通用文字与多种特定风格的文字的文字图像进行识别，能够兼顾图像文字识别的通用性和精准性。

43、本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

技术特征：

1.一种文字识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对获取的待检测图像进行图像分割，确定包含文字的文字图像区域，包括：

3.根据权利要求1所述的方法，其特征在于，在对所述文字图像区域内的文字进行风格识别之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在对所述文字图像区域内的文字进行风格识别之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述文字图像区域裁剪成多个文字图片，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述裁剪尺寸对所述文字图像区域进行裁剪，生成所述多个文字图片，包括：

7.根据权利要求4至6中任一项所述的方法，其特征在于，所述对所述文字图像区域内的文字进行文字风格识别，确定所述文字图像区域内的文字的文字风格，包括：

8.根据权利要求1所述的方法，其特征在于，所述第一文字识别模型包括通用文字识别模型，所述通用文字识别模型根据如下通用训练步骤生成：

9.根据权利要求8所述的方法，其特征在于，所述第一文字识别模型还包括特定风格文字识别模型，所述特定风格文字识别模型基于所述通用文字识别模型根据如下微调训练步骤生成：

10.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时实现权利要求1-9中任一所述的方法。

11.一种存储介质，其上存储有计算机程序，其中，所述程序被处理器运行时实现如权利要求1-9中任一所述的方法。

技术总结
本发明公开一种文字识别方法、电子设备及存储介质，该方法包括：对获取的待检测图像进行图像分割，确定包含文字的文字图像区域；对所述文字图像区域内的文字进行文字风格识别，确定所述文字图像区域内的文字的文字风格；在多种经训练的预设第一文字识别模型中确定所述文字风格对应的第一文字识别模型，其中每种所述预设第一文字识别模型对应一种预设文字风格；利用所述第一文字识别模型对所述文字图像区域内的文字进行识别。本发明所公开的文字识别方法可以兼顾文字识别的通用性和精确性。

技术研发人员：葛霖
受保护的技术使用者：腾讯音乐娱乐科技（深圳）有限公司
技术研发日：
技术公布日：2024/4/29

转载请注明原文地址:https://wp.8miu.com/read-96838.html

专利

最新回复(0)