文字识别方法和终端设备与流程

    专利2022-07-08  106


    本发明涉及图像处理技术领域,尤其涉及一种文字识别方法和终端设备。



    背景技术:

    相关技术中,识别名片上的文字大多数是基于以下流程:先通过直线检测提取名片边缘以减少背景的干扰,然后裁剪出名片部分,对名片上的文字进行检测和识别。然而,这种文字识别方法,存在如下问题:一次仅能识别一张名片或票据等文字载体上的文字信息,无法完成多个文字载体上的文字识别。因此,如何实现多个文字载体上的文字识别是需要解决的一个问题。



    技术实现要素:

    本发明提供一种文字识别方法和终端设备,以解决相关技术中的不足。

    根据本发明实施例的第一方面,提供一种文字识别方法,包括:

    对待识别图像进行特征提取,获取第一特征图;所述待识别图像中包括文字以及至少一个文字载体;所述第一特征图携带文字载体的特征与文字的特征;

    对所述第一特征图进行处理获得n个第一候选载体检测框;所述第一候选载体检测框用于框出文字载体;n为自然数;

    对n个所述第一候选载体检测框进行筛选,获得k个第一目标载体检测框;k为自然数,k小于或者等于n;

    对所述第一特征图进行特征提取,获得第二特征图;所述第二特征图携带文字的特征;

    对所述第二特征图进行处理获得l个第一候选文字检测框;所述第一候选文字检测框用于框出文字;l为自然数;

    对l个所述第一候选文字检测框进行筛选,获得j个第一目标文字检测框;j为自然数,j小于或者等于l;

    对所述j个所述第一目标文字检测框中的文字进行识别,获得j个目标文字信息;

    根据j个所述第一目标文字检测框各自的位置以及k个所述第一目标载体检测框各自的位置,对j个目标文字信息进行处理,并输出k个识别结果;其中,同一个识别结果包括位于同一个所述第一目标载体检测框中的所有第一目标文字检测框对应的目标文字信息。

    在一个实施例中,所述方法还包括:

    对所述第一特征图进行处理获得m个第一文字检测框;所述第一文字检测框用于框出文字;m为自然数;

    所述对n个所述第一候选载体检测框进行筛选,获得k个第一目标载体检测框,可包括:

    针对每个所述第一候选载体检测框,获取所述第一候选载体检测框分别与m个第一文字检测框的第一重叠面积,得到m个第一重叠面积;

    当m个第一重叠面积中存在至少一个第一重叠面积大于或等于所选的第一重叠面积阈值时,确定所述第一候选载体为所述第一目标载体检测框。

    在一个实施例中,所述对l个所述第一候选文字检测框进行筛选,获得j个第一目标文字检测框,可包括:

    针对每个所述第一候选文字检测框,获取所述第一候选文字检测框分别与k个所述第一目标载体检测框的第二重叠面积,获得k个第二重叠面积;

    当k个第二重叠面积中存在至少一个第二重叠面积大于或等于所选的第二重叠面积阈值时,确定所述第一候选文字检测框为所述第一目标文字检测框。

    在一个实施例中,所述对所述j个所述第一目标文字检测框中的文字进行识别,获得j个目标文字信息,包括:

    根据所述j个第一目标文字检测框的位置信息从所述待识别图像中提取j个第一目标文字区域,获得j个第一文字图像;

    针对每个所述第一文字图像,当所述第一文字图像的指定边缘倾斜时,对所述第一文字图像进行图像变换,获得j个第二文字图像;第二文字图像的指定边缘沿水平方向延伸;

    对j个第二文字图像中的文字进行识别,获得j个所述目标文字信息。

    在一个实施例中,从所述对待识别图像进行特征提取,获取第一特征图的步骤至所述输出k个识别结果的步骤通过将所述待识别图像输入已训练的文字识别神经网络实现,所述文字识别神经网络输出k个所述识别结果。

    在一个实施例中,所述文字识别神经网络包括:第一特征提取网络、载体与文字检测网络以及载体筛选层;

    所述第一特征提取网络,用于对所述待识别图像进行特征提取,获取所述第一特征图;

    所述载体与文字检测网络,用于对所述第一特征图进行处理获得所述n个第一候选载体检测框;

    所述载体筛选层,用于对n个所述第一候选载体检测框进行筛选,获得k个所述第一目标载体检测框。

    在一个实施例中,所述载体与文字检测网络,还用于对所述第一特征图进行处理获得所述m个所述第一文字检测框。

    在一个实施例中,所述第一特征提取网络以及所述载体与文字检测网络通过以下步骤训练:

    将第一训练数据集中的第一训练样本输入第一特征提取网络;其中,第一训练样本携带第一标签,所述第一标签包括文字载体的第一载体标注信息与文字的第一文字标注信息;

    由所述第一特征提取网络对所述第一训练样本进行特征提取,并由所述载体与文字检测网络根据提取的特征确定所述第一训练样本中的文字载体的第一载体预测信息与文字的第一文字预测信息;

    获取所述第一载体预测信息与所述第一载体标注信息的第一比较结果以及所述第一文字预测信息与所述第一文字标注信息的第二比较结果;

    根据所述第一比较结果与所述第二比较结果调整所述第一特征提取网络的网络参数与所述载体与文字检测网络的网络参数。

    在一个实施例中,所述文字识别神经网络包括:第二特征提取网络与文字检测网络;

    所述第二特征提取网络,用于对所述第一特征图进行特征提取,获得所述第二特征图;

    所述文字检测网络,用于对所述第二特征图进行处理获得l个第一候选文字检测框,并对l个所述第一候选文字检测框进行筛选,获得j个所述第一目标文字检测框。

    在一个实施例中,所述第二特征提取网络与文字检测网络通过以下步骤训练:

    将第二训练数据集中的第二训练样本输入已训练的第一特征提取网络;其中,第二训练样本携带第二标签,所述第二标签包括文字的第二文字标注信息;

    由所述第一特征提取网络对所述第二训练样本进行特征提取,获得第三特征图;

    由所述第二特征提取网络对所述第三特征图进行特征提取,并由所述文字检测网络根据提取的特征确定所述第二训练样本中的文字的第二文字预测信息;

    获取所述第二文字预测信息与所述第二文字标注信息的第三比较结果;

    根据所述第三比较结果调整所述第二特征提取网络的网络参数与文字检测网络的网络参数。

    在一个实施例中,所述文字识别神经网络包括角度调整网络与文字识别网络;

    所述角度调整网络,用于根据所述j个第一目标文字检测框的位置信息从所述待识别图像中提取j个第一目标文字区域,获得j个第一文字图像,并针对每个所述第一文字图像,在所述第一文字图像的指定边缘倾斜时,对所述第一文字图像进行图像变换,获得j个第二文字图像;第二文字图像的指定边缘沿水平方向延伸;

    所述文字识别网络,用于对j个第二文字图像中的文字进行识别,获得j个所述目标文字信息。

    在一个实施例中,所述文字识别网络通过以下步骤训练:

    将第三训练数据集中的第三训练样本输入已训练的第一特征提取网络;其中,第三训练样本携带第三标签,所述第三标签包括文字的第三文字标注信息;

    由所述第一特征提取网络对所述第三训练样本进行特征提取,获得第四特征图;

    由已训练的第二特征提取网络对所述第四特征图进行特征提取,并由已训练的文字检测网络根据提取的特征确定所述第三训练样本中的文字的第二文字检测框;

    由角度调整网络根据第二文字检测框的位置信息从所述第三训练样本中提取对应的文字区域,获得第三文字图像,在获取的第三文字图像的指定边缘倾斜时,对第三文字图像进行图像变换,获得第四文字图像;第四文字图像的指定边缘沿水平方向延伸;

    由所述文字识别网络对第四文字图像中的文字进行识别,获得第三文字预测信息;

    获取所述第三文字预测信息与所述第三文字标注信息的第四比较结果;

    根据所述第四比较结果调整所述文字识别网络的网络参数。

    在一个实施例中,所述文字识别神经网络包括:第一特征提取网络、载体与文字检测网络、载体筛选层、第二特征提取网络、文字检测网络、角度调整网络与文字识别网络;所述文字识别神经网络通过以下步骤训练:

    将第四训练数据集中的第四训练样本输入已训练的第一特征提取网络;其中,第四训练样本携带第四标签,所述第四标签包括文字载体的第二载体标注信息与文字的第四文字标注信息;

    由所述第一特征提取网络对所述第四训练样本进行特征提取,获得第五特征图;

    由已训练的载体与文字检测网络对所述第五特征图进行处理获得n个第二候选载体检测框;所述第二候选载体检测框用于框出文字载体;n为自然数;

    由所述载体筛选层对n个所述第二候选载体检测框进行筛选,获得t个第二目标载体检测框;t为自然数,t小于或者等于n;

    由所述第二特征提取网络对所述第五特征图进行特征提取,获得第六特征图;所述第六特征图携带文字的特征;

    由已训练的文字检测网络对所述第六特征图进行处理获得p个第二候选文字检测框,对p个第二候选文字检测框进行筛选,获得j个第二目标文字检测框;所述第二候选文字检测框用于框出文字,p为自然数;j为自然数;j小于或等于p;

    由角度调整网络根据所述j个第二目标文字检测框的位置信息从所述第四训练样本中提取j个第二目标文字区域,获得j个第五文字图像,并针对每个第五文字图像,在第五文字图像的指定边缘倾斜时,对第五文字图像进行图像变换,获得j个第六文字图像;第六文字图像的指定边缘沿水平方向延伸;

    由已训练的文字识别网络对j个第六文字图像中的文字进行识别,获得第四文字预测信息;

    获取所述第四文字预测信息与所述第四文字标注信息的第五比较结果;

    根据所述第五比较结果调整所述文字识别神经网络的网络参数。

    根据本发明实施例的第二方面,提供一种终端设备,包括处理器和存储器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器上所存储的计算机程序,实现上述任一实施例述的方法步骤。

    根据本发明实施例的第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例述的方法步骤。

    根据上述实施例可知,通过提取待识别图像中的文字载体的特征与文字的特征获得第一特征图,对第一特征图进行处理获得n个第一候选载体检测框,对n个第一候选载体检测框进行筛选获得k个第一目标载体检测框,这样,可以排除对非文字载体上的文字对识别结果的干扰,提高文字识别的准确率。而且,通过提取第一特征图的文字的特征获得第二特征图,并对第二特征图进行处理获得l个第一候选文字检测框,这样,可以提高文字识别的精确度,进一步地,对l个第一候选文字检测框进行筛选获得j个第一目标文字检测框,并对j个第一目标文字检测框中的文字进行识别获得j个目标文字信息,这样,可以避免对未位于文字载体上的文字进行识别,提高文字识别的准确率。进一步地,还可以根据j个第一目标文字检测框各自的位置以及k个第一目标载体检测框各自的位置,对j个目标文字信息进行处理,并输出k个识别结果,以使位于同一个第一目标载体检测框中的所有第一目标文字检测框对应的目标文字信息位于同一个识别结果中,这样,可以对多个文字载体上的文字同时进行识别,提高了对多个文字载体上的文字进行文字识别的效率。

    应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

    附图说明

    此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

    图1是根据本发明实施例示出的一种文字识别方法的流程图;

    图2是根据本发明实施例示出的一种文字识别神经网络的结构示意图;

    图3是根据本发明实施例示出的一种效果图;

    图4是根据本发明实施例示出的一种第一特征提取网络的结构示意图;

    图5是根据本发明实施例示出的另一种文字识别方法的流程图;

    图6是根据本发明实施例示出的一种第二特征提取网络的结构示意图;

    图7是根据本发明实施例示出的另一种文字识别方法的流程图;

    图8是根据本发明实施例示出的另一种文字识别方法的流程图;

    图9是根据本发明实施例示出的另一种文字识别方法的流程图;

    图10是根据本发明实施例示出的另一种文字识别方法的流程图;

    图11是根据本发明实施例示出的另一种文字识别方法的流程图;

    图12是根据本发明实施例示出的终端设备的结构示意图。

    具体实施方式

    这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

    本发明实施例提供一种文字识别方法。该文字识别方法可以应用于终端设备,该终端设备可以是智能手机、平板电脑、个人计算机或服务器等。如图1所示,文字识别方法可以包括以下步骤101~108。

    在一个实施例中,步骤101~108可以通过将待识别图像输入已训练的文字识别神经网络实现,但不限于此。在一个实施例中,如图2所示,文字识别神经网络可以包括第一特征提取网络21、载体与文字检测网络22、载体筛选层23、第二特征提取网络24、文字检测网络25、角度调整网络26、文字识别网络27以及输出层28,但不限于此。

    在步骤101中,对待识别图像进行特征提取,获取第一特征图。所述待识别图像中包括文字以及至少一个文字载体;所述第一特征图携带文字载体的特征与文字的特征。

    在一个实施例中,待识别图像中可包括文字以及至少一个文字载体。其中,文字载体可以是名片、票据等,但不限于此。票据例如可以是车票、门票、电影票、发票等,但不限于此。

    在一个示例性实施例中,如图3所示,待识别图像31可包括两个文字载体311、312,文字载体311为“河南省郑州市出租汽车定额客票”,文字载体312为“河南省出租汽车定额发票”。

    在一个实施例中,当需要对至少一个文字载体上的文字进行识别时,可以通过摄像装置采集同时包括所有文字载体的图像,获得待识别图像。摄像装置可以搭载于终端设备上,但不限于此。

    在一个实施例中,终端设备可以获取上述的待识别图像,并输入已训练的文字识别神经网络,进行文字识别。在本实施例中,第一特征提取网络21可以对待识别图像进行特征提取获取第一特征图,其中,第一特征图中携带文字载体的特征与文字的特征。

    在一个示例性实施例中,如图4所示,第一特征提取网络21可包括第一卷积层2101、池化层2102、第二卷积层2103、第三卷积层2104、第四卷积层2105、第五卷积层2106、第一反卷积层2107、第一特征融合层2108、第二反卷积层2109、第二特征融合层2110、第三反卷积层2111与第三特征融合层2112。

    其中,第一卷积层2101用于对输入的待识别图像进行特征提取,获得第七特征图。池化层2102用于对第七特征图进行下采样,获得第八特征图。第二卷积层2103用于对第八特征图进行特征提取,获得第九特征图,第九特征图的分辨率为第一分辨率。第一分辨率可以为待识别图像的分辨率的1/4。第三卷积层2104用于对第九特征图进行特征提取,获得第十特征图,第十特征图的分辨率为第二分辨率,第二分辨率小于第一分辨率,第二分辨率可以为待识别图像的分辨率的1/8。第四卷积层2105用于对第十特征图进行特征提取,获得第十一特征图,第十一特征图的分辨率为第三分辨率,第三分辨率小于第二分辨率,第三分辨率可以为待识别图像的分辨率的1/16。第五卷积层2106用于对第十一特征图进行特征提取,获得第十二特征图,第十二特征图的分辨率为第四分辨率,第四分辨率小于第三分辨率,第四分辨率可以为待识别图像的分辨率的1/32。第一反卷积层2107用于对第十二特征图进行反卷积处理,获得第十三特征图,第十三特征图的分辨率为第三分辨率。第一特征融合层2108用于将第十三特征图与第十一特征图进行融合,获得第一融合特征图,第一融合特征图的分辨率为第三分辨率。第二反卷积层2109用于对第一融合特征图进行反卷积处理,获得第十四特征图,第十四特征图的分辨率为第二分辨率。第二特征融合层2110用于将所述第十四特征图与所述第十特征图进行融合,获得第二融合特征图,第二融合特征图的分辨率为第二分辨率。第三反卷积层2111用于对第二融合特征图进行反卷积处理,获得第十五特征图,第十五特征图的分辨率为第一分辨率。第三特征融合层2112用于将所述第十五特征图与所述第九特征图进行融合,获得所述第一特征图,第一特征图的分辨率为第一分辨率。这样,在多个尺度特征上将卷积部分的低层特征与反卷积部分的高层特征相融合,既保留了细节纹理信息,又增加了语义信息,还融合了多个尺度,可以适应不同大小的文字的检测,可以提升检测效果。

    进一步地,第一反卷积层2107、第二反卷积层2109、第三反卷积层2111可分别包括一个1×1卷积核和一个上采样操作单元,但不限于此。每经过一个反卷积层,特征图的分辨率变为原来的2倍。

    进一步地,第一特征融合层2108、第二特征融合层2110、第三特征融合层2112可以采用fpn算法(featurepyramidnetworksforobjectdetection,用于目标检测的特征金字塔网络),但不限于此。

    需要说明的是,第一特征提取网络21的网络结构可不限于如图4所示的网络结构。

    在步骤102中,对所述第一特征图进行处理获得n个第一候选载体检测框;所述第一候选载体检测框用于框出文字载体;n为自然数。

    在一个实施例中,还可以对第一特征图进行处理获得m个第一文字检测框,所述第一文字检测框用于框出文字;m为自然数。

    在一个实施例中,载体与文字检测网络22可以将第一特征提取网络21输出的第一特征图作为输入,并使用fasterr-cnn(fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks,使用区域建议网络进行实时目标检测)算法中的rpn(regionproposenetwork,区域建议网络)方法对第一特征图进行处理,获得n个第一候选载体检测框与m个第一文字检测框。其中,每个第一文字检测框中可包含一排文字间距小于预设阈值的文字。需要说明的是,对第一特征图进行处理的方法不限于rpn方法。

    继续上述的示例性实施例,如图3所示,将待识别图像31输入文字识别神经网络后,第一特征提取网络21对待识别图像进行特征提取,获取第一特征图,载体与文字检测网络22对第一特征图进行处理获得3个第一候选载体检测框313、314、318与5个第一文字检测框315、316、317、319、310。当然,n还可以为1、2、4等其他自然数,m还可以为1、2、3、4等其他自然数。

    在步骤103中,对n个所述第一候选载体检测框进行筛选,获得k个第一目标载体检测框;k为自然数,k小于或者等于n。

    由于载体与文字检测网络22获得了多个第一候选载体检测框与第一文字检测框,为了去除误识别的文字载体,需要对第一候选载体检测框进行筛选。

    在本实施例中,载体筛选层23可以对载体与文字检测网络22获得的n个第一候选载体检测框进行筛选,获得k个第一目标载体检测框。在本实施例中,如图5所示,步骤103可以包括以下步骤1031~1032:

    在步骤1031中,针对每个所述第一候选载体检测框,获取所述第一候选载体检测框分别与m个第一文字检测框的第一重叠面积,得到m个第一重叠面积。

    在步骤1032中,当m个第一重叠面积中存在至少一个第一重叠面积大于或等于所选的第一重叠面积阈值时,确定所述第一候选载体为所述第一目标载体检测框。

    继续上述的示例性实施例,针对所述第一候选载体检测框313,获取所述第一候选载体检测框313分别与第一文字检测框315、316、317、319、310各自的第一重叠面积,得到5个第一重叠面积s11、s12、s13、s14、s15,当第一重叠面积s11、s12、s13、s14、s15中存在至少一个第一重叠面积大于或者等于所选的第一重叠面积阈值s10时,确定所述第一候选载体313为所述第一目标载体检测框。换句话说,如果5个第一重叠面积s11、s12、s13、s14、s15均小于第一重叠面积阈值s10,则确定第一候选载体检测框313不是第一目标载体检测框。例如,第一候选载体检测框313与第一文字检测框319的第一重叠面积s14大于第一重叠面积阈值s10,第一候选载体检测框313为一个第一目标载体检测框。

    同理,针对第一候选载体检测框314,获取所述第一候选载体检测框314分别与5个第一文字检测框315、316、317、319、310的第一重叠面积,得到5个第一重叠面积,5个第一重叠面积中存在至少一个第一重叠面积大于或者等于所选的第一重叠面积阈值s10,可以确定所述第一候选载体314为所述第一目标载体检测框。

    同理,针对第一候选载体检测框318,获取所述第一候选载体检测框318分别与5个第一文字检测框315、316、317、319、310的第一重叠面积,得到5个第一重叠面积s16、s17、s18、s19、s110,5个第一重叠面积s16、s17、s18、s19、s110均小于第一重叠面积阈值s10,可以确定第一候选载体检测框318不是第一目标载体检测框。

    继续上述的示例性实施例,对3个第一候选载体检测框313、314、318进行筛选,获得2个第一目标载体检测框313、314。

    在步骤104中,对所述第一特征图进行特征提取,获得第二特征图;所述第二特征图携带文字的特征。

    在一个实施例中,第二特征提取网络24可以对第一特征图进行特征提取,进一步提取文字特征,获得第二特征图。这样,可以提升文字检测的效果。

    在一个示例性实施例中,如图6所示,第二特征提取网络24可包括第六卷积层241、第七卷积层242、第八卷积层243、第四反卷积层244、第四特征融合层245、第五反卷积层246、第五特征融合层247、第六反卷积层248与第六特征融合层249。

    其中,第六卷积层241用于对所述第一特征图进行特征提取,获得第十六特征图,第十六特征图的分辨率为第二分辨率。第七卷积层242用于对所述第十六特征图进行特征提取,获得第十七特征图,第十七特征图的分辨率为第三分辨率。第八卷积层243用于对所述第十七特征图进行特征提取,获得第十八特征图,第十八特征图的分辨率为第四分辨率。第四反卷积层244用于对第十八特征图进行反卷积处理,获得第十九特征图,第十九特征图的分辨率为第三分辨率。第四特征融合层245用于将所述第十七特征图与所述第十九特征图进行融合,获得第三融合特征图,第三融合特征图的分辨率为第三分辨率。第五反卷积层246,用于对第三融合特征图进行反卷积处理,获得第二十特征图,第二十特征图的分辨率为第二分辨率。第五特征融合层247用于将所述第二十特征图与所述第十六特征图进行融合,获得第四融合特征图,第四融合特征图的分辨率为第二分辨率。第六反卷积层248用于对第四融合特征图进行反卷积处理,获得第二十一特征图,第二十一特征图的分辨率为第一分辨率。第六特征融合层249用于将所述第二十一特征图与所述第一特征图进行融合,获得所述第二特征图,第二特征图的分辨率为第一分辨率。

    在步骤105中,对所述第二特征图进行处理获得l个第一候选文字检测框;所述第一候选文字检测框用于框出文字;l为自然数。

    在一个实施例中,文字检测网络25可以对第二特征提取网络24输出的第二特征图进行处理获得l个第一候选文字检测框。

    在步骤106中,对l个所述第一候选文字检测框进行筛选,获得j个第一目标文字检测框;j为自然数,j小于或者等于l。

    由于文字检测网络25获得了多个第一候选文字检测框,为了去除不相干的背景文字,需要对第一候选文字检测框进行筛选。

    在一个实施例中,文字检测网络25可以对获得的l个所述第一候选文字检测框进行筛选,获得j个第一目标文字检测框。在本实施例中,如图7所示,步骤106可以包括以下步骤1061~1062:

    在步骤1061中,针对每个所述第一候选文字检测框,获取所述第一候选文字检测框分别与k个所述第一目标载体检测框的第二重叠面积,获得k个第二重叠面积。

    在步骤1062中,当k个第二重叠面积中存在至少一个第二重叠面积大于或等于所选的第二重叠面积阈值时,确定所述第一候选文字检测框为所述第一目标文字检测框。

    在本实施例中,针对每个第一候选文字检测框,文字检测网络25可以获取该第一候选文字检测框分别与k个所述第一目标载体检测框的第二重叠面积,获得k个第二重叠面积,当k个第二重叠面积中存在至少一个第二重叠面积大于或等于所选的第二重叠面积阈值时,确定该第一候选文字检测框为第一目标文字检测框。换句话说,如果k个第二重叠面积均小于所选的第二重叠面积阈值,则可以确定该第一候选文字检测框不是第一目标文字检测框,可以将该第一候选文字检测框删除。本实施例中筛选第一目标文字检测框的方法与上述筛选第一目标载体检测框的方法类似,在此不再赘述。

    在步骤107中,对所述j个所述第一目标文字检测框中的文字进行识别,获得j个目标文字信息。

    在一个实施例中,文字识别网络27可以对文字检测网络25获得的j个所述第一目标文字检测框中的文字进行识别,获得j个目标文字信息。

    由于第一目标文字检测框可能是倾斜的,根据第一目标文字检测框的位置信息提取出的文字图像也是倾斜的,因此,需要将文字图像进行变换,获得水平的文字图像,然后输入文字识别网络27进行文字识别。

    在一个实施例中,角度调整网络26可以根据所述j个第一目标文字检测框的位置信息从所述待识别图像中提取j个第一目标文字区域,获得j个第一文字图像,然后,针对每个所述第一文字图像,在所述第一文字图像的指定边缘倾斜时,对所述第一文字图像进行图像变换,获得j个第二文字图像;第二文字图像的指定边缘沿水平方向延伸,其中,第一文字图像的指定边缘,例如,可以是第一文字图像的长边,第二文字图像的指定边缘是第二文字图像的长边。文字识别网络27对j个第二文字图像中的文字进行识别,获得j个所述目标文字信息。

    继续上述的示例性实施例,当j个所述第一目标文字检测框为上述的5个第一文字检测框315、316、317、319、310时,可以获取5个第一文字检测框315、316、317、319、310的位置信息,得到5个位置信息,并根据这5个位置信息从待识别图像31中提取第一文字检测框315、316、317、319、310各自所圈出的区域,得到5个第一文字图像,其中,5个第一文字图像的长边是倾斜的。然后,分别对5个第一文字图像进行图像变换,获得5个第二文字图像,5个第二文字图像的长边沿水平方向延伸。文字识别网络27对5个第二文字图像中的文字进行识别,获得5个所述目标文字信息。例如,得到的5个目标文字信息分别是“河南省郑州市”、“出租汽车定额客票”、“河南省出租汽车定额发票”、“发票联”、“发票代码241001030080”。

    在一个实施例中,文字识别网络27可包括2个3×3×64的卷积层、2个3×3×128的卷积层、2个3×3×256的卷积层、双向lstm(longshort-termmemory,长短期记忆网络)模块和全连接层,但不限于此。

    在步骤108中,根据j个所述第一目标文字检测框各自的位置以及k个所述第一目标载体检测框各自的位置,对j个目标文字信息进行处理,并输出k个识别结果;其中,同一个识别结果包括位于同一个所述第一目标载体检测框中的所有第一目标文字检测框对应的目标文字信息。

    在一个实施例中,输出层28可以获取j个所述第一目标文字检测框各自的位置以及k个所述第一目标载体检测框各自的位置,并根据位于同一第一目标载体检测框中的所有第一目标文字检测框对应的目标文字信息得到一个识别结果。

    继续上述的示例性实施例,第一文字检测框315、316、317位于同一个所述第一目标载体检测框314中,根据第一文字检测框315、316、317对应的目标文字信息“河南省出租汽车定额发票”、“发票联”、“发票代码241001030080”可以得到第一识别结果。第一识别结果可以包括如下信息:河南省出租汽车定额发票,发票联,发票代码241001030080。第一文字检测框319、310位于同一个所述第一目标载体检测框313中,根据第一文字检测框319、310对应的目标文字信息“河南省郑州市”、“出租汽车定额客票”可以得到第二识别结果。第二识别结果可以包括如下信息:河南省郑州市,出租汽车定额客票。

    在本发明实施例中,从“对待识别图像进行特征提取,获取第一特征图”的步骤至“输出k个识别结果”的步骤可以通过将待识别图像输入已训练的文字识别神经网络实现,文字识别神经网络输出k个识别结果。但是,本发明实施例中的文字识别方法不限于通过文字识别神经网络实现。

    在本发明实施例中,通过提取待识别图像中的文字载体的特征与文字的特征获得第一特征图,对第一特征图进行处理获得n个第一候选载体检测框与m个第一文字检测框,对n个第一候选载体检测框进行筛选获得k个第一目标载体检测框,这样,可以排除对非文字载体上的文字对识别结果的干扰,提高文字识别的准确率。而且,通过提取第一特征图的文字的特征获得第二特征图,并对第二特征图进行处理获得l个第一候选文字检测框,这样,可以提高文字识别的精确度,进一步地,对l个第一候选文字检测框进行筛选获得j个第一目标文字检测框,并对j个第一目标文字检测框中的文字进行识别获得j个目标文字信息,这样,可以避免对未位于文字载体上的文字进行识别,提高文字识别的准确率。进一步地,还可以根据j个第一目标文字检测框各自的位置以及k个第一目标载体检测框各自的位置,对j个目标文字信息进行处理,并输出k个识别结果,以使位于同一个第一目标载体检测框中的所有第一目标文字检测框对应的目标文字信息位于同一个识别结果中,这样,可以对多个文字载体上的文字同时进行识别,提高了对多个文字载体上的文字进行文字识别的效率。

    以上介绍了采用已训练的文字识别神经网络对待识别图像上的文字进行识别的方法,下面介绍文字识别神经网络的训练方法。

    在对文字识别神经网络进行训练时,可以先对第一特征提取网络21与载体与文字检测网络22进行训练,然后,对第二特征提取网络24与文字检测网络25进行训练,然后,对文字识别网络27进行训练,最后,对整个文字识别神经网络进行训练。

    如图8所示,对第一特征提取网络21与载体与文字检测网络22进行训练的方法可以包括以下步骤801~804:

    在步骤801中,将第一训练数据集中的第一训练样本输入第一特征提取网络;其中,第一训练样本携带第一标签,所述第一标签包括文字载体的第一载体标注信息与文字的第一文字标注信息。

    在一个实施例中,第一训练样本可以是包含文字载体和文字的第一图像,第一图像中的文字载体可以用文字载体标注框标注出来,每个文字载体标注框对应有第一载体标注信息,第一载体标注信息可以携带载体标识和载体位置信息。第一图像中的文字可以用文字标注框标注出来,每个文字标注框对应有第一文字标注信息,第一文字标注信息可以包括文字标注框中的文字信息。

    在步骤802中,由所述第一特征提取网络对所述第一训练样本进行特征提取,并由所述载体与文字检测网络根据提取的特征确定所述第一训练样本中的文字载体的第一载体预测信息与文字的第一文字预测信息。

    在一个实施例中,第一特征提取网络可以对第一训练样本进行特征提取,载体与文字检测网络可以根据第一特征提取网络提取的特征对第一训练样本中的文字载体与文字分别进行检测,获得第一训练样本中的文字载体的第一载体预测信息与文字的第一文字预测信息。

    在步骤803中,获取所述第一载体预测信息与所述第一载体标注信息的第一比较结果以及所述第一文字预测信息与所述第一文字标注信息的第二比较结果。

    在一个实施例中,可以对第一载体预测信息与所述第一载体标注信息进行比较,获取第一载体预测信息与第一载体标注信息的第一比较结果,并对第一文字预测信息与第一文字标注信息进行比较,获取第一文字预测信息与第一文字标注信息的第二比较结果。

    在步骤804中,根据所述第一比较结果与所述第二比较结果调整所述第一特征提取网络的网络参数与所述载体与文字检测网络的网络参数。

    在一个实施例中,可以根据上述的第一比较结果与上述的第二比较结果调整第一特征提取网络的网络参数与载体与文字检测网络的网络参数。当上述的第一比较结果与上述的第二比较结果符合第一预设条件时,停止训练,得到已训练的第一特征提取网络21与已训练的载体与文字检测网络22。需要说明的是,停止训练的条件可以不限于上述的方式。

    如图9所示,对第二特征提取网络24与文字检测网络25进行训练的方法包括以下步骤901~905:

    在步骤901中,将第二训练数据集中的第二训练样本输入已训练的第一特征提取网络;其中,第二训练样本携带第二标签,所述第二标签包括文字的第二文字标注信息。

    在一个实施例中,第二训练样本可以是包含文字的第二图像。第二图像中可以包括将文字框出来的文字标注框,每个文字标注框对应有第二文字标注信息,第二文字标注信息可以包括文字标注框中的文字信息。

    在步骤902中,由所述第一特征提取网络对所述第二训练样本进行特征提取,获得第三特征图。

    在一个实施例中,第一特征提取网络可以对第二训练样本进行特征提取,获得第三特征图。其中,需要说明的是,如果第二训练样本中仅包括文字,而不包括文字载体,第三特征图中可仅包括文字特征。

    在步骤903中,由所述第二特征提取网络对所述第三特征图进行特征提取,并由所述文字检测网络根据提取的特征确定所述第二训练样本中的文字的第二文字预测信息。

    在一个实施例中,第二特征提取网络可以对上述的第三特征图进行特征提取,文字检测网络可以根据第二特征提取网络提取的特征确定第二训练样本中的文字的第二文字预测信息。

    在步骤904中,获取所述第二文字预测信息与所述第二文字标注信息的第三比较结果。

    在一个实施例中,可以对第二文字预测信息与第二文字标注信息进行比较,获取第二文字预测信息与所述第二文字标注信息的第三比较结果。

    在步骤905中,根据所述第三比较结果调整所述第二特征提取网络的网络参数与文字检测网络的网络参数。

    在一个实施例中,可以根据第三比较结果调整第二特征提取网络的网络参数与文字检测网络的网络参数。当第三比较结果符合第二预设条件时,停止训练,得到已训练的第二特征提取网络24与文字检测网络25。需要说明的是,停止训练的条件可以不限于上述的方式。

    如图10所示,对文字识别网络进行训练的方法包括以下步骤1001~1007:

    在步骤1001中,将第三训练数据集中的第三训练样本输入已训练的第一特征提取网络;其中,第三训练样本携带第三标签,所述第三标签包括文字的第三文字标注信息。

    在一个实施例中,第三训练样本可以是包含文字的第三图像。第三图像中可以包括将文字框出来的文字标注框,每个文字标注框对应有第三文字标注信息,第三文字标注信息可以包括文字标注框中的文字信息。

    在步骤1002中,由所述第一特征提取网络对所述第三训练样本进行特征提取,获得第四特征图。

    在一个实施例中,第一特征提取网络可以对第三训练样本进行特征提取,获得第四特征图。其中,需要说明的是,如果第三训练样本中仅包括文字,而不包括文字载体,第四特征图中可仅包括文字特征。

    在步骤1003中,由已训练的第二特征提取网络对所述第四特征图进行特征提取,并由已训练的文字检测网络根据提取的特征确定所述第三训练样本中的文字的第二文字检测框。

    在一个实施例中,已训练的第二特征提取网络可以对第四特征图进行特征提取,已训练的文字检测网络可以根据第二特征提取网络提取的特征确定第三训练样本中的文字的第二文字检测框,第二文字检测框用于框出第三训练样本中的文字。

    在步骤1004中,由角度调整网络根据第二文字检测框的位置信息从所述第三训练样本中提取对应的文字区域,获得第三文字图像,在获取的第三文字图像的指定边缘倾斜时,对第三文字图像进行图像变换,获得第四文字图像;第四文字图像的指定边缘沿水平方向延伸。

    在本步骤中,角度调整网络可以根据第二文字检测框的位置信息从第三训练样本中提取对应的文字区域,获得第三文字图像,并在获取的第三文字图像的指定边缘倾斜时,对第三文字图像进行图像变换,获得第四文字图像,第四文字图像的指定边缘沿水平方向延伸。其中,第三文字图像的指定边缘,例如,可以是第三文字图像的长边,第四文字图像的指定边缘是第四文字图像的长边。

    在步骤1005中,由所述文字识别网络对第四文字图像中的文字进行识别,获得第三文字预测信息。

    在一个实施例中,文字识别网络可以对第四文字图像中的文字进行识别,获得第三文字预测信息。

    在步骤1006中,获取所述第三文字预测信息与所述第三文字标注信息的第四比较结果。

    在一个实施例中,可以对第三文字预测信息与第三文字标注信息进行比较,获取第三文字预测信息与第三文字标注信息的第四比较结果。

    在步骤1007中,根据所述第四比较结果调整所述文字识别网络的网络参数。

    在一个实施例中,可以根据上述的第四比较结果调整文字识别网络的网络参数。当第四比较结果符合第三预设条件时,停止训练,得到已训练的文字识别网络。需要说明的是,停止训练的条件可以不限于上述的方式。

    如图11所示,对文字识别神经网络进行训练的方法包括以下步骤1101~1110:

    在步骤1101中,将第四训练数据集中的第四训练样本输入已训练的第一特征提取网络;其中,第四训练样本携带第四标签,所述第四标签包括文字载体的第二载体标注信息与文字的第四文字标注信息。

    在一个实施例中,第四训练样本可以是包含文字载体和文字的第四图像,第四图像中的文字载体可以用文字载体标注框标注出来,每个文字载体标注框对应有第二载体标注信息,第二载体标注信息可以携带载体标识和载体位置信息。第四图像中的文字可以用文字标注框标注出来,每个文字标注框对应有第四文字标注信息,第四文字标注信息可以包括文字标注框中的文字信息。

    在步骤1102中,由所述第一特征提取网络对所述第四训练样本进行特征提取,获得第五特征图。

    在一个实施例中,第一特征提取网络可以对第四训练样本进行特征提取,获得第五特征图。第五特征图携带文字载体的特征与文字的特征。

    在步骤1103中,由已训练的载体与文字检测网络对所述第五特征图进行处理获得所述n个第二候选载体检测框与所述m个第三文字检测框;所述第二候选载体检测框用于框出文字载体,所述第三文字检测框用于框出文字;n为自然数;m为自然数。

    在一个实施例中,由已训练的载体与文字检测网络可以对所述第五特征图进行处理获得所述n个第二候选载体检测框与所述m个第三文字检测框。n可以为1、2、3、4或者其他自然数,m也可以为1、2、3、4或者其他自然数。

    在步骤1104中,由所述载体筛选层对n个所述第二候选载体检测框进行筛选,获得t个第二目标载体检测框;t为自然数,t小于或者等于n。

    在一个实施例中,载体筛选层可以对n个第二候选载体检测框进行筛选,获得t个第二目标载体检测框。本步骤与步骤103相似,在此不再赘述。

    在步骤1105中,由所述第二特征提取网络对所述第五特征图进行特征提取,获得第六特征图;所述第六特征图携带文字的特征。

    在一个实施例中,第二特征提取网络可以对第五特征图进行特征提取,获得第六特征图,所述第六特征图包括文字的特征。本步骤与上述的步骤104相似,在此不再赘述。

    在步骤1106中,由已训练的文字检测网络对所述第六特征图进行处理获得p个第二候选文字检测框,对p个第二候选文字检测框进行筛选,获得j个第二目标文字检测框;所述第二候选文字检测框用于框出文字,p为自然数;j为自然数;j小于或等于p。

    本步骤与上述的步骤106相似,在此不再赘述。

    在步骤1107中,由角度调整网络根据所述j个第二目标文字检测框的位置信息从所述第四训练样本中提取j个第二目标文字区域,获得j个第五文字图像,并针对每个第五文字图像,在第五文字图像的指定边缘倾斜时,对第五文字图像进行图像变换,获得j个第六文字图像;第六文字图像的指定边缘沿水平方向延伸。

    本步骤与上述的步骤1004相似,在此不再赘述。

    在步骤1108中,由已训练的文字识别网络对j个第六文字图像中的文字进行识别,获得第四文字预测信息。

    在一个实施例中,已训练的文字识别网络可以对j个第六文字图像中的文字进行识别,获得第四文字预测信息。

    在步骤1109中,获取所述第四文字预测信息与所述第四文字标注信息的第五比较结果。

    在一个实施例中,可以对第四文字预测信息与第四文字标注信息进行比较,获取第四文字预测信息与第四文字标注信息的第五比较结果。

    在步骤1110中,根据所述第五比较结果调整所述文字识别神经网络的网络参数。

    在一个实施例中,可以根据上述的第五比较结果调整文字识别神经网络的网络参数。当第五比较结果符合第四预设条件时,停止训练,得到已训练的文字识别神经网络。需要说明的是,停止训练的条件可以不限于上述的方式。

    本发明实施例还提供一种终端设备,包括处理器和存储器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器上所存储的计算机程序,实现上述任一实施例所述的方法步骤。

    本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法步骤。

    关于上述实施例中的装置,其中处理器执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

    图12是根据一示例性实施例示出的一种终端设备的框图。例如,终端设备1200可以被提供为一服务器。参照图12,设备1200包括处理组件1222,其进一步包括一个或多个处理器,以及由存储器1232所代表的存储器资源,用于存储可由处理部件1222的执行的指令,例如应用程序。存储器1232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1222被配置为执行指令,以执行上述用于文字识别方法。

    设备1200还可以包括一个电源组件1226被配置为执行设备1200的电源管理,一个有线或无线网络接口1250被配置为将设备1200连接到网络,和一个输入输出(i/o)接口1258。设备1200可以操作基于存储在存储器1232的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

    在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1232,上述指令可由设备1200的处理组件1222执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

    在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。

    本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

    应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。


    技术特征:

    1.一种文字识别方法,其特征在于,包括:

    对待识别图像进行特征提取,获取第一特征图;所述待识别图像中包括文字以及至少一个文字载体;所述第一特征图携带文字载体的特征与文字的特征;

    对所述第一特征图进行处理获得n个第一候选载体检测框;所述第一候选载体检测框用于框出文字载体;n为自然数;

    对n个所述第一候选载体检测框进行筛选,获得k个第一目标载体检测框;k为自然数,k小于或者等于n;

    对所述第一特征图进行特征提取,获得第二特征图;所述第二特征图携带文字的特征;

    对所述第二特征图进行处理获得l个第一候选文字检测框;所述第一候选文字检测框用于框出文字;l为自然数;

    对l个所述第一候选文字检测框进行筛选,获得j个第一目标文字检测框;j为自然数,j小于或者等于l;

    对所述j个所述第一目标文字检测框中的文字进行识别,获得j个目标文字信息;

    根据j个所述第一目标文字检测框各自的位置以及k个所述第一目标载体检测框各自的位置,对j个目标文字信息进行处理,并输出k个识别结果;其中,同一个识别结果包括位于同一个所述第一目标载体检测框中的所有第一目标文字检测框对应的目标文字信息。

    2.根据权利要求1所述的文字识别方法,其特征在于,所述方法还包括:

    对所述第一特征图进行处理获得m个第一文字检测框;所述第一文字检测框用于框出文字;m为自然数;

    所述对n个所述第一候选载体检测框进行筛选,获得k个第一目标载体检测框,包括:

    针对每个所述第一候选载体检测框,获取所述第一候选载体检测框分别与m个第一文字检测框的第一重叠面积,得到m个第一重叠面积;

    当m个第一重叠面积中存在至少一个第一重叠面积大于或等于所选的第一重叠面积阈值时,确定所述第一候选载体为所述第一目标载体检测框。

    3.根据权利要求1所述的文字识别方法,其特征在于,所述对l个所述第一候选文字检测框进行筛选,获得j个第一目标文字检测框,包括:

    针对每个所述第一候选文字检测框,获取所述第一候选文字检测框分别与k个所述第一目标载体检测框的第二重叠面积,获得k个第二重叠面积;

    当k个第二重叠面积中存在至少一个第二重叠面积大于或等于所选的第二重叠面积阈值时,确定所述第一候选文字检测框为所述第一目标文字检测框。

    4.根据权利要求1所述的文字识别方法,其特征在于,所述对所述j个所述第一目标文字检测框中的文字进行识别,获得j个目标文字信息,包括:

    根据所述j个第一目标文字检测框的位置信息从所述待识别图像中提取j个第一目标文字区域,获得j个第一文字图像;

    针对每个所述第一文字图像,当所述第一文字图像的指定边缘倾斜时,对所述第一文字图像进行图像变换,获得j个第二文字图像;第二文字图像的指定边缘沿水平方向延伸;

    对j个第二文字图像中的文字进行识别,获得j个所述目标文字信息。

    5.根据权利要求2所述的文字识别方法,其特征在于,从所述对待识别图像进行特征提取,获取第一特征图的步骤至所述输出k个识别结果的步骤通过将所述待识别图像输入已训练的文字识别神经网络实现,所述文字识别神经网络输出k个所述识别结果。

    6.根据权利要求5所述的文字识别方法,其特征在于,所述文字识别神经网络包括:第一特征提取网络、载体与文字检测网络以及载体筛选层;

    所述第一特征提取网络,用于对所述待识别图像进行特征提取,获取所述第一特征图;

    所述载体与文字检测网络,用于对所述第一特征图进行处理获得所述n个第一候选载体检测框;

    所述载体筛选层,用于对n个所述第一候选载体检测框进行筛选,获得k个所述第一目标载体检测框。

    7.根据权利要求6所述的文字识别方法,其特征在于,所述载体与文字检测网络,还用于对所述第一特征图进行处理获得所述m个所述第一文字检测框。

    8.根据权利要求7所述的文字识别方法,其特征在于,所述第一特征提取网络以及所述载体与文字检测网络通过以下步骤训练:

    将第一训练数据集中的第一训练样本输入第一特征提取网络;其中,第一训练样本携带第一标签,所述第一标签包括文字载体的第一载体标注信息与文字的第一文字标注信息;

    由所述第一特征提取网络对所述第一训练样本进行特征提取,并由所述载体与文字检测网络根据提取的特征确定所述第一训练样本中的文字载体的第一载体预测信息与文字的第一文字预测信息;

    获取所述第一载体预测信息与所述第一载体标注信息的第一比较结果以及所述第一文字预测信息与所述第一文字标注信息的第二比较结果;

    根据所述第一比较结果与所述第二比较结果调整所述第一特征提取网络的网络参数与所述载体与文字检测网络的网络参数。

    9.根据权利要求5所述的文字识别方法,其特征在于,所述文字识别神经网络包括:第二特征提取网络与文字检测网络;

    所述第二特征提取网络,用于对所述第一特征图进行特征提取,获得所述第二特征图;

    所述文字检测网络,用于对所述第二特征图进行处理获得l个第一候选文字检测框,并对l个所述第一候选文字检测框进行筛选,获得j个所述第一目标文字检测框。

    10.根据权利要求9所述的文字识别方法,其特征在于,所述第二特征提取网络与文字检测网络通过以下步骤训练:

    将第二训练数据集中的第二训练样本输入已训练的第一特征提取网络;其中,第二训练样本携带第二标签,所述第二标签包括文字的第二文字标注信息;

    由所述第一特征提取网络对所述第二训练样本进行特征提取,获得第三特征图;

    由所述第二特征提取网络对所述第三特征图进行特征提取,并由所述文字检测网络根据提取的特征确定所述第二训练样本中的文字的第二文字预测信息;

    获取所述第二文字预测信息与所述第二文字标注信息的第三比较结果;

    根据所述第三比较结果调整所述第二特征提取网络的网络参数与文字检测网络的网络参数。

    11.根据权利要求5所述的文字识别方法,其特征在于,所述文字识别神经网络包括角度调整网络与文字识别网络;

    所述角度调整网络,用于根据所述j个第一目标文字检测框的位置信息从所述待识别图像中提取j个第一目标文字区域,获得j个第一文字图像,并针对每个所述第一文字图像,在所述第一文字图像的指定边缘倾斜时,对所述第一文字图像进行图像变换,获得j个第二文字图像;第二文字图像的指定边缘沿水平方向延伸;

    所述文字识别网络,用于对j个第二文字图像中的文字进行识别,获得j个所述目标文字信息。

    12.根据权利要求11所述的文字识别方法,其特征在于,所述文字识别网络通过以下步骤训练:

    将第三训练数据集中的第三训练样本输入已训练的第一特征提取网络;其中,第三训练样本携带第三标签,所述第三标签包括文字的第三文字标注信息;

    由所述第一特征提取网络对所述第三训练样本进行特征提取,获得第四特征图;

    由已训练的第二特征提取网络对所述第四特征图进行特征提取,并由已训练的文字检测网络根据提取的特征确定所述第三训练样本中的文字的第二文字检测框;

    由角度调整网络根据第二文字检测框的位置信息从所述第三训练样本中提取对应的文字区域,获得第三文字图像,在获取的第三文字图像的指定边缘倾斜时,对第三文字图像进行图像变换,获得第四文字图像;第四文字图像的指定边缘沿水平方向延伸;

    由所述文字识别网络对第四文字图像中的文字进行识别,获得第三文字预测信息;

    获取所述第三文字预测信息与所述第三文字标注信息的第四比较结果;

    根据所述第四比较结果调整所述文字识别网络的网络参数。

    13.根据权利要求5所述的文字识别方法,其特征在于,所述文字识别神经网络包括:第一特征提取网络、载体与文字检测网络、载体筛选层、第二特征提取网络、文字检测网络、角度调整网络与文字识别网络;所述文字识别神经网络通过以下步骤训练:

    将第四训练数据集中的第四训练样本输入已训练的第一特征提取网络;其中,第四训练样本携带第四标签,所述第四标签包括文字载体的第二载体标注信息与文字的第四文字标注信息;

    由所述第一特征提取网络对所述第四训练样本进行特征提取,获得第五特征图;

    由已训练的载体与文字检测网络对所述第五特征图进行处理获得n个第二候选载体检测框;所述第二候选载体检测框用于框出文字载体;n为自然数;

    由所述载体筛选层对n个所述第二候选载体检测框进行筛选,获得t个第二目标载体检测框;t为自然数,t小于或者等于n;

    由所述第二特征提取网络对所述第五特征图进行特征提取,获得第六特征图;所述第六特征图携带文字的特征;

    由已训练的文字检测网络对所述第六特征图进行处理获得p个第二候选文字检测框,对p个第二候选文字检测框进行筛选,获得j个第二目标文字检测框;所述第二候选文字检测框用于框出文字,p为自然数;j为自然数;j小于或等于p;

    由角度调整网络根据所述j个第二目标文字检测框的位置信息从所述第四训练样本中提取j个第二目标文字区域,获得j个第五文字图像,并针对每个第五文字图像,在第五文字图像的指定边缘倾斜时,对第五文字图像进行图像变换,获得j个第六文字图像;第六文字图像的指定边缘沿水平方向延伸;

    由已训练的文字识别网络对j个第六文字图像中的文字进行识别,获得第四文字预测信息;

    获取所述第四文字预测信息与所述第四文字标注信息的第五比较结果;

    根据所述第五比较结果调整所述文字识别神经网络的网络参数。

    14.一种终端设备,其特征在于,包括处理器和存储器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器上所存储的计算机程序,实现权利要求1-13任一项所述的方法步骤。

    15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-13任一项所述的方法步骤。

    技术总结
    本发明涉及一种文字识别方法和终端设备。所述文字识别方法,包括:对待识别图像进行特征提取获取第一特征图;对第一特征图进行处理获得N个第一候选载体检测框;对N个第一候选载体检测框进行筛选获得K个第一目标载体检测框;对第一特征图进行特征提取获得第二特征图;对第二特征图进行处理获得L个第一候选文字检测框;对L个第一候选文字检测框进行筛选获得J个第一目标文字检测框;对J个第一目标文字检测框中的文字进行识别获得J个目标文字信息;根据J个目标文字信息输出K个识别结果;同一识别结果包括同一第一目标载体检测框对应的目标文字信息。根据本发明的实施例,可以对多个文字载体上的文字同时进行识别。

    技术研发人员:李月;赵骥伯;黄光伟;薛瑞彬;石炳川
    受保护的技术使用者:京东方科技集团股份有限公司
    技术研发日:2019.09.12
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-19937.html

    最新回复(0)