本发明涉及计算机图像处理和信息识别领,尤其是涉及一种电厂两票系统pdf文档识别文字方法。
背景技术:
随着时代的发展,电厂行业正从传统电厂慢慢走向数字电厂、智慧电厂。所以电厂行业目前对系统集成有迫切的需求,电厂行业很早就接入了两票管理系统。电厂两票管理系统是指工作票管理系统和操作票管理系统,其中:工作票管理系统实现对工作票的开票、签发、许可、执行、抽查的全过程管理,支持二维码,确保防误操作,支持标准票快速审核入库流程,实现标准票使用率100%。操作票管理系统是实现对操作票的开票、审核、执行、抽查的全过程管理,支持二维码在线识别,确保防误操作,支持标准票快速审核入库流程,实现标准票使用率100%。因此,很多电厂运用大唐思拓两票管理系统主要目标是实现两票的填票、签发、签字、审核、检查、抽查的计算工作化,减轻了两票的审批工作,实现高效率的审批签字,提高电厂日常办公的效率。
但是,由于两票管理系统的厂家数量繁多,对于集成来说一般都是采用接口的方式进行数据同步,但是有的厂家并不提供相应的接口来同步数据,因而只能通过从原有的两票系统导出两票数据,再从集成系统导入两票数据这种方式。这种处理方式不但步骤非常烦琐,而且容易经常出现两票数据信息导出错误,导致后续程序无法工作,得重新核对,而且准确率性差,无法准确识别和提取两票数据信息,浪费大量人力和时间。
技术实现要素:
本发明的目的在于提供一种电厂两票系统pdf文档识别文字方法,该方法能够以良好的准确率和适应性自动地识别和提取两票数据信息,从而节省票据处理的人力和时间。
本发明的目的是这样实现的:
一种电厂两票系统pdf文档识别文字方法,特征是:具体步骤如下:
a、票据图像预处理:从原有的两票系统提取pdf文档,包括unicode字符;然后对pdf文档进行去黑边、去噪点、纠偏以及灰度化处理;
b、利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过预处理的pdf文档进行信息区域识别;边界和底纹处理,包括对所识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;
c、加密/解密pdf文档;
d、从pdf和xfdf的格式中导入或导出表单数据;
e、向已有的pdf文档中追加内容,将一个pdf文档切分为多个文档,覆盖原pdf文档;
f、排序sort为true后,pdf按行读取,保持顺序,最后保存pdf文档;如遇到分栏,分页就会需要额外处理。
或,一种电厂两票系统pdf文档识别文字方法,特征是:先使用spire.pdf.jar、freespire.pdfforjava这类库创建pdf文件,再创建一个pdfdocument对象,根据需要创建足够数量的pdfpagebase对象,然后向页面添加字符串、图像、表格、列表这些他元素,最后保存pdf文档。
本发明能够以良好的准确率和适应性自动地识别和提取两票数据信息,从而节省票据处理的人力和时间,它能利用通过训练自学习而构建的信息区域特征数据库来进行票据信息区域识别,从而能够适应于多种票据格式,自动地识别和提取多类票据中的感兴趣区域信息。
具体实施方式
下面对本发明实施例中的技术方案进一步说明。
实施例1:
一种电厂两票系统pdf文档识别文字方法,pdfbox为开发人员读取和创建pdf文档而准备了纯java类库,具体步骤如下:
a、票据图像预处理:从原有的两票系统提取pdf文档,包括unicode字符;然后对pdf文档进行去黑边、去噪点、纠偏以及灰度化处理;
b、利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过预处理的pdf文档进行信息区域识别;边界和底纹处理,包括对所识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;
c、加密/解密pdf文档;
d、从pdf和xfdf的格式中导入或导出表单数据;
e、向已有的pdf文档中追加内容,将一个pdf文档切分为多个文档,覆盖原pdf文档;
f、排序sort为true后,pdf按行读取,保持顺序,,最后保存pdf文档;如遇到分栏,分页就会需要额外处理。
实施例2:
一种电厂两票系统pdf文档识别文字方法,先使用spire.pdf.jar、freespire.pdfforjava这类库创建pdf文件,再创建一个pdfdocument对象,根据需要创建足够数量的pdfpagebase对象,然后向页面添加字符串、图像、表格、列表这些他元素,最后保存pdf文档。
1.一种电厂两票系统pdf文档识别文字方法,其特征在于:具体步骤如下:
a、票据图像预处理:从原有的两票系统提取pdf文档,包括unicode字符;然后对pdf文档进行去黑边、去噪点、纠偏以及灰度化处理;
b、利用预先通过信息区域训练自学习而构建的信息区域特征数据库,对经过预处理的pdf文档进行信息区域识别;边界和底纹处理,包括对所识别的信息区域进行重叠区域合并、去除底纹干扰、突出字符颜色以及二值化处理;
c、加密/解密pdf文档;
d、从pdf和xfdf的格式中导入或导出表单数据;
e、向已有的pdf文档中追加内容,将一个pdf文档切分为多个文档,覆盖原pdf文档;
f、排序sort为true后,pdf按行读取,保持顺序,,最后保存pdf文档;如遇到分栏,分页就会需要额外处理。
2.一种电厂两票系统pdf文档识别文字方法,其特征在于:先使用spire.pdf.jar、freespire.pdfforjava这类库创建pdf文件,再创建一个pdfdocument对象,根据需要创建足够数量的pdfpagebase对象,然后向页面添加字符串、图像、表格、列表这些他元素,最后保存pdf文档。
技术总结