本公开涉及信息处理装置、信息处理方法和计算机可读介质。
背景技术:
存在如下的需求:对表单等读取图像实施字符识别处理来提取字符串,从该字符串中自动提取期望的项目的项目值,由此使数据管理作业高效化。项目值能够事前指定表单中包含的项目名,或者能够实施图案匹配等进行提取。但是,有时会提取表单上的错误场所的字符串作为项目值。
该情况下,以往公知有使用户指定项目值的读取场所而能够提取正确的项目值的技术(例如日本特开2001-202466号公报)。而且,通过预先记录用户指定的读取场所,从而在此后读取与纠正了读取场所的表单相同种类的表单的情况下,能够从用户指定的读取场所提取字符串,由此提取正确的项目值。
此外,作为现有技术文献,举出日本特开2013-142955号公报。
技术实现要素:
但是,即使是与被指定了提取提取对象的项目值的区域的第1文档相同种类的第2文档,例如伴随着第2文档中应该记载的事项的数量相对于第1文档有所增加等,有时第2文档中的提取对象的项目值的位置也与第1文档偏移。该情况下,无法从与第1文档中能够提取正确的项目值的区域对应的第2文档中的区域进行提取。
本公开的目的在于,与不活用从第1文档中包含提取对象的项目值的项目值取得区域的周边得到的信息的情况相比,能够更加可靠地从与第1文档相同种类的第2文档中提取提取对象的项目值。
根据本公开的第1方案,提供一种信息处理装置,其具有处理器,所述处理器在取得与第1文档相同种类的第2文档的读取图像后,在所述第2文档的读取图像内,在满足用于判定为与周边信息一致的一致条件的情况下,提取得到与所述周边信息一致的周边的信息的区域中包含的字符串作为所述第2文档的读取图像内的提取对象的项目值,其中,所述周边信息是从如下的图像得到的,该图像存在于所述第1文档的读取图像内的包含提取对象的项目值的项目值取得区域的周边。
根据本公开的第2方案,所述处理器在所述第2文档的读取图像内不存在从周边得到的信息满足用于判定为与所述周边信息一致的一致条件的区域的情况下,提取能够从得到与所述周边信息之间的一致度最高的周边的信息的区域中提取出的字符串作为项目值。
根据本公开的第3方案,所述处理器在从所述第2文档的读取图像内的与所述项目值取得区域的位置对应的提取区域的周边得到的信息满足所述一致条件的情况下,提取从所述提取区域提取出的字符串作为项目值。
根据本公开的第4方案,所述周边信息由与项目之间不具有关联性的格线、表或照片的各图像或字符串中的至少一方表示。
根据本公开的第5方案,所述项目值取得区域由用户指定。
根据本公开的第6方案,在无法从按照规定的规则设定的区域中提取所述提取对象的项目值的情况下,由用户指定区域,由此设定所述项目值取得区域。
根据本公开的第7方案,提供一种计算机可读介质,其存储有使计算机执行处理的程序,其中,在所述处理中,在取得与第1文档相同种类的第2文档的读取图像后,在所述第2文档的读取图像内,在满足用于判定为与周边信息一致的一致条件的情况,提取得到与所述周边信息一致的周边的信息的区域中包含的字符串作为所述第2文档的读取图像内的提取对象的项目值,其中,所述周边信息是从如下的图像得到的,该图像存在于所述第1文档的读取图像内的包含提取对象的项目值的项目值取得区域的周边。
根据本公开的第8方案,提供一种信息处理方法,其中,在取得与第1文档相同种类的第2文档的读取图像后,在所述第2文档的读取图像内,在满足用于判定为与周边信息一致的一致条件的情况下,提取得到与所述周边信息一致的周边的信息的区域中包含的字符串作为所述第2文档的读取图像内的提取对象的项目值,其中,所述周边信息是从如下的图像得到的,该图像存在于所述第1文档的读取图像内的包含提取对象的项目值的项目值取得区域的周边。
(效果)
根据所述第1方案,与不活用从第1文档中包含提取对象的项目值的项目值取得区域的周边得到的信息的情况相比,能够更加可靠地从与第1文档相同种类的第2文档中提取提取对象的项目值。
根据所述第2方案,在第2文档的形式与相同种类的第1文档的形式不同的情况下,也能够提取第2文档中应该记载的项目值。
根据所述第3方案,能够提取从第2文档的读取图像内的与第1文档的读取图像中的项目值取得区域的位置对应的提取区域中提取出的字符串作为项目值。
根据所述第4方案,能够参照与项目无关的信息提取项目值。
根据所述第5方案,能够将用户明确指定了在第1文档中包含项目值的区域设为项目值取得区域。
根据所述第6方案,在错误地设定了提取提取对象的项目值的区域的情况下,能够将由用户纠正后的区域设为项目值取得区域。
根据所述第7方案,与不活用从第1文档中包含提取对象的项目值的项目值取得区域的周边得到的信息的情况相比,能够更加可靠地从与第1文档相同种类的第2文档中提取提取对象的项目值。
根据所述第8方案,与不活用从第1文档中包含提取对象的项目值的项目值取得区域的周边得到的信息的情况相比,能够更加可靠地从与第1文档相同种类的第2文档中提取提取对象的项目值。
附图说明
图1是示出本公开的信息处理装置的一个实施方式的块结构图。
图2是本实施方式中的信息处理装置的硬件结构图。
图3是示出本实施方式中作为处理对象的文档的一例的图。
图4是示出从图3所示的文档中提取出的项目值的图。
图5是示出本实施方式中为了说明周边信息的生成而使用的文档的一例的图。
图6a是示出本实施方式中的项目值提取处理的流程图。
图6b是接着图6a的流程图。
图7是示出本实施方式中作为处理对象的文档的另一例的图。
具体实施方式
下面,根据附图对本公开的优选实施方式进行说明。
图1是示出本公开的信息处理装置的一个实施方式的块结构图。在图1中示出本实施方式中的信息处理装置10、以及将扫描文档而生成的读取图像交给信息处理装置10的复合机8。
本实施方式中的信息处理装置10能够通过个人计算机(pc)等以往存在的通用的硬件结构实现。因此,如图2所示,本实施方式中的信息处理装置10构成为将cpu1、rom2、ram3、作为存储单元的硬盘驱动(hdd)4、作为从复合机8接收文档的读取图像的通信单元的网络接口(if)5和用户接口(ui)6与内部总线7连接起来。用户接口6可以构成为设置鼠标和键盘作为输入单元,并且设置显示器作为显示单元。或者,也可以由兼用作输入单元和显示单元的触摸面板式的液晶面板等构成。
复合机8是搭载复印功能、扫描功能等各种功能的图像形成装置的一个方式,是内置了计算机的装置。与信息处理装置10同样,复合机8能够通过以往存在的通用的硬件结构实现。
返回图1,本实施方式中的信息处理装置10具有读取图像取得部11、文档种类判别部12、项目值提取部13、周边信息生成部14、提取信息提供部15、预设设定存储部16、纠错信息存储部17、周边信息存储部18和提取信息存储部19。另外,本实施方式的说明中不使用的结构要素从附图中省略。
读取图像取得部11取得复合机8扫描文档而生成的文档的读取图像。文档种类判别部12对文档的读取图像进行解析,由此判别文档的种类。项目值提取部13从文档的读取图像中提取在该文档的种类中预先设定为提取对象的项目的项目值,将提取出的结果保存在提取信息存储部19中。在项目值提取部13按照预设设定提取项目值的结果为无法提取正确的项目值的情况下,周边信息生成部14生成周边信息。周边信息的详细情况在后面叙述。提取信息提供部15将基于项目值提取部13的项目值的提取结果提供给用户。各存储部16~19与动作的说明一起进行说明。
信息处理装置10中的各结构要素11~15通过形成信息处理装置10的计算机和利用搭载于计算机的cpu1进行动作的程序的协调动作来实现。此外,各存储部16~19通过搭载于信息处理装置10的hdd4实现。或者,也可以经由网络利用ram3或位于外部的存储单元。
在本实施方式中,设1台信息处理装置10具有本实施方式所需要的结构要素11~19来进行说明,但是,也可以分散在多个信息处理装置中构成。此外,也可以使用搭载于复合机8的计算机作为本实施方式中的信息处理装置10。
此外,本实施方式中使用的程序当然能够由通信单元提供,还能够存储在cd-rom、usb存储器等计算机可读取的记录介质中来提供。从通信单元、记录介质提供的程序安装在计算机中,计算机的cpu1依次执行程序,由此实现各种处理。
接着,对本实施方式中的动作进行说明。
本实施方式中的信息处理装置10从文档的读取图像中提取预先设定的项目的项目值。在本实施方式中,作为提取项目值的方法,采用图案匹配。即,原则上不去确定项目值存在于文档上的哪个位置,项目值提取部13从文档的读取图像中找出符合预设设定存储部16中存储的预设设定、即作为提取对象而预先设定的项目或该项目的项目值的特征的字符串,提取该找出的字符串作为该项目的项目值。项目的特征例如是指文档上的位置等。例如在要提取的项目值是企业名的情况下,项目值的特征是指包含“株式会社”等字符串在内的字符串等。另外,提取项目值的方法不需要限定于图案匹配,例如,在定义了文档上的项目值的位置的情况下、或定义了项目名的情况下,也可以利用该定义的信息提取项目值。
另外,预设设定中作为提取对象而预先设定的是项目名,从文档的读取图像中实际作为提取对象提取的是由该项目名确定的项目的项目值。因此,在本实施方式中,为了便于说明,有时将提取对象设为“项目”进行说明,有时设为“项目名”进行说明。
图3是示出本实施方式中作为处理对象的文档的一例的图。在图3中,作为文档的一例,示出账单这样的类别的表单。此外,图4是以表形式示出从图3所示的表单中提取出的项目值的图。在图4中,成组地示出作为应该从该表单中提取的内容而预先设定的项目的名称和提取出的该项目的项目值。
根据图4所示的设定例,项目值提取部13需要从由株式会社x研究所发行的账单中提取“发送目的地”、“发送方”、“支付期限日”和“合计金额”这样的各项目的项目值。参照图3所示的表单的内容例可知,针对“发送目的地”、“发送方”和“合计金额”提取了正确的项目值,但是,针对“支付期限日”未能提取正确的项目值。
该情况下,用户在画面中显示图3所示的文档(以下也称为“第1文档”)的读取图像,在该读取图像中指定与提取对象的项目(在该例子中为“支付期限日”)对应的正确的项目值的显示位置。指定正确的项目值的显示范围作为显示位置。在本实施方式中,将第1文档的读取图像内的包含提取对象的项目值的范围称为“项目值取得区域”。根据图3所示的表单的例子,可知“支付期限日”是“2018年10月31日”,因此,用户指定包围“2018年10月31日”的范围,由此在第1文档的读取图像中设定项目值取得区域21。
在设定项目值取得区域21后,项目值提取部13将识别表单的种类的识别信息(例如“表单种类id”)、项目(在该例子中为“支付期限日”)、表示第1文档中的项目值取得区域21的范围的信息、表示例如将第1文档的规定位置(例如第1文档的左上角)设为原点的坐标系中的范围的坐标信息对应起来生成纠错信息,登记在纠错信息存储部17中。此外,与该登记一起,将图4所示的提取信息中包含的“支付期限日”的项目值从“2018年10月1日”纠正为“2018年10月31日”。然后,项目值提取部13将识别由株式会社x研究所发行的图3所示的账单的识别信息(例如“表单id”)与从该账单得到的图4所示的提取信息关联起来,保存在提取信息存储部19中。另外,可知项目“支付期限日”是基于日期表记的字符串,因此,也可以将是日期类型字符串这样的信息附加到纠错信息中,由此限定项目值的数据类型。
另外,作为数据类型,存在英文数字、数字等。此外,也可以是能够在系统(即信息处理装置10)中设定期望的数据类型(例如将由3个字符构成的字符串如“○○-×”那样利用连字符分成2个字符和1个字符等)。
由此,在以后的处理中,在读取图像取得部11取得第1文档后、取得与第1文档相同种类的文档(以下也称为“第2文档”)的读取图像的情况下,项目值提取部13针对生成了纠错信息的项目(在上述例子中为“支付期限日”),参照该纠错信息而不参照预设设定,由此,提取与项目值取得区域21的位置对应的区域(以下也称为“提取区域”)中包含的字符串作为该项目(即“支付期限日”)的项目值。另外,针对其他的“发送目的地”、“发送方”和“合计金额”的各项目,继续利用预设设定来提取各项目值。关于从项目值取得区域21中提取的字符串,如能够从第1文档上的项目值取得区域21中正确提取那样,认为基本上在第2文档中也成为正确的项目值。
此外,在本实施方式中,在设定项目值取得区域21后,周边信息生成部14根据存在于项目值取得区域21的周边的图像,如下那样生成周边信息,将其登记在周边信息存储部18中。使用图5对该周边信息的生成进行说明。
图5是示出与图3相同的表单的图。首先,周边信息生成部14尝试在表单上提取存在于四个方向的图像作为项目值取得区域21的周边。首先,周边信息生成部14对表单的读取图像进行解析,由此,在项目值取得区域21的上方检测到“合计金额”这样的字符串22a。为了识别为字符,需要利用ocr(opticalcharacterrecognition)技术进行字符识别。另外,“字符串”意味着字符的集合,但是,有时在集合中仅包含1个字符。周边信息生成部14将这样检测到的字符串22a包含在周边信息中。
此外,周边信息生成部14在项目值取得区域21的右侧检测到“支付”这样的字符串22b。另外,字符串22a位于项目值取得区域21的正上方,但是,不是必须将最近的字符串(在项目值取得区域21的右侧为“前”)作为周边信息进行处理,也可以将特征性的语句或名词等作为周边信息进行处理。
此外,周边信息生成部14在项目值取得区域21的下方检测到“汇款地”这样的字符串22c。如上所述,不是必须将项目值取得区域21的正下方的字符串“请多关照”作为周边信息进行处理。
而且,在项目值取得区域21的左侧不存在任何的图像。该情况下,周边信息生成部14检测到位于项目值取得区域21的左侧的表单的边缘22d。具体而言,也可以将由坐标值表示的与表单的边缘22d之间的距离作为周边信息进行处理。
如上所述,周边信息生成部14在表单上提取存在于项目值取得区域21的四个方向的图像(在上述例子中为字符串22a~22c)。此外,在不存在图像的情况下,得到与表单的边缘22d之间的距离。这样,周边信息生成部14根据从项目值取得区域21的周边得到的信息生成周边信息,将其登记在周边信息存储部18中。具体而言,将取得周边信息的方向及该方向上存在的字符串等信息22a~22d与表单种类id关联起来而进行生成,其中,该表单种类id识别生成周边信息的表单的种类。
另外,在本实施方式中,将所取得的字符串22a~22c包含在周边信息中,但是,也可以与边缘22d同样,一并包含从项目值取得区域21起的距离的信息。此外,周边信息中包含的表单上的信息例如也可以将存在于项目值取得区域21的周边的格线、表(或表内的字符串等信息)或照片等图像设为周边信息的对象。此外,也可以将所存在的格线、表、照片等的特征包含在周边信息中。
在从文档中提取项目值的情况下,一般参照与该项目值相关联的信息、例如对应的项目名等在文档上的位置,检测项目值所在的位置。具体而言,估计为存在于表单上的项目名的右侧或正下方来提取项目值。当然可以将项目名等与项目值相关联的信息作为周边信息进行处理,但是,在本实施方式中,由上述说明可知,根据与对应于项目值取得区域21的项目没有关联性的字符串等22a~22d生成周边信息。
另外,在上述说明中,根据从项目值取得区域21的上下(y轴方向)和左右(x轴方向)这四个方向得到的信息生成周边信息,但是,只要是项目值取得区域21的周边即可,不需要限定于四个方向。例如,可以是至少一个方向,也可以是4个方向以上。
但是,根据文档的种类的不同,在文档内,项目值的位置有时偏移。例如,图3和图7均是从株式会社x研究所发行的相同形式的账单的例子,但是,当私有云利用费的件数不同时,有时布局不同。例如,相对于设定了项目值取得区域21的图3所示的第1文档,在第2文档中,如图7中例示的那样,伴随着私有云利用费的件数增加,有时项目“支付期限日”的项目值的位置向下方偏移。
这样,即使第1文档和第2文档是相同种类的文档,根据图3和图7所示的各表单的布局的差异可知,也无法从与第1文档的读取图像中设定的项目值取得区域21的位置对应的第2文档的读取图像内的区域(即“提取区域”)23中正确地提取项目“支付期限日”的项目值。另外,文档的纸张尺寸相同,因此,确定项目值取得区域21和提取区域23的各区域的坐标值相同。
这里,对文档的种类进行说明。这里,将表单作为文档的例子进行说明。
表单的种类由表单的提供方(也称为“发行方”)、提供目的地(也称为“目的地”)和表单的类别确定。表单的类别(以下为“表单类别”)一般有时也称为表单的种类,但是,示出根据种类对各表单进行分类的各群组。在表单的情况下,账单、报价单、订货单、合同书等相当于表单类别。图3所示的从株式会社x研究所发行的账单被分类为账单这样的表单类别。在“相同种类的表单”中对应有发行方及表单类别相同的表单。图3所示的表单和图7所示的表单的发行方(“株式会社x研究所”)及表单类别(“账单”)双方相同,因此是相同种类的表单。
此外,多数情况下,关于一个企业生成的表单,即使是不同种类,形式也基本上相似。例如,多数情况下,即使是不同种类,表单名、发行日期、发送目的地、发送方等各项目在表单上的配置也大致相同。因此,可以将表单类别不同、但是发行方相同的表单包含在“相同种类的表单”中。此外,针对某个表单的记载事项大致相同。例如,在账单中记载了发送方、发送目的地、支付期限日、账单金额等,因此,即使从不同企业发行,形式也基本上相似。因此,可以将发行方不同、但是表单类别相同的表单包含在“相同种类的表单”中。这样,可以将形式、记载事项等特征相似的表单认定为相同种类。
如上所述,在无法通过预设设定从第1文档中提取正确的项目值的情况下,项目值提取部13设定项目值取得区域21,以使得能够根据用户操作而提取正确的项目值。但是,由于第1文档与第2文档的各表单之间的布局的偏移,有时无法从与第1文档的项目值取得区域21的位置对应的第2文档的提取区域23中提取正确的项目值。在本实施方式中,其特征在于,在这种情况下,也能够从第2文档的读取图像中提取正确的项目值。
下面,使用图6a和图6b所示的流程图对本实施方式中的项目值提取处理进行说明。另外,这里,设为针对第1文档的处理已经结束。因此,有时根据需要而生成纠错信息和周边信息。
在读取图像取得部11取得与所述第2文档相当的表单(以下也称为“第2表单”)后(步骤s101),文档种类判别部12判别该表单的种类(步骤s102)。例如,利用ocr技术取得第2表单中记载的表单名来进行判别,或者在能够确定表单的种类的码信息(例如条形码或qr码(注册商标))被附加于第2表单的情况下,读取该码信息来进行判别。
接着,项目值提取部13从第2表单中提取与预先设定的项目对应的项目值,但是,在此之前,确认文档种类判别部12判别出的表单的种类是否进行了纠错。能够根据在纠错信息存储部17中是否登记有与该表单的种类对应的纠错信息,来确认是否进行了纠错。
这里,在第2表单不是进行了纠错的种类的表单的情况下(步骤s103:否),项目值提取部13按照预设设定存储部16中设定的与第2表单的种类对应的预设设定,从第2表单的读取图像中提取在该表单的种类中作为提取对象的各项目的项目值(步骤s104)。然后,如图4所示,项目值提取部13在提取对象的项目中对应该项目值而生成提取信息,将其保存在提取信息存储部19中(步骤s109)。
另一方面,在第2表单是进行了纠错的种类的表单的情况下(步骤s103:是),项目值提取部13在第2表单中按照每个提取对象的项目进行以下处理。首先,从提取对象的项目中选出一个未实施以下说明的处理的项目(步骤s105)。然后,在未生成与该项目对应的纠错信息的情况下(步骤s106:否),项目值提取部13按照预设设定存储部16中设定的与第2表单的种类对应的预设设定,从第2表单的读取图像中提取该项目的项目值(步骤s107)。然后,在未结束第2表单中针对提取对象的全部项目的上述处理的情况下(步骤s108:否),转移到步骤105。另一方面,在针对提取对象的全部项目的上述处理结束的情况下(步骤s108:是),项目值提取部13如上所述生成提取信息,将其保存在提取信息存储部19中(步骤s109)。
项目值提取部13在与选出的项目对应的纠错信息已经被生成的情况下(步骤s106:是),项目值提取部13从各存储部17、18取得包含与该项目对应的项目值取得区域21的纠错信息和周边信息(步骤s110)。
接着,项目值提取部13尝试从与所取得的项目值取得区域21的位置对应的第2表单上的区域(上述“提取区域”)中提取字符串。这里,在能够提取字符串的情况下(步骤s112:是),项目值提取部13与所述周边信息的生成同样,从提取区域的周边取得图像。然后,在所取得的图像与步骤110中取得的周边信息一致的情况下(步骤s111:是),项目值提取部13选择通过尝试而提取出的字符串作为该项目的项目值(步骤s113)。然后,转移到步骤108。
图7是示出如下表单的布局的例子的图:该表单是与图3所示的表单(以下也称为“第1表单”)相同表单种类的表单,但是伴随着私有云利用费的件数增加而使项目“支付期限日”的项目值的位置向下方偏移。当假设第2表单是与图3所示的表单(以下也称为“第1表单”)相同布局的表单时,从第2表单的提取区域的周边得到的信息应该与根据第1表单生成的周边信息相同。因此,能够从与项目值取得区域21的位置对应的提取区域中提取项目“支付期限日”的正确的项目值。与此相对,在图7所示的表单是第2表单的情况下,即使第2表单和第1表单是相同种类的表单,从第2表单的提取区域23的周边得到的信息也与根据图3所示的第1表单生成的周边信息不一致。该情况下(步骤s112:否),项目值提取部13对第2表单进行解析,由此,尝试提取作为其他项目值的候选的字符串(步骤s114)。
例如,项目“支付期限日”的项目值是表示日期的字符串,因此,从第2表单中提取以日期的形式构成的字符串。另外,在提取对象为项目“发送方”、“发送目的地”的情况下,一般在该项目值中包含“株式会社”、“(株)”、“有限公司”等字符串,因此,尝试提取包含这些字符串的字符串。此外,在提取对象为项目“合计金额”的情况下,在该项目值中包含由数字构成的字符串,并且在字符串的开头附加有“¥”或在字符串的后尾附加“日元”,因此,尝试按照这些规则提取字符串。
这样,项目值提取部13按照与系统(即信息处理装置10)中预先设定的项目相应的字符串的提取规则,尝试提取字符串。
这里,在能够提取作为其他项目值的候选的字符串的情况下(步骤s115:是),项目值提取部13从所取得的字符串所在的区域的周边,与所述周边信息的生成同样提取图像。然后,判定所取得的图像是否与步骤s110中取得的周边信息一致。此后的处理已经说明,因此省略。另外,在图7所示的第2表单的例子中,包含大量与项目“支付期限日”相同的日期类型的字符串,因此,反复执行步骤s112、s114、s115,直到选择包含项目“支付期限日”的项目值的区域为止。
另一方面,在无法提取作为其他项目值的候选的字符串的情况下(步骤s115:否),项目值提取部13使处理转移到步骤107,按照预设设定从第2表单的读取图像中提取该项目的项目值(步骤s107)。该情况下,基于预设设定,由此可能能够提取正确的项目值。在无法提取正确的项目值的情况下,与上述同样,用户通过对提取信息进行纠正来应对。此外,根据需要,也可以再次设定项目值取得区域21。
如图7中例示的那样,在提取区域23中包含的字符串为日期类型的情况下,具体而言,可能提取“2019年7月/1日”作为项目“支付期限日”的项目值。但是,在本实施方式中,将从提取区域23的周边得到的信息跟与项目值取得区域21对应的周边信息进行核对。在图7所示的提取区域23的左侧,与周边信息同样,也许存在表单的边缘。但是,除此以外的方向的图像与周边信息不一致,因此,不会提取“2019年7月/1日”作为项目“支付期限日”的项目值。通过反复执行步骤s114,终将选出区域24。在图7所示的表单的例子中,从区域24的周边得到的信息与周边信息一致,因此,能够提取“2019年8月31日”作为项目“支付期限日”的正确的项目值。
但是,在本实施方式中,根据从在步骤s114中能够提取字符串的区域(以下称为“候选提取区域”)的周边得到的信息是否与周边信息一致,判定候选提取区域中是否存正确的项目值。在本实施方式中,根据项目值取得区域21的上下左右这4个方向的图像生成周边信息,因此,从得到4个方向均与周边信息一致的周边的信息的第2文档的区域中提取项目值。
但是,例如,由于记载事项增加而在文档上进行改行,在第2文档中,周边信息中包含的字符串的位置有时相对于第1文档偏移。此外,在作为周边信息而设定的第1文档上的字符串是项目值的情况下,在第2文档中,该项目的项目值与第1文档不同的可能性很高。在项目值不同的情况下,从提取区域23的周边得到的信息与周边信息不一致。此外,即使项目值取得区域21和提取区域23(或候选提取区域)是相同位置,根据文档的读取精度的不同,从提取区域23到文档的边缘的距离(即坐标值)有时也与周边信息不一致。
因此,在判定从项目值取得区域21的周边得到的周边信息和从提取区域23(或候选提取区域)的周边得到的信息是否一致时,优选以具有某种程度的容许范围的方式进行判定。例如,在周边信息中从项目值取得区域21到文档的边缘的距离设定为2.0cm的情况下,也可以设定容许范围,例如如果从提取区域23(或候选提取区域)到文档的边缘的距离为1.7~2.3cm,则判定为一致。这样,也可以预先设定用于判定从项目值取得区域21的周边得到的周边信息和从提取区域23(或候选提取区域)的周边得到的信息是否一致的一致条件,将满足该一致条件的情况判定为一致。例如,在用距离表示周边信息的情况下,预先设定如果为±0.3cm则判定为一致这样的一致条件。这样,在从与项目值取得区域21的位置对应的第2文档的读取图像内的提取区域(或候选提取区域)的周边得到的信息满足一致条件的情况下,提取从提取区域中提取出的字符串作为项目值。
但是,根据表单的种类的不同,布局的变化不少,在周边信息中包含的全部方向(在上述例子中为上下左右这4个方向)上从提取区域23(或候选提取区域)的周边得到的信息不一定一致。该情况下,提取能够从得到与周边信息之间的一致度最高的周边的信息的区域中提取的字符串作为项目值。例如,在不存在得到在全部4个方向上与周边信息一致的周边的信息的区域的情况下,选择从一致的方向的数量最多的区域中提取出的字符串作为项目值。
根据本实施方式,在第1表单和第2表单是相同种类的表单的情况下,即使第2表单的布局与第1表单不同,也能够提取与项目对应的正确的项目值。
在上述实施方式中,处理器是指广义的处理器,包含通用处理器(例如cpu:centralprocessingunit等)、专用处理器(例如gpu:graphicsprocessingunit、asic:applicationspecificintegratedcircuit、fpga:fieldprogrammablegatearray、可编程逻辑器件等)。
此外,上述实施方式中的处理器的动作不仅可以由1个处理器实现,还可以由存在于物理上分开的位置的多个处理器协作实现。此外,处理器的各动作的顺序不限于上述实施方式中记载的顺序,也可以适当变更。
1.一种信息处理装置,其具有处理器,
所述处理器在取得与第1文档相同种类的第2文档的读取图像后,在所述第2文档的读取图像内,在满足用于判定为与周边信息一致的一致条件的情况下,提取得到与所述周边信息一致的周边的信息的区域中包含的字符串作为所述第2文档的读取图像内的提取对象的项目值,其中,所述周边信息是从如下的图像得到的,该图像存在于所述第1文档的读取图像内的包含提取对象的项目值的项目值取得区域的周边。
2.根据权利要求1所述的信息处理装置,其中,
所述处理器在所述第2文档的读取图像内不存在从周边得到的信息满足所述一致条件的区域的情况下,提取能够从得到与所述周边信息之间的一致度最高的周边的信息的区域中提取出的字符串作为项目值。
3.根据权利要求2所述的信息处理装置,其中,
所述处理器在从所述第2文档的读取图像内的与所述项目值取得区域的位置对应的提取区域的周边得到的信息满足所述一致条件的情况下,提取从所述提取区域提取出的字符串作为项目值。
4.根据权利要求1~3中的任意一项所述的信息处理装置,其中,
所述周边信息由与项目之间不具有关联性的格线、表或照片的各图像或字符串中的至少一方表示。
5.根据权利要求1所述的信息处理装置,其中,
所述项目值取得区域由用户指定。
6.根据权利要求5所述的信息处理装置,其中,
在无法从按照规定的规则设定的区域中提取所述提取对象的项目值的情况下,由用户指定区域,由此设定所述项目值取得区域。
7.一种计算机可读介质,其存储有使计算机执行处理的程序,其中,
在所述处理中,在取得与第1文档相同种类的第2文档的读取图像后,在所述第2文档的读取图像内,在满足用于判定为与周边信息一致的一致条件的情况下,提取得到与所述周边信息一致的周边的信息的区域中包含的字符串作为所述第2文档的读取图像内的提取对象的项目值,其中,所述周边信息是从如下的图像得到的,该图像存在于所述第1文档的读取图像内的包含提取对象的项目值的项目值取得区域的周边。
8.一种信息处理方法,其中,
在取得与第1文档相同种类的第2文档的读取图像后,在所述第2文档的读取图像内,在满足用于判定为与周边信息一致的一致条件的情况下,提取得到与所述周边信息一致的周边的信息的区域中包含的字符串作为所述第2文档的读取图像内的提取对象的项目值,其中,所述周边信息是从如下的图像得到的,该图像存在于所述第1文档的读取图像内的包含提取对象的项目值的项目值取得区域的周边。
技术总结