本说明书一个或多个实施例涉及数据处理技术领域,尤其涉及一种基于深度学习的合同审核方法、装置及电子设备。
背景技术:
在日常生产工作或商业活动过程中,有很多需要签订合同的场景,不看了避免的需要对合同文本内容进行审核,尤其是某些企业或机构中需要对大量合同文本进行审核。一个重要的审核关注点在于合同文本中是否缺指定的合同条款,目前合同文本审核都是基于规则和关键字对合同内容进行审核,但是在自然语言处理中,自然语言具有歧义性、动态性和非规范性,同时语言理解通常需要丰富的知识和一定的推理能力,仅靠规则和关键字无法穷尽处所有的表达方式,因此一旦合同内容中的用词内容和顺序超出预设的规则和关键字范围就无法对合同内容进行有效审核。
技术实现要素:
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于深度学习的合同审核方法、装置及电子设备,以解决现有方法无法对合同内容进行有效准确审核的问题。
基于上述目的,本说明书一个或多个实施例提供了一种基于深度学习的合同审核方法,包括:
获取合同样本数据,将所述合同样本数据分解为合同文本段,利用所述合同文本段创建训练数据集;
对所述合同文本段进行聚类处理,根据聚类结果在所述训练数据集中为所述合同文本段添加相应的类属性标记;
构建神经网络模型,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型;
利用所述优化审核模型对待审核合同文本进行处理。
可选的,所述利用所述合同文本段创建训练数据集,包括:
将预设专业词库作为分词配置文件对所述合同文本数据进行分词处理;
根据分词处理结果滤除所述合同文本数据中的非相关分词;
利用滤除所述非相关分词后的所述合同文本数据创建训练数据集。
可选的,所述对所述合同文本段进行聚类处理,包括:
计算所述合同文本段中每个分词的词频与逆向文本频率,根据所述词频与所述逆向文本频率确定所述分词的词频-逆向文本特征;
将所述合同文本段作为聚类对象,将所述合同文本段所包括的多个所述分词的所述词频-逆向文本特征作为所述聚类对象的多维度属性,利用k均值聚类算法,对多个所述合同文本进行聚类,聚类结果的多个类簇分别与多个合同条款种类一一对应。
可选的,所述神经网络模型包括卷积网络层与全连接层;
所述卷积网络层包括两层卷积神经网络,每层所述卷积神经网络包括200个神经节点;
在两层所述卷积神经网络之间采用非线性激活函数并设置最大池化层;
可选的,在所述卷积网路层与全连接层还设置阻断层;
所述组断层用于所述卷积网络层与所述全连接层进行数据传输时,随机阻断部分神经元的数据传输。
可选的,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型,包括:
将所述合同文本段作为输入数据,对所述神经网络模型进行训练;
将所述神经网络模型针对所述合同文本段处理后的输出数据,与所述合同文本段对应的类属性标记进行对比;
利用损失函数量来衡量所述输出数据与对应的所述类属性标记之间的差异;
根据所述损失函数对所述神经网络模型的网络结构、每层卷积神经网络中的神经节点数量、所述非线性激活函数参数进行调整,直至所述损失函数的值小于差异阈值;
调整后的所述神经网络模型即所述优化审核模型。
可选的,所述损失函数采用l2正则化计算机制。
可选的,其特征在于,所述利用所述优化审核模型对待审核合同文本进行处理,包括:
将所述待审核合同文本分解为多个待审核合同文本段;
将所述待审核合同文本段作为输入数据,利用所述优化审核模型对所述待审核合同文本段进行处理,得到审核输出数据;
根据所述审核输出数据确定所述待审核合同文本段的合同条款种类;
将所述待审核合同文本所涉及的全部合同条款种类与指定合同条款目录进行对比,确定所述待审核合同文本是否缺失指定合同条款。
基于上述目的,本说明书一个或多个实施例提供了一种基于深度学习的合同审核装置,包括:
训练样本模块,被配置为获取合同样本数据,将所述合同样本数据分解为合同文本段,利用所述合同文本段创建训练数据集;
聚类模块,被配置为对所述合同文本段进行聚类处理,根据聚类结果在所述训练数据集中为所述合同文本段添加相应的类属性标记;
神经网络模块,被配置为构建神经网络模型,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型;
文本审核模块,被配置为利用所述优化审核模型对待审核合同文本进行处理。
基于上述目的,本说明书一个或多个实施例提供了一种基于深度学习的合同审核电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如下方法:
获取合同样本数据,将所述合同样本数据分解为合同文本段,利用所述合同文本段创建训练数据集;
对所述合同文本段进行聚类处理,根据聚类结果在所述训练数据集中为所述合同文本段添加相应的类属性标记;
构建神经网络模型,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型;
利用所述优化审核模型对待审核合同文本进行处理。
从上面所述可以看出,本说明书一个或多个实施例提供的一种基于深度学习的合同审核方法、装置及电子设备,通过半监督学习的聚类方式对大量合同样本数据的合同文本段记性聚类标记,准确将合同文本段归入到对应的类簇中,从而针对每个合同文本段都确定对应的合同条款种类,再分别将合同文本段与相应合同条款种类作为训练输入数据和训练输出数据对神经网络模型进行训练,通过对网络结构和参数的不断改进调整,利用神经网络模型来学习合同文本段与合同条款类的对应关系,利用优化后的模型对待审核合同文本进行处理,这样的方式不会受到自然语言具有歧义性、动态性和非规范性所造成的的影响,能够快速高效准确的确定所述待审核合同文本中所涵盖的合同条款,实现对合同审核。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例所提供的一种基于深度学习的合同审核方法示意图;
图2为本说明书一个或多个实施例所提供的一种基于深度学习的合同审核方法中创建训练数据集方法示意图;
图3为本说明书一个或多个实施例所提供的一种基于深度学习的合同审核方法中对待审核合同文本进行处理方法示意图;
图4为本说明书一个或多个实施例所提供的一种基于深度学习的合同审核装置示意图;
图5为本说明书一个或多个实施例所提供的一种基于深度学习的合同审核电子设备示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
目前合同文本审核都是基于规则和关键字对合同内容进行审核,但是在自然语言处理中,自然语言具有歧义性、动态性和非规范性,同时语言理解通常需要丰富的知识和一定的推理能力,仅靠规则和关键字无法穷尽处所有的表达方式,因此一旦合同内容中的用词内容和顺序超出预设的规则和关键字范围就无法对合同内容进行有效审核。
基于上述问题,本发明提出一种基于深度学习的结合半监督机器学习的合同审核方法,利用半监督学习机制准确确定合同文本段和对应的合同条款种类,利用神经网络模型学习二者间的对应关系,再利用优化后的神经网络模型对待审核合同文本记性处理。,
基于上述发明构思,本说明书实施例提供了一种基于深度学习的合同审核方法。
如图1所示,本说明书的一个或多个实施例提供的一种基于深度学习的合同审核方法,包括:
s1:获取合同样本数据,将所述合同样本数据分解为合同文本段,利用所述合同文本段创建训练数据集;
s2:对所述合同文本段进行聚类处理,根据聚类结果在所述训练数据集中为所述合同文本段添加相应的类属性标记;
s3:构建神经网络模型,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型;
s4:利用所述优化审核模型对待审核合同文本进行处理。
所述基于深度学习的合同审核方法,通过半监督学习的聚类方式对大量合同样本数据的合同文本段记性聚类标记,准确将合同文本段归入到对应的类簇中,从而针对每个合同文本段都确定对应的合同条款种类,再分别将合同文本段与相应合同条款种类作为训练输入数据和训练输出数据对神经网络模型进行训练,通过对网络结构和参数的不断改进调整,利用神经网络模型来学习合同文本段与合同条款类的对应关系,利用优化后的模型对待审核合同文本进行处理,这样的方式不会受到自然语言具有歧义性、动态性和非规范性所造成的的影响,能够快速高效准确的确定所述待审核合同文本中所涵盖的合同条款,实现对合同审核。
如图2所示,在本说明书的一个或多个实施例提供的一种基于深度学习的合同审核方法中,所述利用所述合同文本段创建训练数据集,包括:
s201:将预设专业词库作为分词配置文件对所述合同文本段进行分词处理;
在一些可选实施方式中,采用基于词典的分词方式对所述合同文本段进行分词处理,就是将预设专业词库作为依据词典的配置文件,所述预设专业词库是指在合同这种特殊文字体裁中可能用到的特殊的专业用语集合,例如交易关联、签署性质、合作渠道、合同作用年限等,将预设专业词库作为分词配置文件,分词处理的结果更加准确;
s202:根据分词处理结果滤除所述合同文本数据中的非相关分词;
合同文本中存在部分词语是对审核结果不造成影响的,例如无意义名词:公司名称、公司地址等,因此在一些可选实施方式中,将分词处理结果中的非相关分词滤除;无意义分词还包括如“的”、“了”等连接词。
s203:利用滤除所述非相关分词后的所述合同文本数据创建训练数据集。
在本说明书的一个或多个实施例提供的一种基于深度学习的合同审核方法中所述对所述合同文本段进行聚类处理,包括:
计算所述合同文本段中每个分词的词频与逆向文本频率,根据所述词频与所述逆向文本频率确定所述分词的词频-逆向文本特征;
所述词频指的是某一个给定的词语在该文件中出现的频率,用于衡量该词语在所属文件中的重要性;所述逆向文本频率可以由总文件数目除以包含该词语之文件的数目,用于衡量该词语的普遍重要性;
将所述合同文本段作为聚类对象,将所述合同文本段所包括的多个所述分词的所述词频-逆向文本特征作为所述聚类对象的多维度属性,利用k均值聚类算法,对多个所述合同文本段进行聚类,聚类结果的多个类簇分别与多个合同条款种类一一对应;
在利用k均值聚类算法对m个所述合同文本段进行聚类处理时,对于m个合同文本段对象,每个对象具有n维度属性,即将所述合同文本段的所包括的n个分词每个分词的所述词频-逆向文本特征作为所述合同文本段对象的属性,依据m个所述合同文本段之间的相似性将其聚集到k个类簇中,在本说明书实施例中所述的k个类簇即与合同文本段对应的合同条款种类。
在本说明书的一个或多个实施例提供的一种基于深度学习的合同审核方法中所述神经网络模型包括卷积网络层与全连接层;
所述卷积网络层包括两层卷积神经网络,每层所述卷积神经网络包括200个神经节点;
所述卷积网络层中所述卷积神经网络的层数、每层卷积神经网络中的神经节点数都可以根据实际情况进行修改调整;
在两层所述卷积神经网络之间采用非线性激活函数relu并设置最大池化层。
在本说明书的一个或多个实施例提供的一种基于深度学习的合同审核方法中,在所述卷积网路层与全连接层还设置阻断层dropout;
所述组断层dropout用于所述卷积网络层与所述全连接层进行数据传输时,随机阻断部分神经元的数据传输,阻断神经元的比例可以根据实际情况作出调整,在一些可选实施例中,将阻断神经元的比例设置为25%,即随机阻断25%神经元的数据传输。
在所述基于深度学习的合同审核方法中,所述神经网络模型中还设置有dropout层,能够有效防止过拟合的问题。
在本说明书的一个或多个实施例提供的一种基于深度学习的合同审核方法中,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型,包括:
将所述合同文本段作为输入数据,对所述神经网络模型进行训练;
将所述神经网络模型针对所述合同文本段处理后的输出数据,与所述合同文本段对应的类属性标记进行对比;
利用损失函数量来衡量所述输出数据与对应的所述类属性标记之间的差异;
根据所述损失函数对所述神经网络模型的网络结构、每层卷积神经网络中的神经节点数量、所述非线性激活函数参数进行调整,直至所述损失函数的值小于差异阈值;
调整后的所述神经网络模型即所述优化审核模型。
在一些可选的实施例中,所述损失函数采用l2正则化计算机制,即在原基本损失函数的基础上加上权重参数的平方和。
如图3所示,在本说明书的一个或多个实施例提供的一种基于深度学习的合同审核方法中,所述利用所述优化审核模型对待审核合同文本进行处理,包括:
s301:将所述待审核合同文本分解为多个待审核合同文本段;
s302:将所述待审核合同文本段作为输入数据,利用所述优化审核模型对所述待审核合同文本段进行处理,得到审核输出数据;
s303:根据所述审核输出数据确定所述待审核合同文本段的合同条款种类;
s304:将所述待审核合同文本所涉及的全部合同条款种类与指定合同条款目录进行对比,确定所述待审核合同文本是否缺失指定合同条款。
利用优化后的模型对待审核合同文本进行处理,能够快速高效准确的确定所述待审核合同文本的多有合同文本段对应的合同条款种类,通过与预设的指定合同条款目录对比,就能确定所述待审核合同文本是否缺失合同条款。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种基于深度学习的合同审核装置。
参考图4,所述基于深度学习的合同审核装置,包括:
训练样本模块1,被配置为获取合同样本数据,将所述合同样本数据分解为合同文本段,利用所述合同文本段创建训练数据集;
聚类模块2,被配置为对所述合同文本段进行聚类处理,根据聚类结果在所述训练数据集中为所述合同文本段添加相应的类属性标记;
神经网络模块3,被配置为构建神经网络模型,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型;
文本审核模块4,被配置为利用所述优化审核模型对待审核合同文本进行处理。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的xx方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
在本说明书的一个或多个实施例提供的一种基于深度学习的合同审核方法中
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于深度学习的合同审核方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于深度学习的合同审核方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
1.一种基于深度学习的合同审核方法,其特征在于,包括:
获取合同样本数据,将所述合同样本数据分解为合同文本段,利用所述合同文本段创建训练数据集;
对所述合同文本段进行聚类处理,根据聚类结果在所述训练数据集中为所述合同文本段添加相应的类属性标记;
构建神经网络模型,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型;
利用所述优化审核模型对待审核合同文本进行处理。
2.根据权利要求1所述的方法,其特征在于,所述利用所述合同文本段创建训练数据集,包括:
将预设专业词库作为分词配置文件对所述合同文本段进行分词处理;
根据分词处理结果滤除所述合同文本段中的非相关分词;
利用滤除所述非相关分词后的所述合同文本段创建训练数据集。
3.根据权利要求2所述的方法,其特征在于,所述对所述合同文本段进行聚类处理,包括:
计算所述合同文本段中每个分词的词频与逆向文本频率,根据所述词频与所述逆向文本频率确定所述分词的词频-逆向文本特征;
将所述合同文本段作为聚类对象,将所述合同文本段所包括的多个所述分词的所述词频-逆向文本特征作为所述聚类对象的多维度属性,利用k均值聚类算法,对多个所述合同文本进行聚类,聚类结果的多个类簇分别与多个合同条款种类一一对应。
4.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括卷积网络层与全连接层;
所述卷积网络层包括两层卷积神经网络,每层所述卷积神经网络包括200个神经节点;
在两层所述卷积神经网络之间采用非线性激活函数并设置最大池化层。
5.根据权利要求4所述的方法,其特征在于,在所述卷积网路层与全连接层还设置阻断层;
所述组断层用于所述卷积网络层与所述全连接层进行数据传输时,随机阻断部分神经元的数据传输。
6.根据权利要求4所述的方法,其特征在于,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型,包括:
将所述合同文本段作为输入数据,对所述神经网络模型进行训练;
将所述神经网络模型针对所述合同文本段处理后的输出数据,与所述合同文本段对应的类属性标记进行对比;
利用损失函数量来衡量所述输出数据与对应的所述类属性标记之间的差异;
根据所述损失函数对所述神经网络模型的网络结构、每层卷积神经网络中的神经节点数量、所述非线性激活函数参数进行调整,直至所述损失函数的值小于差异阈值;
调整后的所述神经网络模型即所述优化审核模型。
7.根据权利要求6所述的方法,其特征在于,所述损失函数采用l2正则化计算机制。
8.根据权利要求1所述的方法,其特征在于,所述利用所述优化审核模型对待审核合同文本进行处理,包括:
将所述待审核合同文本分解为多个待审核合同文本段;
将所述待审核合同文本段作为输入数据,利用所述优化审核模型对所述待审核合同文本段进行处理,得到审核输出数据;
根据所述审核输出数据确定所述待审核合同文本段的合同条款种类;
将所述待审核合同文本所涉及的全部合同条款种类与指定合同条款目录进行对比,确定所述待审核合同文本是否缺失指定合同条款。
9.一种基于深度学习的合同审核装置,其特征在于,包括:
训练样本模块,被配置为获取合同样本数据,将所述合同样本数据分解为合同文本段,利用所述合同文本段创建训练数据集;
聚类模块,被配置为对所述合同文本段进行聚类处理,根据聚类结果在所述训练数据集中为所述合同文本段添加相应的类属性标记;
神经网络模块,被配置为构建神经网络模型,利用所述训练数据集对所述神经网络模型进行训练优化,得到优化审核模型;
文本审核模块,被配置为利用所述优化审核模型对待审核合同文本进行处理。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
技术总结