本发明涉及人工智能领域和自然语言处理领域,尤其涉及一种法律案件争议焦点获取方法、装置以及计算机设备。
背景技术:
随着社会的发展,每年最高法和各级法院都会产生大量的法律判决文书,并将其公布。这些法律文书中蕴含着大量的法律知识、案例细节等,是宝贵的研究素材,具有很高的研究价值和使用价值。法律案件中的争议焦点是原告和被告所争论的核心内容,法官等法律工作者需要对庭审争议焦点进行归纳,之后在采纳证据的情况进行逐一说理论证,所以争议焦点是当事人之间产生纠纷之后需要解决的主要问题。但是如何得到争议焦点是一个较难的问题,需要法官丰富的经验,并且目前的庭审会占大量时间,在此过程中需要提升效率。目前随着科技的发展,大数据、深度学习等前沿知识技术开始崛起并发挥越来越重要的作用,所以如何将这些人工智能技术与司法领域相结合受到越来越多的关注,“智慧司法”也被提出。所以通过人工智能技术,根据原被告陈述内容自动生成争议焦点,为法官或其他法律工作者进行推荐,能够更好的实现司法审判、诉讼服务和司法管理,也能提升庭审效率。
目前对争议焦点推荐的研究较少,根据法律文书自动生成争议焦点的技术还不成熟。所以亟需一种根据原被告陈述内容生成精确争议焦点的模型。
技术实现要素:
基于现有技术存在的问题,为了生成更加精准的争议焦点,本发明提出一种法律案件争议焦点获取方法、装置以及计算机设备用以解决上述技术问题。
在本发明的第一方面,本发明提供了一种法律案件争议焦点获取方法,其特征在于,包括以下步骤:
s1、获取具有争议焦点的法律文本;
s2、采用规则匹配方法得出争议焦点的类别并将其作为标签,制作法律案件争议焦点数据集;
s21、采用规则匹配方法寻找出历史争议焦点数据的焦点类型的概率值或者距离值;
s22、按照焦点类型的概率值或者距离值所对应的均方根误差,求取出对应的回归值;
s23、求取出均方根误差值所对应的损失值最小时的分配系数,在该分配系数下,通过改变初始回归值,从而确定出最小损失函数下的回归预测值;
s24、利用分配系数与相应的回归预测值作为焦点数据的第一标签,形成增强后的法律案件争议焦点数据集;
s3、将原被告陈述内容作为输入,采用孪生bert模型,对所述法律案件争议焦点数据集进行训练,得到训练模型结果;
s4、在训练好的模型中输入未知争议焦点的法律文本,输出焦点类型的标签,并得到最终争议焦点结果。
在本发明的第二方面,本发明还提供了一种法律案件争议焦点获取装置,所述装置包括:
采集模块,用于采集具有争议焦点的法律文本;
规则类别模块,用于获取争议焦点的类型,并对该类型打上标签;
孪生bert模型模块,对采集模块采集的具有争议焦点的法律文本和规则类型模块输入的争议焦点进行训练;
焦点输出模块,用于输出未知争议焦点的法律文本的焦点类型结果。
在本发明的第三方面,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述焦点获取方法的步骤。
本发明的有益效果:
本发明通过归纳具有争议焦点的法律文本,得到高质量法律案件争议焦点数据集,能够训练出高质量模型且具有通用性;针对法律文书的特点采用双输入形式,使用一种孪生bert模型,扩大了输入长度,突破bert长度限制,得到更加适合法律争议焦点的模型和更加精准的分类结果。本发明按照最小均方根误差的计算方式得到焦点类型的概率值或距离值的回归预测值,并求取出其所对应的分配系数,将分配系数与相应的回归值乘积采用自适应的方式求得焦点数据的第一标签,能够避免人为标记带来的主观误差,增强数据集的质量;本发明能够在庭审阶段帮助法官自动归纳、识别出争议焦点,对法官判决进行智能辅助,大大提升庭审效率,帮助法官进行更加精准的判决。
附图说明
图1是本发明实施例提供的一种法律案件争议焦点获取方法流程图;
图2是本发明实施例中的一种法律案件争议焦点获取结构图;
图3是本发明实施例提供的一种具有争议焦点法律文本的内容获取示意图;
图4是本发明实施例提供的一种法律案件争议焦点数据集示意图;
图5是本发明实施例提供的一种法律争议焦点孪生bert网络示意图;
图6是本发明实施例提供的一种法律争议焦点整体模型生成示意图;
图7是本发明实施例提供的训练完成后的孪生bert网络测试图;
图8是本发明实施例提供的一种法律案件争议焦点获取装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
图1是本发明实施例的一种法律案件争议焦点获取的架构图,如图1所示,本实施例首先收集法律案件文本,并获取其中具有争议焦点的法律文本,归纳出争议焦点的类型,构建出法律案件争议焦点数据集,按照孪生bert模型提取出最终的特征,将最终的特征放入softmax分类器中,得到最终的争议焦点结果。
图2是本发明的一种法律案件争议焦点获取方法流程图,如图2所示,在一个实施例中,一种法律案件争议焦点获取方法包括:
s1、获取具有争议焦点的法律文本;
通过抓取工具等对已经公开的法律文书进行收集后,对法律文书进行筛选,得到具有法律争议焦点的法律文书。
其中,法律争议焦点的法律文书的文本包括多个自然段落;将每个自然段落依次与多个预设匹配规则集合执行匹配处理,得到每个自然段落对应的预设匹配规则集合,其中,每个预设匹配规则集合包括一个或多个预设匹配规则;将对应相同的预设匹配规则集合的自然段落划分至同一个段落集合,得到至少一个段落集合;以及分别对至少一个段落集合的文本内容进行解析。
如图3所示,为本实施例提供的一种具有争议焦点法律文本的内容获取示意图。在得到初步的具有争议焦点的法律文书后,根据法律文书的特点,使用规则匹配方法将多篇法律文书中的争议焦点进行归纳整理,得到归类后的结果{r1,r2,……rn},其中n为整理所得所有的争议焦点个数,将其作为标签{label1,label2,……,labeln},并将原被告陈述内容进行整理、提取,得到原告陈述内容yi,1≤i≤m,其中m为法律文本总篇数;被告陈述内容bi,1≤i≤m。每个案件的原被告内容相对应,且都对应n个标签。如图4所示,为最终得到的法律案件争议焦点数据集,包括原告陈述内容,被告陈述内容和争议焦点。
s2、采用规则匹配方法得出争议焦点的类别并将其作为标签,制作法律案件争议焦点数据集;
s21、采用规则匹配方法寻找出历史争议焦点数据的焦点类型的概率值或者距离值;
其中,对于焦点类型的概率值的计算方式包括对提取出的争议焦点去掉冗余词与共有词,并进行同义词转换;统计出各焦点类型包含的关键词;生成焦点类型关键词字典;获取焦点描述词,将焦点描述词与所述焦点类型关键性词典进行比较,得到各焦点描述词属于焦点类型关键词词典中焦点类型的概率值。
其中,对于焦点类型的距离值的计算方式包括对提取出的争议焦点去除冗余词与共有词;并进行同义词转换;根据争议焦点的类型列表,统计出已处理的争议焦点中各类型的争议焦点,生成焦点关键词;将焦点关键词中的各争议焦点转换为争议词向量,以争议焦点词向量的均值作为争议焦点句向量,得到焦点类型句向量,获取法律样本中的焦点句,通过相似度计算得到焦点类型的距离值。
s22、按照焦点类型的概率值或者距离值所对应的均方根误差,求取出对应的回归值;
s23、求取出均方根误差值所对应的损失值最小时的分配系数,在该分配系数下,通过改变初始回归值,从而确定出最小损失函数下的回归预测值;
s24、利用分配系数与相应的回归值作为焦点数据的第一标签,形成增强后的法律案件争议焦点数据集。
在一个优选实施例中,考虑到部分类型的案件伴有一定的时间性、地域性以及主观性等原因,例如对于劳务纠纷案子,被告作为公司可能经常由于劳务纠纷等原因被提起诉讼,或者在某一时间段内被大量提起诉讼;或者在某些工业园(地域性)经常被提起诉讼等等,因此本实施例中设计出几个优先级,按照优先级选择出争议焦点;即为历史争议焦点的法律文本设置出原被告优先级、时间优先级以及区域优先级,选择出综合优先级最高的争议焦点作为第一数据集,将相应时间段的争议焦点的概率值均值或者距离值均值分别作为第一数据集对应的初始回归值,通过最小化损失函数,确定出该时间段所对应的分配系数,在该分配系数下,通过改变初始回归值,从而确定出最小化损失函数所对应的回归值,将每时间段的分配系数与相应时间段的最小化损失函数下的回归预测值之间的乘积作为该历史争议焦点的焦点类型,并确定出该焦点类型的第一标签。
其中,优先级的高低可以按照如下方式进行设置,例如,属于同一原告/被告的作为第一优先级,属于同一时间段的作为第二优先级,属于同一区域的作为第三优先级,按照第一、第二和第三优先级的顺序,选择出优先级最高的争议焦点作为第一数据集,举个例子,将a公司作为原告的具有争议焦点的案件作为第一数据集,将相应时间段(时间段可以按照a公司最近一年或者某段时间内)的争议焦点的概率值均值或者距离值均值作为第一数据集对应的初始回归值,通过最小化损失函数,确定出该时间段所对应的分配系数,在该分配系数下,通过改变初始回归值,从而确定出最小化损失函数所对应的回归值,将每时间段的分配系数与相应时间段的最小化损失函数下的回归预测值之间的乘积作为该历史争议焦点的焦点类型,并确定出该焦点类型的第一标签。
通过本发明的上述设置,不仅能够避免人工标注标签所带来的误差影响,还由于采用了自适应回归值的方式直接求取出焦点类型的标签,节省了大量的人工成本,提高了标注效率;并且还可以扩增数据集。
本发明中的损失函数可以采用本领域常见的损失函数,本发明对此不做具体的限制。
s3、将原被告陈述内容作为输入,采用孪生bert模型,对所述法律案件争议焦点数据集进行训练,得到训练模型结果;
在得到法律案件争议焦点数据集后,如何得到法律文书中争议焦点已转化为分类问题。如图5所示,一种法律争议焦点孪生bert网络示意图,将原被告陈述内容输入孪生bert模型,对模型进行训练。为了对每个标签的预测都得到更好的效果,根据标签数n将争议焦点转化为n个二分类问题。其中每个标签的值为{0,1},1代表法律文书存在该争议焦点,0代表法律文书不存在该争议焦点。并且为了突破bert对输入长度为512的限制,采用孪生bert模型。将原告陈述和被告陈述分别输入bert模型,孪生bert模型可保证两个bert模型之间共享参数,能够满足原告陈述和被告陈述最大长度都为512,则将能够输入的法律文书最大长度增至1024,且得到更全面、精确的信息。将原告陈述内容yi,1≤i≤m输入bert模型后得到其句嵌入ui,1≤i≤m,同样将被告内容bi,1≤i≤m输入与原告陈述内容共享参数的bert模型后得到其句嵌入vi,1≤i≤m。将这两个句嵌入进行交互得到最终的句嵌入结果si,si=ui vi,1≤i≤m。其中 为句向量相加。
将句嵌入结果si,si=ui vi,1≤i≤m放入softmax中,得到争议焦点分类结果,损失函数为交叉熵函数。如图6所示,为本发明实施例提供的一种法律争议焦点整体模型生成示意图,最终得到每个标签训练后的模型结果{model1,model2,……,modeln}。
s4、在训练好的模型中输入未知争议焦点的法律文本,输出焦点类型的标签,并得到最终争议焦点结果。
图7是本发明实施例提供的训练完成后的孪生bert网络测试图,如图7所示,当有未知争议焦点的法律文书出现时,提取出原被告陈述内容,加载训练好的模型结果,将其输入孪生bert模型,得到最终的争议焦点从而进行推荐。
图8是本发明实施例的一种法律案件争议焦点获取装置,所述装置包括:
采集模块,用于采集具有争议焦点的法律文本;
规则类别模块,用于获取争议焦点的类型,并对该类型打上标签;
孪生bert模型模块,对采集模块采集的具有争议焦点的法律文本和规则类型模块输入的争议焦点进行训练;
焦点输出模块,用于输出未知争议焦点的法律文本的焦点类型结果。
在一些优选实施例中,所述规则类别模块包括概率值/距离值计算单元、回归预测单元、系数分配单元以及乘法器;
所述概率值/距离值计算单元用于计算出历史争议焦点数据的焦点类型的概率值或者距离值;
所述回归值预测单元用于按照焦点类型的概率值或者距离值所对应的最小均方根误差的回归预测值;
所述系数分配单元用于求取出均方根误差值所对应的损失值最小时的分配系数;
所述乘法器用于利用分配系数与相应的回归预测值乘积作为焦点数据的第一标签,形成增强后的法律案件争议焦点数据集。
在本发明的实施例中,还包括一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如步骤s1~步骤s4所述的方法的步骤。
所述存储器(random-accessmemory,ram);存储器也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flashmemory),硬盘(harddiskdrive,hdd)或固态硬盘(solid-statedrive,ssd);存储器还可以包括上述种类的存储器的组合。
可选地,该存储器还用于存储程序指令。该处理器可以调用该存储器存储的程序指令,实现如本发明前述实施例所示的方法。
该处理器可以是中央处理器(centralprocessingunit,cpu),网络处理器(networkprocessor,np)或者cpu和np的组合。
该处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit,asic),可编程逻辑器件(programmablelogicdevice,pld)或其组合。上述pld可以是复杂可编程逻辑器件(complexprogrammablelogicdevice,cpld),现场可编程逻辑门阵列(field-programmablegatearray,fpga),通用阵列逻辑(genericarraylogic,gal)或其任意组合。
具体的,所述处理器用于输入具有争议焦点的法律文本,将所述法律文本进行预处理,采用规则匹配方法得出争议焦点的类别并将其作为标签,制作法律案件争议焦点数据集;将原被告陈述内容作为输入,采用孪生bert模型,对所述法律案件争议焦点数据集进行训练,得到训练模型结果;在训练好的模型中输入未知争议焦点的法律文本,输出焦点类型的标签,并得到最终争议焦点结果;前述图1~图7所示的实施例中,各步骤方法流程以及装置的运行可以基于该计算机设备的结构实现。
在一个具体实施例中,如通过工具收集到具有争议焦点的故意伤害案件法律文书13000篇,本实例需要先归纳争议焦点,归纳得到争议焦点共有12类{伤人主观故意,故意伤害行为,伤情认定问题,伤情与行为的因果关系,是否构成故意伤害罪,构成过失致人死亡罪,正当防卫或防卫过当,构成犯罪中止,构成自首,被害人是否存在过错,其他量刑情节问题,缓刑},则得到类的标签{label1,label2,……,label12}。并将原被告陈述内容进行整理、提取,得到原告陈述内容yi,1≤i≤13000;被告陈述内容bi,1≤i≤13000。每个案件的原被告内容相对应,且都对应12个标签,最终得到争议焦点数据集{原告陈述内容:yi,被告陈述内容:bi,标签:{label1,label2,……,label12}},其中1≤i≤13000。
在得到法律案件争议焦点数据集后,如何得到法律文书中争议焦点已转化为分类问题。将原被告陈述内容输入孪生bert模型,对模型进行训练。为了对每个标签的预测都得到更好的效果,根据标签数12将争议焦点转化为12个二分类问题。其中每个标签的值为{0,1},1代表法律文书存在该争议焦点,0代表法律文书不存在该争议焦点。并且采用孪生bert模型。将原告陈述和被告陈述分别输入bert模型,而bert模型之间共享参数,从而将法律文书输入内容最大长度增至1024,突破了bert对输入长度为512的限制,且得到更全面、精确的信息。将原告陈述内容输入bert模型后得到其句嵌入ui,1≤i≤13000,同样将被告内容输入与原告陈述内容共享参数的bert模型后得到其句嵌入vi,1≤i≤13000。将这两个句嵌入进行交互得到最终的句嵌入结果si,1≤i≤13000。其中 为句向量相加。
将句嵌入结果si,1≤i≤13000放入softmax中,得到争议焦点分类结果,损失函数为交叉熵函数。最终得到每个类训练后的模型结果{label1,label2,……,label12}。当有未知争议焦点的法律文书出现时,提取出原被告陈述内容y、b,加载训练好的模型结果,将其输入孪生bert模型,得到12个二分类的分类结果,最终据此获得法律案件的争议焦点。
并且之后使用2000篇法律文书作为验证集,通过孪生bert模型和非孪生bert模型进行了实验对比,f1值为评价指标,孪生bert模型效果远远好于非孪生bert模型。
表1孪生bert模型与非孪生bert模型对比
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
1.一种法律案件争议焦点获取方法,其特征在于,包括以下步骤:
s1、获取具有争议焦点的法律文本;
s2、采用规则匹配方法得出争议焦点的类别并将其作为标签,制作法律案件争议焦点数据集;
s21、采用规则匹配方法寻找出历史争议焦点数据的焦点类型的概率值或者距离值;
s22、按照焦点类型的概率值或者距离值所对应的均方根误差,求取出对应的回归值;
s23、求取出均方根误差值所对应的损失值最小时的分配系数,在该分配系数下,通过改变初始回归值,从而确定出最小损失函数下的回归预测值;
s24、利用分配系数与相应的回归预测值乘积作为焦点数据的第一标签,形成增强后的法律案件争议焦点数据集;
s3、将原被告陈述内容作为输入,采用孪生bert模型,对所述法律案件争议焦点数据集进行训练,得到训练模型结果;
s4、在训练好的模型中输入未知争议焦点的法律文本,输出焦点类型的标签,并得到最终争议焦点结果。
2.根据权利要求1所述的一种法律案件争议焦点获取方法,其特征在于,采用规则匹配方法寻找出历史争议焦点数据的焦点类型的概率值包括对提取出的争议焦点去掉冗余词与共有词,并进行同义词转换;统计出各焦点类型包含的关键词;生成焦点类型关键词字典;获取焦点描述词,将焦点描述词与所述焦点类型关键性词典进行比较,得到各焦点描述词属于焦点类型关键词词典中焦点类型的概率值。
3.根据权利要求1所述的一种法律案件争议焦点获取方法,其特征在于,采用规则匹配方法寻找出历史争议焦点数据的焦点类型的距离值包括对提取出的争议焦点去除冗余词与共有词;并进行同义词转换;根据争议焦点的类型列表,统计出已处理的争议焦点中各类型的争议焦点,生成焦点关键词;将焦点关键词中的各争议焦点转换为争议词向量,以争议焦点词向量的均值作为争议焦点句向量,得到焦点类型句向量,获取法律样本中的焦点句,通过相似度计算得到焦点类型的距离值。
4.根据权利要求1所述的一种法律案件争议焦点获取方法,其特征在于,所述采用规则匹配方法得出争议焦点的类别并将其作为标签,制作法律案件争议焦点数据集还包括为历史争议焦点的法律文本设置出原被告优先级、时间优先级以及区域优先级,选择出综合优先级最高的争议焦点作为第一数据集,将相应时间段的争议焦点的概率值均值或者距离值均值分别作为第一数据集对应的初始回归值,通过最小化损失函数,确定出该时间段所对应的分配系数,在该分配系数下,通过改变初始回归值,从而确定出最小化损失函数所对应的回归值,将每时间段的分配系数与相应时间段的最小化损失函数下的回归值之间的乘积作为该历史争议焦点的焦点类型,并确定出该焦点类型的第一标签。
5.根据权利要求4所述的一种法律案件争议焦点获取方法,其特征在于,所述焦点类型的争议焦点结果表示为{r1,r2,......rn},其中n为整理所得所有的争议焦点个数,将其作为标签{label1,label2,......,labeln},并将原被告陈述内容进行整理和提取,得到原告陈述内容yi,1≤i≤m,其中m为法律文本总篇数;被告陈述内容bi,1≤i≤m;每个案件的原被告内容相对应,且都对应n个标签;得到法律案件争议焦点数据集。
6.根据权利要求1所述的一种法律案件争议焦点获取方法,其特征在于,所述步骤s3包括将原告陈述和被告陈述分别输入bert模型,将原告陈述内容yi,1≤i≤m输入第一bert模型后得到其句嵌入ui,1≤i≤m,将被告内容bi,1≤i≤m输入与原告陈述内容共享参数的第二bert模型后得到其句嵌入vi,1≤i≤m;将这两个句嵌入进行交互得到最终的句嵌入结果si,si=ui vi,1≤i≤m;将句嵌入结果si,si=ui vi,1≤i≤m放入softmax中,得到争议焦点分类结果,损失函数为交叉熵函数,最终得到每个标签训练后的模型结果{model1,model2,......,modeln};其中, 表示为句向量相加。
7.一种法律案件争议焦点获取装置,其特征在于,所述装置包括:
采集模块,用于采集具有争议焦点的法律文本;
规则类别模块,用于获取争议焦点的类型,并对该类型打上标签;
孪生bert模型模块,对采集模块采集的具有争议焦点的法律文本和规则类型模块输入的争议焦点进行训练;
焦点输出模块,用于输出未知争议焦点的法律文本的焦点类型结果。
8.根据权利要求7所述的一种法律案件争议焦点获取装置,其特征在于,所述装置还包括推荐模块,用于对焦点输出模块输出的焦点类型结果进行推荐。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~6中任一项所述方法的步骤。
技术总结