本技术涉及信息抽取领域,特别是涉及要素抽取模型的训练方法和要素抽取方法及相关装置。
背景技术:
1、传统预训练语言模型的训练数据多为通用领域文本,包含的行业垂直领域文本较少,模型无法充分捕捉到特定行业领域文本中的要素标签信息,导致信息抽取存在遗漏、错误、混淆等问题,使得要素抽取的准确率较低。
技术实现思路
1、本技术至少提供要素抽取模型的训练方法和要素抽取方法及相关装置,能够提升要素抽取模型对特定领域文本中要素抽取的准确率。
2、本技术第一方面提供了一种要素抽取模型的训练方法,包括:获取属于特定领域的原始文本;对原始文本中的至少一个目标实体进行相似词替换,得到掩码文本;利用经预训练的要素抽取模型对掩码文本进行被替换实体的预测,得到预测实体;基于预测实体和目标实体之间的差异,调整要素抽取模型的网络参数。
3、其中,在对原始文本中的至少一个目标实体进行相似词替换,得到掩码文本之前,还包括:从原始文本中查找出属于特定领域的实体;从查找出的实体中选择预设比例的实体,作为目标实体。
4、其中,对原始文本中的至少一个目标实体进行相似词替换,得到掩码文本,包括:对于各目标实体,查找目标实体的相似词;响应于能查找出目标实体的相似词,利用相似词替换原始文本中的目标实体;响应于无法查找出目标实体的相似词,采用随机词替换原始文本中的目标实体。
5、其中,掩码文本中被相似词替换的位置设置有标记;利用经预训练的要素抽取模型对掩码文本进行被替换实体的预测,得到预测实体,包括:利用要素抽取模型的编码器通过自注意机制捕获掩码文本中每个标记位置的上下文信息,以生成上下文嵌入序列;基于上下文嵌入序列,预测得到被相似词替换的位置中原本存在的实体,以作为预测实体。
6、其中,在基于预测实体和目标实体之间的差异,调整要素抽取模型的网络参数之后,还包括:获取微调训练集,所述微调训练集包括若干属于特定领域的第一已标注文本;利用已标注文本对要素抽取模型进行微调。
7、其中,获取微调训练集,包括:利用大模型对属于特定领域的第一未标注文本进行实体预标注,得到实体预标注结果;将实体预标注结果提供给校准人员进行人工校准,得到经校准的实体预标注结果;基于经校准的实体预标注结果对第一未标注文本进行标注,得到已标注文本。
8、其中,在利用大模型对属于特定领域的第一未标注文本进行实体预标注,得到实体预标注结果之前,还包括:对大模型的至少部分参数进行量化处理;和/或,利用大模型对属于特定领域的第一未标注文本进行实体预标注,得到实体预标注结果,包括:利用提示词为大模型设定实体抽取任务以及输出形式;利用大模型对第一未标注文本执行实体抽取任务,并以输出形式输出实体抽取结果,以作为实体预标注结果;和/或,在利用大模型对属于特定领域的第一未标注文本进行实体预标注,得到实体预标注结果之前,还包括:在数据标注系统页面显示第一未标注文本;响应于用户在数据标注系统页面触发的自动标注指令,执行利用大模型对属于特定领域的第一未标注文本进行实体预标注,得到实体预标注结果的步骤。
9、其中,利用已标注文本对要素抽取模型进行微调,包括:利用要素抽取模型对已标注文本进行编码处理,得到编码向量序列;利用全局指针网络层基于编码向量序列,得到已标注文本中的多个连续片段属于各实体类型的分数;基于已标注文本中的多个连续片段属于各实体类型的分数,调整要素抽取模型中的网络参数。
10、其中,多个连续片段包括已标注文本中第i个字与第j个字之间组成的片段,i和j均为1至n之间任意整数,n为已标注文本的总字数;和/或,基于编码向量序列,得到已标注文本中的多个连续片段属于各实体类型的分数,包括:对于各实体类型,分别利用实体类型的第一组变换参数和第二组变化参数对编码向量序列进行变换,得到实体类型对应的第一向量序列和第二向量序列,第一向量序列和第二向量序列均包含已标注文本中各字对应的向量;基于各连续片段对应的关联向量,分别确定各连续片段属于实体类型的分数,连续片段对应的关联向量包括连续片段的首字在第一向量序列中的向量和连续片段的尾字在第二向量序列中的向量。
11、其中,利用要素抽取模型对已标注文本进行编码处理,得到编码向量序列,包括:利用要素抽取模型对已标注文本进行编码,得到已标注文本对应的初始向量序列;利用要素抽取模型对初始向量序列进行运算,得到编码向量序列。
12、其中,基于已标注文本中的多个连续片段属于各实体类型的分数,调整要素抽取模型中的网络参数,包括:对于各连续片段,将符合实体要求的分数对应的实体类型,确定为连续片段所属的实体类型;对于各实体类型,将属于实体类型的连续片段作为第一连续片段,将不属于实体类型的连续片段作为第二连续片段,统计各第一连续片段属于实体类型的分数,得到第一统计值,以及统计各第二连续片段属于实体类型的分数,得到第二统计值,综合第一统计值和第二统计值,得到实体类型对应的损失;基于各实体类型对应的损失,调整要素抽取模型中的网络参数。
13、其中,在利用已标注文本对要素抽取模型进行微调之后,还包括:获取包含若干属于特定领域的第二已标注文本的验证集,其中,第二已标注文本是利用大模型对属于特定领域的第二未标注文本进行实体预标注并经人工校准得到的;利用验证集对经微调后的要素抽取模型进行评估,得到验证集中的第二已标注文本所包含的各实体标签的准确率,并输出验证集中的第二已标注文本所包含的各实体标签的准确率;和/或,生成标注建议,其中,标注建议包括对目标实体标签的补充标注建议、以及添加目标场景下的标注数据量的建议中的至少一者,目标实体标签为验证集中标注量不满足预设标注量要求的实体标签,目标场景为标注效果未达到要求的场景,场景的标注效果是基于场景下的第二已标注文本所包含的实体标签的准确率确定的。
14、本技术第二方面提供了一种要素抽取方法,包括:获取特定领域的待抽取文本;利用要素抽取模型对待抽取文本进行要素抽取,得到要素抽取结果,其中,要素抽取模型是利用第一方面任一项的方法训练得到。
15、本技术第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的要素抽取模型的训练方法,或实现上述第二方面中的要素抽取方法。
16、本技术第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的要素抽取模型的训练方法,或实现上述第二方面中的要素抽取方法。
17、上述方案,将属于特定领域的原始文本中至少一个目标实体进行相似词替换,得到掩码文本,并将掩码文本输入至经预训练的要素抽取模型中,利用要素抽取模型对掩码文本进行被替换的实体的预测,得到预测实体,根据预测实体和目标实体之间的差异,调整要素抽取模型的网络参数,使得要素抽取模型能够充分学习到特定领域的实体及概念知识,从而在应用中对特定领域的文本进行要素抽取时,要素抽取模型能够充分捕捉到特定领域的文本中的所有实体信息及关系短语,以提升要素抽取模型对特定领域文本中要素抽取的准确率。
18、另外,通过对要素抽取模型进行特定领域的知识增强,后续可以仅用较少量样本对该要素抽取模型进行微调,可以减少后续微调数据量。
19、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。
1.一种要素抽取模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述对所述原始文本中的至少一个目标实体进行相似词替换,得到掩码文本之前,还包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述原始文本中的至少一个目标实体进行相似词替换,得到掩码文本,包括:
4.根据权利要求1所述的方法,其特征在于,所述掩码文本中被相似词替换的位置设置有标记;所述利用经预训练的要素抽取模型对所述掩码文本进行被替换实体的预测,得到预测实体,包括:
5.根据权利要求1所述的方法,其特征在于,在所述基于所述预测实体和所述目标实体之间的差异,调整所述要素抽取模型的网络参数之后,还包括:
6.根据权利要求5所述的方法,其特征在于,所述获取微调训练集,包括:
7.根据权利要求6所述的方法,其特征在于,在所述利用大模型对属于所述特定领域的第一未标注文本进行实体预标注,得到实体预标注结果之前,还包括:
8.根据权利要求5所述的方法,其特征在于,所述利用所述已标注文本对所述要素抽取模型进行微调,包括:
9.根据权利要求8所述的方法,其特征在于,所述多个连续片段包括所述已标注文本中第i个字与第j个字之间组成的片段,所述i和j均为1至n之间任意整数,所述n为已标注文本的总字数;
10.根据权利要求8所述的方法,其特征在于,所述利用所述要素抽取模型对所述已标注文本进行编码处理,得到编码向量序列,包括:
11.根据权利要求8所述的方法,其特征在于,所述基于所述已标注文本中的多个连续片段属于各实体类型的分数,调整所述要素抽取模型中的网络参数,包括:
12.根据权利要求5所述的方法,其特征在于,在所述利用所述已标注文本对所述要素抽取模型进行微调之后,还包括:
13.一种要素抽取方法,其特征在于,包括:
14.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至12任一项所述的要素抽取模型的训练方法,或实现权利要求13所述的要素抽取方法。
15.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至12任一项所述的要素抽取模型的训练方法,或实现权利要求13所述的要素抽取方法。