基于多特征融合与渐进对比的中文实体关系抽取方法

    专利2025-06-15  36


    本发明涉及自然语言处理,具体的说,是一种基于多特征融合与渐进对比的中文实体关系抽取方法。


    背景技术:

    1、互联网是一个不断涌现海量数据的主要来源。这些数据往往呈现为非结构化格式,使得从中提取有用信息成为一个紧迫的课题。在这种背景下,信息抽取技术应运而生,它专注于从文本中自动辨识并提取关键信息,如实体和它们之间的关系,并将这些信息转换成结构化的格式。特别是在实体关系抽取领域,它的主要任务是从文本中识别出各种实体及其相互关系,并以三元组格式(头实体-关系-尾实体)展示。这种实体关系的提取不仅对构建知识图谱至关重要,而且在智能搜索、自动问答系统等多个领域中也显示出其研究和应用价值。基于限定式的实体关系抽取方法自其发展之初至今,大致可分为三大类:

    2、1)是基于规则的方法,这种方法依赖于专家系统和手工制定的规则来识别和提取文本中的实体关系。尽管这种方法在特定领域内精度较高,但它的缺点在于缺乏灵活性,难以适应数据多样性和规模的增长。

    3、2)基于传统机器学习的方法利用特征工程和分类算法来识别实体关系。这种方法相比规则方法更为灵活,能够自动学习特征,但仍受限于特征选择的质量和泛化能力。

    4、3)基于深度学习的方法,这种方法通过神经网络学习文本的复杂特征表示,显著提高了实体关系抽取的效果。在深度学习框架内,实体关系抽取又可分为管道抽取和联合抽取两种方式。管道抽取是一种分步骤的方法,先识别实体,然后识别关系,这种方法简单直观,但可能因为前一步的错误而影响后续步骤,因此存在缺少交互和误差累积的问题。联合抽取方法通常比管道方法效果更好,因为它解决了管道抽取缺少交互的问题并且减少了错误传递的可能性。

    5、中文的语法结构相较于英文来说更为复杂。而且由于中文需要分词,就可能出现分词错误,这种错误有时会影响到后续的信息处理和理解,导致误差的传递。因此,如何克服中文语言表达中的多样性和特殊性,使模型能够更好的理解中文文本语义,成为亟需破解的难题。


    技术实现思路

    1、本发明的目的在于提供一种基于多特征融合与渐进对比的中文实体关系抽取方法,用于解决现有技术中难以适应数据多样性、受到特征选择的限制以及存在误差积累的问题。

    2、本发明通过下述技术方案解决上述问题:

    3、一种基于多特征融合与渐进对比的中文实体关系抽取方法,包括:

    4、步骤s100、对目标文本进行序列化和编码处理,生成特征向量,特征向量包括文本语义特征向量、文本拼音特征向量和文本词性特征向量;

    5、步骤s200、利用融合注意力机制将文本语义特征向量分别与文本拼音特征向量、文本词性特征向量进行融合,得到融合文本拼音特征向量、融合文本词性特征向量;

    6、步骤s300、对融合文本拼音特征向量和融合文本词性特征向量采用渐进式对比学习;

    7、步骤s400、对文本语义特征向量利用文本语义信息执行头实体抽取,将得到的多重特征信息相加后执行尾实体和关系的抽取任务。

    8、进一步地,所述步骤s100具体包括:

    9、步骤s110、对目标文本中句子分别进行文本序列化、拼音序列化和词性序列化,得到文本序列xtext、拼音序列xpy和词性序列xcx;

    10、步骤s120、对文本序列xtext、拼音序列xpy和词性序列xcx分别编码,获取目标文本的文本语义特征向量hyy、文本拼音特征向量hpy和文本词性特征向量hcx。

    11、进一步地,所述文本序列化是将文字转化为字/字符为单位的数值形式,文本中的每个字/字符表示为chari,i表示第i个字/字符,i∈[1,n],n是目标文本中字/字符的总个数;针对每个chari进行文本序列化、拼音序列化和词性序列化,得到的结果分别为xi、pi和ci,得到:文本序列xtext=(x1,x2,...,xn)、拼音序列xpy=(p1,p2,...,pn)、词性序列xcx=(c1,c2,...,cn)。

    12、进一步地,所述步骤s120具体为:

    13、采用预训练语言模型bert对文本序列xtext中的每个xi进行编码,得到xi的编码结果

    14、采用词嵌入模型embedding对拼音序列xpy中的每个pi进行编码,得到pi的编码结果

    15、采用词嵌入模型embedding对词性序列xcx中的每个ci进行编码,得到步骤ci的编码结果

    16、得到文本语义特征向量文本拼音特征向量文本词性特征向量

    17、进一步地,所述步骤s200具体包括:将文本拼音特征向量hpy和文本语义特征向量hyy输入融合注意力机制得到融合文本拼音特征向量将文本词性特征向量hcx和文本语义特征向量hyy输入融合注意力机制得到融合文本词性特征向量

    18、进一步地,所述融合注意力机制为多头注意力机制att,融合注意力机制的输入为键向量k、查询向量q和值向量v,查询向量q表示想对其进行注意力计算的项,k用于与q进行比较以计算注意力分数,v利用注意力分数加权值向量得到最终的输出向量;

    19、通过三个线性层分别将输入的与k对应的文本语义特征向量hyy、与v对应的文本拼音特征向量hpy和与q对应的文本拼音特征向量hpy转换为所需的维度,通过点积注意力对q、k应用缩放点积注意力并加权到v,得到单头输出结果;将这些头的输出合并,并输入另一个线性层得到融合文本拼音特征向量

    20、

    21、采用同样的方式,得到融合文本词性特征向量

    22、

    23、进一步地,所述步骤s300具体包括:采用渐进式对比学习的方式计算融合文本拼音特征向量和融合文本词性特征向量的相似度fsim(·)为余弦相似度函数,渐进式对比学习的相似度损失losssim:

    24、进一步地,所述步骤s400具体包括:

    25、步骤s410、将文本语义特征向量hyy输入头实体抽取层,将文本语义特征向量hyy中的每个字/字符对应的编码向量经过一个线性层和sigmoid函数解码,得到每个字/字符对应的头实体起始位置预测向量和结束位置预测向量n是目标文本中字/字符的总个数;得到:头实体起始位置预测向量头实体结束位置预测向量起始位置接近1和结束位置接近1之间的文本能够定位头实体,实现头实体的抽取,其对应的向量作为头实体信息;随机从一个目标文本中的m个头实体选取其中的第k个头实体信息其中,k为整数且k∈[1,m];

    26、步骤s420、将头实体信息融合文本拼音特征向量中的每个字(符)对应的向量融合文本词性特征向量的每个字(符)对应的向量以及文本语义特征向量hyy中的每个字(符)对应的向量相加作为先验信息,输入尾实体和关系联合抽取层,经过线性层和sigmoid函数解码,得到每个字/字符在r个关系下尾实体起始位置预测向量和结束位置预测向量其中,r表示关系个数,得到:在r个关系下尾实体起始位置预测向量和尾实体结束位置预测向量起始位置接近1和结束位置接近1之间的文本便可以定位在r个关系下尾实体,从而实现尾实体和关系抽取。

    27、进一步地,将头实体起始位置预测向量和头实体起始位置目标向量输入二分类交叉熵函数bce得到头实体起始位置损失:将头实体结束位置预测向量和头实体结束位置目标向量输入二分类交叉熵函数bce得到头实体结束位置损失:

    28、将r个关系下尾实体起始位置预测向量和尾实体起始位置目标向量输入二分类交叉熵函数得到r个关系下尾实体起始位置损失:将r个关系下尾实体结束位置预测向量和尾实体结束位置目标向量输入二分类交叉熵函数便可以得到r个关系下尾实体结束位置损失:

    29、头实体抽取层损失以及尾实体和关系联合抽取层损失相加后再和渐进式对比学习的相似度损失加权求和得到模型损失l,利用此损失来反向调整更新模型的参数。

    30、本发明与现有技术相比,具有以下优点及有益效果:

    31、(1)本发明利用包括语义、拼音和词性在内的多维度角度对目标文本进行序列化和编码处理,从而生成包含多种信息维度的特征向量;运用融合注意力机制技术将文本语义特征向量和文本拼音特征向量与文本词性特征向量进行融合,提高模型对中文文本的语义理解能力;采用渐进式对比学习的方式让融合后的拼音特征向量和词性特征向量在特征空间中更为接近,从而使得模型在不同层次和阶段能够逐步提升其识别和抽取能力;利用文本语义信息执行头实体抽取,将多重特征信息相加后执行尾实体和关系的抽取任务,实现在丰富先验知识支持下的性能提升。

    32、(2)本发明首先通过三次编码获得文本的三个特征,进一步将特征进行融合获取更深层次的语义表达信息,将其作为先验信息输入尾实体和关系联合抽取层,以提高模型抽取的准确性,最后抽取句子中的实体和关系。融合深层次语义信息的模型f1值能够达到81.7%,相比于基线模型提高了1-37.7个百分点,具有较好的应用前景。


    技术特征:

    1.一种基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,包括:

    2.根据权利要求1所述的基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,所述步骤s100具体包括:

    3.根据权利要求2所述的基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,所述文本序列化是将文字转化为字/字符为单位的数值形式,文本中的每个字/字符表示为chari,i表示第i个字/字符,i∈[1,n],n是目标文本中字/字符的总个数;针对每个chari进行文本序列化、拼音序列化和词性序列化,得到的结果分别为xi、pi和ci,得到:文本序列xtext=(x1,x2,...,xn)、拼音序列xpy=(p1,p2,...,pn)、词性序列xcx=(c1,c2,...,cn)。

    4.根据权利要求3所述的基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,所述步骤s120具体为:

    5.根据权利要求2所述的基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,所述步骤s200具体包括:将文本拼音特征向量hpy和文本语义特征向量hyy输入融合注意力机制得到融合文本拼音特征向量将文本词性特征向量hcx和文本语义特征向量hyy输入融合注意力机制得到融合文本词性特征向量

    6.根据权利要求5所述的基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,所述融合注意力机制为多头注意力机制att,融合注意力机制的输入为键向量k、查询向量q和值向量v,查询向量q表示想对其进行注意力计算的项,k用于与q进行比较以计算注意力分数,v利用注意力分数加权值向量得到最终的输出向量;

    7.根据权利要求6所述的基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,所述步骤s300具体包括:采用渐进式对比学习的方式计算融合文本拼音特征向量和融合文本词性特征向量的相似度fsim(·)为余弦相似度函数,渐进式对比学习的相似度损失

    8.根据权利要求7所述的基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,所述步骤s400具体包括:

    9.根据权利要求8所述的基于多特征融合与渐进对比的中文实体关系抽取方法,其特征在于,将头实体起始位置预测向量和头实体起始位置目标向量输入二分类交叉熵函数bce得到头实体起始位置损失:将头实体结束位置预测向量和头实体结束位置目标向量输入二分类交叉熵函数bce得到头实体结束位置损失:


    技术总结
    本发明公开了基于多特征融合与渐进对比的中文实体关系抽取方法,对目标文本进行序列化和编码处理,生成文本语义特征向量、文本拼音特征向量和文本词性特征向量;利用融合注意力机制将文本语义特征向量分别与文本拼音特征向量、文本词性特征向量进行融合,得到融合文本拼音特征向量、融合文本词性特征向量;对融合文本拼音特征向量和融合文本词性特征向量采用渐进式对比学习;利用文本语义信息执行头实体抽取任务,得到的头实体信息;再将其与其他特征向量相加后执行尾实体和关系的抽取任务。本发明提取多种信息维度的特征向量;进行多元特征融合,提高模型对中文文本的语义理解能力;提供模型在不同层次和阶段能够逐步提升其识别和抽取能力。

    技术研发人员:李川,李思佳
    受保护的技术使用者:四川大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-88246.html

    最新回复(0)