本发明涉及电力科研知识抽取,具体涉及基于神经网络模型的电力科研知识抽取方法及系统。
背景技术:
1、电力行业作为现代社会的基础设施之一,在全球范围内起着至关重要的作用。在电力科学研究中,丰富的文献资料为我们提供了有价值的信息。对其进行有效的挖掘与整理,有助于支撑电力领域的科研活动,促进既有问题的解决与创新,为政策的制定提供科学依据。
2、目前的电力科研知识抽取主要存在以下难点:
3、1)缺乏公开可用的、经过标注的中文电力文本数据集,这限制了研究者进行系统性的实验和评估;
4、2)很难快速获得电力科研知识的关键词词库;
5、3)通用领域的命名实体识别方法针对通用数据集有理想的识别效果,但当把通用领域技术直接迁移到电力领域的效果并不理想;
6、4)网络上的电力科研知识很多,但是没有办法快速获得其中的关键词信息,来定位知识的细分领域。
7、申请号为2023111466413的发明专利公开了一种电力行业实体关系抽取方法、装置、设备及介质。其采用的方法为:获取电力行业文本数据集并进行预处理,基于电力行业实体查询模板,利用生成式预训练语言模型提取电力行业实体,构建标注实体数据集;利用elmo模型和transformer-crf模型对电力行业文本数据集进行上下文特征提取和序列标注,建模得到全局依赖关系;基于全局依赖关系,对待标注文本数据进行上下文特征提取和序列标注,获得实体标签序列,将其中连续且相同的实体标签合并,确定若干实体;基于实体关系查询模板,利用生成式预训练语言模型提取关系信息,并按照预设匹配规则对若干实体构造关系实例。基于上述现有技术,本领域技术人员均知晓elmo模型采取双向拼接这种融合特征的能力并不强,且transformer-crf模型在实践中被发现在推理时碰到的序列长度比训练时更长以及在复制字符上也存在处理问题。因此,这两个模型结合并不一定能得到该现有技术声称的实体关系抽取方法可以达到较高的准确性和覆盖度。
技术实现思路
1、发明目的:为了克服现有技术的不足,本发明提供一种基于神经网络模型的电力行业科研知识抽取方法,解决了电力领域实体关系的抽取准确率不高以及速度较慢的问题,本发明还提供基于神经网络模型的电力行业科研知识抽取系统。
2、技术方案:根据本发明的第一方面,提供基于神经网络模型的电力行业科研知识抽取方法,该方法包括:
3、s1收集电力科研文献信息,并对收集到的文献信息进行预处理;
4、s2构建电力科研领域关键词词典,通过机器标注的方式得到命名实体识别标注的语料库,从而得到训练集;
5、s3采用改进的bilstm-cnn-crf网络对所述训练集进行训练,完成电力科研知识的关键词抽取,所述改进的bilstm-cnn-crf网络包括输入特征层、特征提取层和预测输出层,所述特征提取层包含记忆网络层、多窗口门控网络层,输入的字符嵌入向量依次经过记忆网络层、多窗口门控网络层,该过程可以更好地捕捉输入序列中的关联信息;模型训练以后采用测试集对该模型测试,得到对应的测试结果;
6、s4最后将预测输出层得到的电力科研知识关键词与电力科研文献信息一起存入到图数据库neo4j中。
7、进一步的,包括:
8、所述步骤s3中,输入特征层包括嵌入层,所述训练集经过所述嵌入层后转换为字符嵌入向量,具体包括:
9、s21采集训练集中的每个词,并为词中的每个字符分配一个唯一的编号;
10、s22将每个字符转换为对应的编号,并将其作为输入传递给所述嵌入层;
11、s23所述嵌入层将对应的编号转换为高维的向量表示,其中,每个字符对应一个字符嵌入向量。
12、进一步的,包括:
13、所述步骤s3中,记忆网络层包括输入门,遗忘门和输出门,若当前时间步为t,将当前时间步的字符嵌入向量xt、前一个时刻的隐藏状态ht-1(forward)和记忆细胞状态ct-1(forward)作为输入,隐藏状态ht(forward)的计算公式如下:
14、
15、
16、
17、
18、
19、
20、其中,均为权重参数,σ表示sigmoid函数,⊙表示元素级别的乘法。
21、与上述前向计算过程类似,进行反向过程计算以得到其隐藏状态ht(backward),再将基于字符嵌入向量xt得到的隐藏状态ht(forward)和ht(backward)拼接,生成记忆网络层的输出ht=[ht(forward),ht(backward)]即通过记忆网络层后得到的向量xt表示为:
22、[h1forward,h2forward,...,hnforward,h1backward,h2backward,...,hnbackward];
23、因此,每个输入的字符嵌入向量xt经过记忆网络层后的维度为2*hidden_num,hidden_num为前向隐藏层的层数。
24、所述步骤s3中,多窗口门控网络层用于捕捉输入序列中的局部模式和特征,对应的操作步骤包括:
25、s31通过记忆网络层后得到的向量x=[x1,x2,…,xn]=[h1,h2,...,hn]输入到多窗口门控网络层中,经过不同大小的卷积核来提取不同粒度的局部特征信息,其中,n为关键词词典的长度也就是句子中字符的个数;
26、s32通过tanh-relu门控单元来调控特征信息传递的强度,缓解梯度弥散问题,并增强局部特征的语义信息;
27、s33使用平均池化对局部特征进行整合,形成最终的多粒度局部特征信息,进而得到多窗口门控网络层的输出。
28、进一步的,包括:
29、所述步骤s31具体包括:
30、在此本发明的实施例中,直接采用hq表示
31、[h1forward,h2forward,...,hnforward,h1backward,h2backward,...,hnbackward]中的某个元素,其中,q∈[1,2n],将通过记忆网络层后得到的向量ht输入至一个多窗口卷积层中,ck表示使用窗口大小,表示使用窗口大小为k的卷积核得到的特征:
32、
33、此处的表示使用窗口大小为k的卷积核得到的特征,其根据得到前向隐藏状态和后向隐藏状态得到不同的值。
34、所述步骤s32和步骤s33具体包括:作为输入传输至tanh-relu门控单元中,其具体公式:
35、
36、
37、
38、
39、其中,wz,k,uz,k,wh,k,uh,k,wr,k,ur,k和bz,k,bh,k,br,k为权重参数和偏置向量;σ表示sigmoid函数,⊙表示元素级别的乘法。
40、最后,将不同门控窗口的输出拼接在一起得到多窗口门控网络层的输出,本发明的实施例中门控窗口的大小卷积核k分别为[3,5],则输出
41、所述步骤s3和步骤s4中的预测输出层包括一个全连接层和一个crf特征提取层,全连接层用于将每个字符的向量维度由转变为最后输出的维度,进而得到训练集中所有字符的输出维度,如果当前字符的标签共有num_class种,则经过全连接后当前字符的向量维度为num_class;
42、经过全连接层后的向量会经过crf层,crf特征提取层用于计算标签之间的依赖关系,确保生成的标签序列是合理的。在使用crf的情况下,模型输出的标签序列是在整个序列上最有可能的标签序列,而不仅仅是在单个时间步上最有可能的标签,这有助于解决序列标注中的局部一致性问题,确保输出的标签序列在整个序列上是一致的。
43、在crf层中,每个标签被看作是模型的一个状态,而输入序列中的每个时间步则被看作是模型的观察值。crf层通过学习转移概率和发射概率来建模标签序列的整体结构。
44、具体的,包括以下步骤:
45、(1)根据带有关键词的文本序列计算文本序列中标注标签之间的转移概率;
46、在本发明的电力文本的训练集中将电力文本进行bieo标注,b表示电力关键词的开头,i表示电力关键词的中间,e表示电力关键词的结尾,o为其余字符,如“电力系统是由发电厂内的发电机、电力网内的变压器和输电线路以及用户的各种用电设备,按照一定的规律连接而组成的统一整体”标注为“电-b,力-i,系-i,统-e,是-o,由-o,发-b,电-i,厂-e,内-o,的-o,发-b,电-i,机-i,电-i,力-i,网-e,内-o,的-o,变-b,压-i,器-e,和-o,输-b,电-i,线-i,路-e,以-o,及-o,用-o,户-o,的-o,各-o,种-o,用-b,电-i,设-i,备-e”以及按照一定的规律连接而组成的统一整体均标注为o,此处不再一一标注。
47、对于一个带有关键词标签的文本序列,文本序列中每个字符对应的标注标签到每个字符对应的标注标签的转移次数仅发生在相邻的两个字符之间,并且转移次数仅计算相邻的两个字符中从第一个字符到第二个字符的转移次数,进而根据标注后的文本序列计算对应的转移矩阵,然后用拉普拉斯平滑常数对所述转移矩阵去平滑观测值,得到更新后的转移矩阵。
48、本发明采用的去平滑观测原理为:0位是文本序列中的第一关键词的起始字与其他关键词的延续字和结尾字相邻,
49、或者非关键词的字符与第一关键词的延续字符或者结尾字符相邻,并且非关键词的字符不在第一关键词的延续字前面;
50、或者非关键词的字与其他关键词标签的延续字相邻,并且非关键词的字不在其他关键词标签的延续字前面。不符合0位得其他位置均为1,得到中间矩阵,将之前的转移矩阵与中间矩阵相加即得到更新后的转移矩阵;
51、将更新后的转移矩阵归一化后,进而计算转移概率,也即得到从一个标签转移到另一个标签的概率a。例如,从“b”(电力关键词的起始字符)到“i”(电力关键词的延续字符)的概率;
52、(2)计算在给定标签的情况下,观察到某个特定的输入的概率,即发射概率b。例如,
53、如将在标签为“b”、“i”、“e”和“o”的情况下,观察到关键词中字符“电”的概率,对应的发射概率为[0.9,0.85,0.5,0.1],表示字符电对应的标注标签是b的概率为0.9,是i的概率为0.85,是e的概率为0.5,是o的概率为0.1。
54、(3)对于给定的输入带有关键词的文本序列x和相应的标签序列y,模型的目标是最大化条件概率p(y|x),通过该概率确定标签与序列之间的合理性;
55、
56、
57、其中,score(x,y)是模型给定输入序列x和标签序列y的得分,在本发明中考虑给定输入文本序列中同一个字符下当前标签与下一个标签对应的转移概率,以及该字符下当前标签的发射概率,n为当前输入文本序列的长度,y’表示可能的标签序列,即所有的预测结果。
58、另一方面,本发明提供一种电力行业科研知识抽取系统,该系统包括:
59、信息采集模块,用于收集电力科研文献信息,并对收集到的文献信息进行预处理;
60、语料标注模块,用于构建电力科研领域关键词词典,通过机器标注的方式得到命名实体识别标注的语料库,从而得到训练集;
61、神经网络模型构建模块,用于采用改进的bilstm-cnn-crf网络对所述训练集进行训练,完成电力科研知识的关键词抽取,所述改进的bilstm-cnn-crf网络包括输入特征层、特征提取层和预测输出层,所述特征提取层包含记忆网络层、多窗口门控网络层;输入的字符嵌入向量依次经过记忆网络层与多窗口门控网络层,该过程可以更好地捕捉输入序列中的关联信息;
62、存储模块,用于将所述预测输出层得到的电力科研知识关键词与电力科研文献信息一起存入到图数据库neo4j中。
63、进一步的,包括:
64、所述神经网络模型构建模块中,输入特征层包括嵌入层,所述处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,具体包括:
65、编号单元,用于训练集中的每个词,并为每个字符分配一个唯一的编号;
66、对应单元,用于将每个字符转换为对应的编号,并将其作为输入传递给所述嵌入层;
67、转换单元,用于将所述嵌入层将对应的编号转换为高维的向量表示,其中,每个字符对应一个嵌入向量。
68、进一步的,包括:
69、所述神经网络模型构建模块中,多窗口门控网络层用于捕捉输入序列中的局部模式和特征,包括:
70、局部特征信息提取单元,用于将输入层得到的字符嵌入向量x=[x1,x2,…,xn]输入到多窗口门控网络层中,经过不同大小的卷积核来提取不同粒度的局部特征信息,其中,n为电力科研文献信息中词的总数;
71、增强单元,用于通过tanh-relu门控单元来调控特征信息传递的强度,缓解梯度弥散问题,并增强局部特征的语义信息;
72、整合单元,用于使用平均池化对局部特征进行整合,形成最终的多粒度局部特征信息,进而得到多窗口门控网络层的输出。
73、最后,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现上述所述的电力行业科研知识抽取方法。
74、有益效果:与现有技术相比,本发明具有以下优点:
75、(1)本发明将预处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,采用的字符嵌入向量计算方法为将电力行业中的每个字符向量化,比直接使用相关模型进行特征提取进而得到相关的字符嵌入向量更加齐整,也即减少了很多冗余无效数据信息,从而提高抽取的准确率也相应的提高了抽取速度;
76、(2)本发明对bilstm-cnn-crf网络模型进行改进,不仅体现在输入特征层,且在最后的crf特征提取采用维特比算法完成关键词抽取,具体的:由词嵌入结合字符表示作为模型的输入层,经过双向lstm编码后,得到每个词所有标签的概率值,crf层利用lstm的输出以及转移概率矩阵作为输入,采用维特比算法获得全局最优的输出序列即解决最终标签预测,而非使用常规的动态优化算法,规避了常规的动态优化算法中处理无效数据以及准确率不高的问题,从而较于传统方法不仅在速度上有明显的优势,而且准确率也有所提升。
1.一种电力行业科研知识抽取方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的电力行业科研知识抽取方法,其特征在于,所述步骤s3中,输入特征层包括嵌入层,所述处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,具体包括:
3.根据权利要求2所述的电力行业科研知识抽取方法,其特征在于,所述步骤s3中,记忆网络层包括输入门,遗忘门和输出门,若当前时间步为t,将当前时间步的字符嵌入向量xt、前一个时刻的隐藏状态ht-1(forward)和记忆细胞状态ct-1(forward)作为输入,隐藏状态ht(forward)的计算公式如下:
4.根据权利要求3所述的电力行业科研知识抽取方法,其特征在于,所述步骤s3中,多窗口门控网络层用于捕捉输入序列中的局部模式和特征,对应的操作步骤包括:
5.根据权利要求4所述的电力行业科研知识抽取方法,其特征在于,所述步骤s31具体包括:
6.根据权利要求1所述的电力行业科研知识抽取方法,其特征在于,所述步骤s3和步骤s4中的预测输出层包括一个全连接层和一个crf特征提取层,全连接层用于将每个字符的向量维度由不同门控窗口的输出拼接向量转变为最后输出的维度,若字符的标签共有num_class种,则经过全连接后字符的向量维度为num_class;
7.一种电力行业科研知识抽取系统,其特征在于,该系统包括:
8.根据权利要求7所述的电力行业科研知识抽取系统,其特征在于,所述神经网络模型构建模块中,输入特征层包括嵌入层,所述处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,具体包括:
9.根据权利要求8所述的电力行业科研知识抽取系统,其特征在于,所述神经网络模型构建模块中,多窗口门控网络层用于捕捉输入序列中的局部模式和特征,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6任一项所述的电力行业科研知识抽取方法。
