本发明属于自然语言处理的文本分类领域,具体涉及一种基于舆情大数据分析的多标签文本分类方法。
背景技术:
随着互联网的快速发展,高校这一事业单位越来越受社会及媒体关注,越来越多的微博知乎等网站的热点新闻及评论的文本信息量呈现出盘根错节的增长趋势。为了使高校工作者熟知群众在网络上关注的热点事件所映射的高校工作问题,提高对舆情进行把控,促进高校发展,构建和谐校园,对这些高校热点新闻评论信息的多标签文本分类就十分具有现实意义。
对于多标签文本分类来说,传统的方法主要分为3类,第一类是问题转化方法,该类方法一般将多标签文本任务分解成多个独立的二分类问题,通过对每一个标签进行二分类求解及合并来解决文本的多标签分类问题,但是这种方法需要对每个标签都构建不同的二分类器,导致大量时间空间的浪费,也没有考虑标签关系;第二类是算法适应法,这类方法通过对每个多标签分类任务构建单独的适应算法,直接求解出文本的多标签分类,这种方法虽然考虑了标签关系,但模型简单,不足以考虑多层次的标签相关性;第三类则是基于深度学习的方法,在这类方法中,通常通过对文本的特征的提取,或者对多标签关联性的学习分别建立不同的深度学习模型,从而进行文本的多标签分类。
深度学习方法有很多种,例如基于注意力机制学习标签的相关性、基于lstm神经网络提取文本之间的序列特征等,但这些方法通常只考虑了文本或者标签某一方面对多标签文本分类正确性的影响,并且针对高校热点新闻评论信息这种复杂的非欧式结构的数据,传统序列神经网络往往难以处理。
技术实现要素:
为解决以上现有技术存在的问题,本发明提出了一种基于舆情大数据分析的多标签文本分类方法,该方法包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类结果;所述多标签文本分类模型包括图卷积神经网络gcn和注意力残差网络;
对多标签文本分类模型进行训练的过程包括:
s1:获取文本数据和标签数据;将每个文本数据转换为词级拓扑图,将所有的拓扑图进行集合和划分,得到训练集和测试集;将标签数据转换为标签拓扑图;
s2:将训练集中的词级拓扑图输入到图卷积神经网络gcn中提取文本数据的词级特征向量;
s3:根据图卷积神经网络gcn的注意力系数和文本数据构建句级拓扑图,将句级拓扑图输入到图卷积神经网络gcn中提取文本数据的句级特征向量;
s4:将各个标签拓扑图输入到图卷积神经网络gcn中,提取各个标签拓扑图的标签特征向量;
s5:采用基于注意力的残差网络对词级特征向量和句级特征向量进行特征融合,得到级联特征向量;
s6:将标签特征向量与级联特征向量进行点乘,预测文本的分类标签;
s7:根据文本的分类标签计算多标签文本分类模型的损失函数;
s8:将测试集中的拓扑图再次输入到多标签文本分类模型中,优化损失函数,当损失函数最小时,完成模型的训练。
优选的,构建的高校文本拓扑图中,采用高校文本数据的语料词汇作为拓扑图的节点,采用互信息pmi构建拓扑图的边;构建的标签拓扑图中,采用高校文本数据标签的语料词汇作为标签拓扑图的节点,采用余弦相似度和欧氏距离构建标签拓扑图的边。
优选的,提取文本数据的词级特征向量的过程为:
步骤1:采用预训练的bert模型对文本数据进行词向量编码处理,得到每个词在向量空间中对应的特征向量表示h;
步骤2:根据词级拓扑图的节点和边构建邻接矩阵;
步骤3:据特征向量表示h构建初始特征矩阵;
步骤4:将邻接矩阵和初始特征矩阵输入到图卷积神经网络gcn模型中,提取出文本数据的词级特征向量h。
进一步的,提取出词级特征向量h的表达式为:
h={h1,h2,…,hv}
优选的,提取文本数据的句级特征向量的过程包括:
步骤1:获取训练词级网络最后一层的注意力系数ai,j;
步骤2:根据注意力系数将各高校文本语料转换为句级向量编码表示h~;
步骤3:根据文本数据构建句级拓扑图,句级拓扑图的节点由文本各句子组成;
步骤4:根据句级拓扑图的节点和边构建邻接矩阵;
步骤5:根据句级向量编码表示h~构建初始句级特征矩阵;
步骤6:将邻接矩阵和初始句级特征矩阵特征矩阵输入到图卷积神经网络gcn模型中,提取出句级特征向量h*。
进一步的,注意力系数的计算公式为:
aij=relu(hiwl,hjwl)
进一步的,高校文本语料的向量编码表示的公式为:
优选的,得到级联特征向量的过程包括:
步骤1:采用全连接神经网络对句级特征向量进行处理,得到与词级特征向量相同维度的句级特征向量。
步骤2:将句级特征向量与词级特征向量特征融合得到级联文本特征向量。
进一步的,级联文本特征向量的计算公式为:
优选的,多标签文本分类模型的损失函数为:
本发明采用gcn图卷积网络解决了从高校新闻评论数据错综复杂的信息结构中提取信息的困难,通过词章分级层次的对高校文本语料提取特征,充分挖掘文本词与词,句与句之间的文字内涵,同时为模型训练加入更加丰富的语料信息,对特征引入基于注意力的类残差融合,进一步分解文本对标签预测的影响。而对于多标签y,采用gcn图卷积网络,处理不规则的以图的形式存在的多标签数据,学习标签之间的关联信息,大大提高了诸如高校新闻评论信息数据多标签问题的准确性。
附图说明
图1为本发明的整体流程图;
图2为本发明的对文本或标签的特征提取及注意力系数计算的流程图;
图3为本发明的基于注意力的残差计算特征级联结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于舆情大数据分析的多标签文本分类方法,如图1所示,该方法包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类标签;根据文本分类标签对文本数据进行分类;所述多标签文本分类模型包括图卷积神经网络gcn和注意力残差网络。
对多标签文本分类模型进行训练的过程包括:
s1:获取文本数据和标签数据;将每个文本数据转换为词级拓扑图,将所有的拓扑图进行集合和划分,得到训练集和测试集;将标签数据转换为标签拓扑图;
s2:将训练集中的词级拓扑图输入到图卷积神经网络gcn中提取文本数据的词级特征向量;
s3:根据图卷积神经网络gcn的注意力系数和文本数据构建句级拓扑图,将句级拓扑图输入到图卷积神经网络gcn中提取文本数据的句级特征向量;
s4:将各个标签拓扑图输入到图卷积神经网络gcn中,提取各个标签拓扑图的标签特征向量;
s5:采用基于注意力的残差网络对词级特征向量和句级特征向量进行特征融合,得到级联特征向量;
s6:将标签特征向量与级联特征向量进行点乘,预测文本的分类标签;
s7:根据文本的分类标签计算多标签文本分类模型的损失函数;
s8:将测试集中的拓扑图再次输入到多标签文本分类模型中,优化损失函数,当损失函数最小时,完成模型的训练。
如图2所示,将高校文本语料分别构建拓扑图,图的节点由各文本语料词汇组成,即图中节点数|v|=|n|,其中n表示当前文本词汇总量,拓扑图的边采用互信息表示pmi。当pmi(i,j)为正数时,表示词i,j有较强的语义关联性,当pmi(i,j)为负数时,表示词i,j语义关联性较低。
提取文本数据的词级特征向量的过程为:
步骤1:采用预训练的bert模型对文本数据进行词向量编码处理,得到每个词在向量空间中对应的特征向量表示h。
通过预训练的bert模型对文本及标签信息进行词向量编码,使得原始文本中的每个词及标签词在向量空间中有对应的特征表示。编码后的各条高校新闻评论信息样本的向量表示:xr={x1,x2,...,xn},其中n为各文本词数,r为文本语料序号。将所有出现的标签拼接在一起,标签向量表示为:y={y1,y2,...,yt},其中t为标签个数。
步骤2:根据词级拓扑图的节点和边构建邻接矩阵。
对于邻接矩阵a,则根据词汇节点之间的边计算,即邻接矩阵a的计算方式为:
对于词汇节点之间的权重,采用互信息表示pmi,其计算公式为:
其中#w(i)表示在固定滑动窗口下词汇i出现的数量,#w(i,j)表示在固定滑动窗口下词汇i,j同时出现的数量,#w表示所有固定滑动窗口下的词汇i或j的总数。
步骤3:据特征向量h构建得到初始特征矩阵h={h1,h2,...,hv};其中,v为词数,hy表示词的特征。
步骤4:将邻接矩阵和初始特征矩阵输入到图卷积神经网络gcn模型中,提取出词级特征向量h。
得到词级特征向量的具体计算公式我为:
hl=relu(relu(hil-1wl-1,hjwl-1)hl-1wl-1)
其中,l为当前层,
设置图卷积神经输入为n*k,其中k为编码维度,n为文本的词数,对词数小于n的文本进行padding填充,对词语大于n的文本进行截断处理。对将每张图分别输入gcn模型得到各个高校新闻评论文本的词级特征向量,且对每一层输出使用relu(⊙)激活函数,则图卷积神经网络的节点更新机制为:
hl=relu(ahl-1wl-1)
其中a为邻接矩阵,wl-1为l-1层的权重,hl-1为第l-1层的输出结果,h1=x。
提取文本数据的句级特征向量的过程包括:
步骤1:获取训练词级网络的注意力系数ai,j。
在最后一层以relu(⊙)激活函数的注意力机制计算当前层每个节点的注意力系数。注意力系数的计算方式为:
aij=relu(hiwl,hjwl)
其中,hi表示当前卷积层的第i个节点特征向量,hj表示当前卷积层的第j个节点特征向量,wl表示当前层权重系数,relu(.)表示线性整流函数,又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。
步骤2:根据注意力系数将各高校文本语料转换为句级向量编码表示h~;
采用词级网络得到的权重计算各高校文本语料的向量表示,其计算方式为:
其中,ai,j为上述词级网络训练得到的节点i与j的注意力系数,hi为当前词节点,m为与i相邻的节点数,n为句子词数,
步骤3:根据文本数据构建句级拓扑图,句级拓扑图的节点由文本各句子组成。
步骤4:根据句级拓扑图的节点和边构建邻接矩阵;
对文本所有句子构建拓扑图计算句级特征包括如下:
对于词汇节点之间的权重,采用互信息表示pmi,其计算公式为:
其中#w(i)表示在固定滑动窗口下句子i出现的数量,#w(i,j)表示在固定滑动窗口下句子i,j同时出现的数量,当pmi(i,j)为正数时,表示句子i,j有较强的语义关联性,当pmi(i,j)为负数时,表示词i,j语义关联性较低。
步骤5:根据句级向量编码表示h~构建初始句级特征矩阵。
步骤6:将邻接矩阵和初始句级特征矩阵特征矩阵输入到图卷积神经网络gcn模型中,提取出句级特征向量h*。
设置图卷积神经输入为m*k,其中k为编码维度,m为文本的句子数,对句子数小于m的文本进行padding填充,对词语大于m的文本进行截断处理。将拓扑图输入gcn模型得到所有高校文本语料的句级特征向量。网络输出即为高校文本语料的句级特征向量,其表示为:h*,并在最后一层引入以relu(⊙)激活函数的注意力机制计算当前层每个节点的注意力系数。
如图3所示,采用注意力残差计算对词级特征向量和句级特征向量进行残差融合,得到级联特征向量的过程包括:
步骤1:采用全连接神经网络对句级特征向量进行处理,得到与词级特征向量相同维度的句级特征向量。
步骤2:将句级特征向量与词级特征向量特征融合得到级联文本特征向量z。
构建一个全连接神经网络,网络输入为m*k维,输出为n*k维。全连接采用relu激活函数。
其次将句级特征向量h*输入全连接神经网络中学习,得到于词级特征向量相同维度的新句级特征向量。
将句级特征向量与词级特征向量累加求平均,得到所有文本特征的一维表示,用与标签预测。
注意力类残差网络的计算方式如下:
其中arj为句级网络训练得到的节点r与j之间的注意力系数,m为所有与节点r邻接的节点,hi为节点为i的词级特征向量,
对标签构建拓扑图计算标签相关性特征包括如下
对标签向量y构建拓扑图,图的节点由各标签词汇组成,即图中节点数|v|=|l|,l为所有不互相重复的标签数量,拓扑图的边采用余弦相似度和欧拉距离。对于特征矩阵x,采用单位矩阵e表示,而对于邻接矩阵a,则根据词汇节点之间的边计算,即邻接矩阵a的计算方式为:
对于标签与标签之间的关联引入余弦相似度cos(i,j),其计算公式为:
步骤3:构建了拓扑图之后,将拓扑图输入gcn模型得到所有标签的特征向量f,其含义即多标签之间的相关性。
步骤4:将级联特征与标签特征点积得到预测标签,其计算方式如下:
其中,z表示级联特征向量,f表示标签的特征向量,⊙表示点乘运算。
多标签文本分类模型的损失函数为:
其中,yd表示高校新闻评论文本语料的合集,y为文本预料真实标签,
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.一种基于舆情大数据分析的多标签文本分类方法,其特征在于,包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类结果;所述多标签文本分类模型包括图卷积神经网络gcn和注意力残差网络;
对多标签文本分类模型进行训练的过程包括:
s1:获取文本数据和标签数据;将每个文本数据转换为词级拓扑图,将所有的拓扑图进行集合和划分,得到训练集和测试集;将标签数据转换为标签拓扑图;
s2:将训练集中的词级拓扑图输入到图卷积神经网络gcn中提取文本数据的词级特征向量;
s3:根据图卷积神经网络gcn的注意力系数和文本数据构建句级拓扑图,将句级拓扑图输入到图卷积神经网络gcn中提取文本数据的句级特征向量;
s4:将各个标签拓扑图输入到图卷积神经网络gcn中,提取各个标签拓扑图的标签特征向量;
s5:采用基于注意力的残差网络对词级特征向量和句级特征向量进行特征融合,得到级联特征向量;
s6:将标签特征向量与级联特征向量进行点乘,预测文本的分类标签;
s7:根据文本的分类标签计算多标签文本分类模型的损失函数;
s8:将测试集中的拓扑图再次输入到多标签文本分类模型中,优化损失函数,当损失函数最小时,完成模型的训练。
2.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,构建的高校文本拓扑图中,采用高校文本数据的语料词汇作为拓扑图的节点,采用互信息pmi构建拓扑图的边;构建的标签拓扑图中,采用高校文本数据标签的语料词汇作为标签拓扑图的节点,采用余弦相似度和欧氏距离构建标签拓扑图的边。
3.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,提取文本数据的词级特征向量的过程为:
步骤1:采用预训练的bert模型对文本数据进行词向量编码处理,得到每个词在向量空间中对应的特征向量表示h;
步骤2:根据词级拓扑图的节点和边构建邻接矩阵;
步骤3:根据特征向量表示h构建初始特征矩阵;
步骤4:将邻接矩阵和初始特征矩阵输入到图卷积神经网络gcn模型中,提取出文本数据的词级特征向量。
4.根据权利要求3所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,词级特征向量h的表达式为:
h={h1,h2,...,hv}
其中,v为词数,hv表示词的特征。
5.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,提取文本数据的句级特征向量的过程包括:
步骤1:获取训练词级网络的最后一层的注意力系数ai,j;
步骤2:根据注意力系数将各高校文本语料转换为句级向量编码表示h~;
步骤3:根据文本数据构建句级拓扑图,句级拓扑图的节点由文本各句子组成;
步骤4:根据句级拓扑图的节点和边构建邻接矩阵;
步骤5:根据句级向量编码表示h~构建初始句级特征矩阵;
步骤6:将邻接矩阵和初始句级特征矩阵特征矩阵输入到图卷积神经网络gcn模型中,提取出句级特征向量h*。
6.根据权利要求5所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,注意力系数ai,j的表达式为:
aij=relu(hiwl,hjwl)
其中,hi表示当前卷积层的第i个节点特征向量,hj表示当前卷积层的第j个节点特征向量,wl表示当前层权重系数,relu(.)表示线性整流函数。
7.根据权利要求5所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,高校文本语料的句级向量编码表示的公式为:
其中,aij为上述词级网络训练得到的节点i与j的注意力系数,hi为当前词节点,m为与i相邻的节点数,n为句子词数,
8.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,得到级联特征向量的过程包括:
步骤1:采用全连接神经网络对句级特征向量进行处理,得到与词级特征向量相同维度的句级特征向量。
步骤2:将句级特征向量与词级特征向量特征融合得到级联文本特征向量。
9.根据权利要求8所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,级联文本特征向量的计算公式为:
其中,arj为句级网络训练得到的节点r与j之间的注意力系数,m为所有与节点r邻接节点,hi为节点为i的词级特征向量,
10.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,多标签文本分类模型的损失函数为:
其中,yd表示高校新闻评论文本语料的合集,y为文本预料真实标签,