本发明涉及新闻文本分类技术领域,尤其涉及一种基于图网络池化的新闻文本分类方法。
背景技术:
随着大数据时代的快速发展,互联网上的文本数据呈现出爆炸式的增长,而在海量数据中挖掘出有效的信息具有非常重要的意义。由于新闻文本没有固定的格式,且种类多样,更新速度快,传统的人工分类效率低下且主观色彩较重。将图神经网络引入到新闻本文分类中,新闻文本视为一个图,图中的节点由词组成。新闻文本分类主要关注文本的总体特征,即研究对象是整个图本身。图神经网络一般由卷积层和池化层构成,其中关于图卷积的研究非常丰富,其主要目的是提取图的特征,但仅通过图卷积层的堆叠,模型很难学习对图表示和分类至关重要的信息。通过池化一方面可以减少学习的参数,另外一方面能反映图的不同尺度结构。
现有的图池化方法包括topk、diffpool、sagpool、asap。其中topk通过自适应地选择节点的子集来完成池化,其使用一个可学习的向量将所有节点特征投影到1维,然后选择前k个最大标量投影值的节点。但由于其没有考虑到图的结构,只从特征这一方面评价节点的重要性,过于简单。diifpool分别使用两个图神经网络对节点进行聚类和池化,但由于其软分配矩阵是稠密的,因此其不适用于大型图。sagpool基于注意力机制通过结构和属性信息为每个节点学到一个标量,以此标量表征对应节点在整个图上的重要性,并对此标量进行排序并进行池化。但其既不聚合节点信息也不计算软边权重,因此无法有效地保留节点和边信息。asap对此进行了改进,但其在聚合节点信息时容易造成节点特征过于平滑,信息丢失较多,因此使得新闻文本分类效果不佳。目前,还没有池化方法在保留图中节点信息和边信息的同时,还避免节点特征过平滑的问题。
技术实现要素:
本发明的目的是针对现有技术的缺陷,提供了一种基于图网络池化的新闻文本分类方法。
为了实现以上目的,本发明采用以下技术方案:
一种基于图网络池化的新闻文本分类方法,包括步骤:
s1.在注意力机制中将结构信息与特征信息相结合,并计算图神经网络中一阶邻域内节点之间的相似性得分,得到具有相似性节点的注意力机制;
s2.采用稀疏概率激活函数sparsemax算法将得到的注意力机制进行稀疏化,得到节点相对应的集群;
s3.采用局部聚合卷积计算每个集群的分数,并通过得分高低来判断集群所含有的信息量;
s4.采用topk选出得分最高的前
进一步的,所述步骤s1中得到具有相似性节点的注意力机制,表示为:
ei,j=σ(we[xi||xj]t) λ·ai,j
其中,σ表示激活函数;
进一步的,所述步骤s2中采用稀疏概率激活函数sparsemax算法将得到的注意力机制进行稀疏化后还包括得到稀疏的概率分布,表示为:
其中,si为ei进行归一化后的向量,ei表示节点i的注意力值,ei=[ei,1,ei,2,...ei,n];
进一步的,所述得到稀疏的概率分布中还包括:
定义拉格朗日函数:
最优解集
若j∈{1,...,n},有si,j*>0,则μi,j*=0,有
令c(ei)={z∈{1,...,n}|si,z*>0},有
稀疏的概率分布的对偶形式表示为:
si,j=sparsemax(ei,j)=[ei,j-τ(ei)]
其中,[x] =max{0,x};τ(·)表示阈值函数。
进一步的,所述步骤s3中采用局部聚合卷积计算每个集群的分数中局部聚合卷积表示为:
其中,激活函数σ采用sigmoid;
进一步的,其特征在于,所述步骤s4具体为:
将适应度向量φ=[φ1,φ2,...,φn]t与集群表示矩阵sx相乘,以使适应度函数fφ可学习:
其中
函数topk(·)对适应度得分进行排序,并以比率k进行筛选保留,得出gc中前
通过选择前
对集群进行了采样后,池化图gp中用
其中,
与现有技术相比,本发明的有益效果是:
1、使用了注意力机制,将图的结构信息与节点的特征信息相结合,可以更加准确计算出节点之间的相似度。
2、使用了sparsemax算法,对一阶邻域的注意力值进行稀疏化,使相似度高的节点形成集群,为集群形成提供了一种新的方法。
3、将局部聚合卷积与topk算法相结合,有效地避免了节点特征过平滑的问题,并实现了自适应池化操作,比传统的图池化方法准确率更高。
附图说明
图1是实施例一提供的一种基于图网络池化的新闻文本分类方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于图网络池化的新闻文本分类方法。
实施例一
本实施例提供一种基于图网络池化的新闻文本分类方法,如图1所示,包括步骤:
s1.在注意力机制中将结构信息与特征信息相结合,并计算图神经网络中一阶邻域内节点之间的相似性得分,得到具有相似性节点的注意力机制;
s2.采用稀疏概率激活函数sparsemax算法将得到的注意力机制进行稀疏化,得到节点相对应的集群;
s3.采用局部聚合卷积计算每个集群的分数,并通过得分高低来判断集群所含有的信息量;
s4.采用topk选出得分最高的前
本实施例具体为:首先在图中,利用稀疏注意力自适应地选择相似度高的节点形成集群。在注意力机制中加入结构信息权重,使之与节点特征相结合,有利于学习结构,计算出其一阶邻域内节点之间的相似性得分,再利用sparsemax将注意力值进行稀疏化得到分配矩阵,由此得到最终每个集群的节点构成。然后利用局部聚合卷积函数聚合节点得到集群表示,并计算每个集群的信息量,使用topk选择分数较高的集群,然后通过分配矩阵重新计算图的邻接矩阵,获得最终池化后图的特征矩阵和邻接矩阵。
在步骤s1中,在注意力机制中将结构信息与特征信息相结合,并计算图神经网络中一阶邻域内节点之间的相似性得分,得到具有相似性节点的注意力机制。
使用注意力机制计算图中一阶邻域内节点之间的相似性得分,其注意力机制将结构信息与特征信息相结合。
为了使集群内的节点相似度高,选择在一阶范围内计算。通过注意力机制计算每个一阶邻域内节点之间的相似度,从而找到在当前邻域内应该关注哪些节点信息。此外,为了保持图的结构性,把图的结构也考虑进去,因此节点i和节点j之间的相似注意力为:
ei,j=σ(we[xi||xj]t) λ·ai,j
其中σ为激活函数,
在步骤s2中,采用稀疏概率激活函数sparsemax算法将得到的注意力机制进行稀疏化,得到节点相对应的集群。
采用sparsemax(稀疏概率激活函数)算法,将得到的注意力进行稀疏化,即对节点特征相似度小的直接赋为0。
令si为ei进行归一化后的向量,其中ei为节点i的注意力值,即ei=[ei,1,ei,2,...ei,n]。
sparsemax直接将输出ei投影到单纯形的方式能够起到输出的稀疏化效果。但上述的函数形式在真实分布未知的情况下并不能直接求解。因此首先定义拉格朗日函数:
最优解集
若j∈{1,...,n},有si,j*>0,则μi,j*=0,有
综合上述,其对偶形式为
si,j=sparsemax(ei,j)=[ei,j-τ(ei)]
其中[x] =max{0,x},τ(·)为阈值函数,sparsemax(·)保留阈值以上的值,小于阈值的则设为零。
在步骤s3中,采用局部聚合卷积计算每个集群的分数,并通过得分高低来判断集群所含有的信息量。
利用局部聚合卷积计算出每个集群的分数,通过得分高低来判断集群所含有的信息量;
使用适应度函数fφ,根据集群适应度得分φi对集群进行采样。为了计算集群所含有的信息量,对集群表示采取聚合的方式,并计算其局部信息,即局部聚合卷积:
其中激活函数σ采用sigmoid,
在步骤s4中,采用topk选出得分最高的前
利用topk选出得分最高的前
将适应度向量φ=[φ1,φ2,...,φn]t与集群表示矩阵sx相乘,以使适应度函数fφ可学习:
其中
通过选择这些前
对集群进行了采样后,池化图gp中用
其中
与现有的新闻文本分类方法相比,本发明的有益效果是:
1、使用了注意力机制,将图的结构信息与节点的特征信息相结合,可以更加准确计算出节点之间的相似度。
2、使用了sparsemax算法,对一阶邻域的注意力值进行稀疏化,使相似度高的节点形成集群,为集群形成提供了一种新的方法。
3、将局部聚合卷积与topk算法相结合,有效地避免了节点特征过平滑的问题,并实现了自适应池化操作,比传统的图池化方法准确率更高。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
1.一种基于图网络池化的新闻文本分类方法,其特征在于,包括步骤:
s1.在注意力机制中将结构信息与特征信息相结合,并计算图神经网络中一阶邻域内节点之间的相似性得分,得到具有相似性节点的注意力机制;
s2.采用稀疏概率激活函数sparsemax算法将得到的注意力机制进行稀疏化,得到节点相对应的集群;
s3.采用局部聚合卷积计算每个集群的分数,并通过得分高低来判断集群所含有的信息量;
s4.采用topk选出得分最高的前
2.根据权利要求1所述的一种基于图网络池化的新闻文本分类方法,其特征在于,所述步骤s1中得到具有相似性节点的注意力机制,表示为:
ei,j=σ(we[xi||xj]t) λ·ai,j
其中,σ表示激活函数;
3.根据权利要求2所述的一种基于图网络池化的新闻文本分类方法,其特征在于,所述步骤s2中采用稀疏概率激活函数sparsemax算法将得到的注意力机制进行稀疏化后还包括得到稀疏的概率分布,表示为:
其中,si为ei进行归一化后的向量,ei表示节点i的注意力值,ei=[ei,1,ei,2,...ei,n];
4.根据权利要求3所述的一种基于图网络池化的新闻文本分类方法,其特征在于,所述得到稀疏的概率分布中还包括:
定义拉格朗日函数:
最优解集
若j∈{1,...,n},有si,j*>0,则μi,j*=0,有
令c(ei)={z∈{1,...,n}|si,z*>0},有
稀疏的概率分布的对偶形式表示为:
si,j=sparsemax(ei,j)=[ei,j-τ(ei)]
其中,[x] =max{0,x};τ(·)表示阈值函数。
5.根据权利要求4所述的一种基于图网络池化的新闻文本分类方法,其特征在于,所述步骤s3中采用局部聚合卷积计算每个集群的分数中局部聚合卷积表示为:
其中,激活函数σ采用sigmoid;
6.根据权利要求5所述的一种基于图网络池化的新闻文本分类方法,其特征在于,其特征在于,所述步骤s4具体为:
将适应度向量φ=[φ1,φ2,...,φn]t与集群表示矩阵sx相乘,以使适应度函数fφ可学习:
其中⊙表示哈达玛积;s=[s1,s2,...,sn]鄙视集群分配矩阵;x=[x1,x2,...,xn]t表示特征矩阵;
函数topk(·)对适应度得分进行排序,并以比率k进行筛选保留,得出gc中前
通过选择前
对集群进行了采样后,池化图gp中用
其中,