本发明涉及虚假新闻检测,更具体地说,它涉及基于用户帖子关系的多视图协同过滤虚假新闻检测方法。
背景技术:
1、近年来,随着社交媒体的发展,越来越多的人通过网络平台发布或浏览各种新闻,有利于公众及时获取最新的新闻信息,但同时也存在部分人为获取利益发布虚假新闻,降低了新闻发布的安全性和可靠性,影响用户体验。
2、现有的基于用户建模的虚假新闻检测方法多利用发帖或者参与帖子传播的用户的静态属性或历史发帖行为来判断用户对于新闻真实性的偏好。然而,在实际中,这些静态属性和历史发帖行为极易伪装,一些别有用心的用户可能通过伪装上述信息来达到欺骗模型的目的,使得虚假新闻检测模型的效率大大下降。
3、少部分基于用户建模的虚假新闻检测方法尝试对用户的社交网络建模来挖掘用户之间的交互特征,因为用户的社交网络对于事件主题判断体现出较大的潜力,然而在虚假新闻检测方面,由于用户的社交网络会引入大量的噪声,导致对新闻真假性特征的提取和检测不准确。
技术实现思路
1、本发明的目的是为了解决上述问题,提供基于用户帖子关系的多视图协同过滤虚假新闻检测方法,利用难以伪装的用户-帖子关系来建模用户对于新闻真实性的偏好,具体来说,构建了一个3d矩阵,以便在每个单一视图中进行用户到帖子和帖子到用户的传播;以及为多个帖子标签构建多个视图,同时在全局视图中采用对比学习。
2、本发明的上述技术目的是通过以下技术方案得以实现的:基于用户帖子关系的多视图协同过滤虚假新闻检测方法,所述方法包括以下步骤:
3、s1:对新闻的源文本进行处理得到其文本特征;
4、s2:根据不同标签的帖子中的用户与帖子的传播关系构造多视图,并在单个视图中进行信息传递得到总视图的用户和帖子表示;
5、s3:计算各个子视图之间用户表示的标准差作为用户偏好明确性权重来聚合总视图中的用户表示得到用户偏好明确性表示;
6、s4:利用元学习训练得到用户偏好权重wp来聚合个子视图的用户表示得到每个用户的用户偏好表示,对于一个帖子,取参与该帖子的所有用户偏好表示的均值作为该帖子的用户偏好表示;
7、s5:将所述s1~s4所有的特征进行拼接得到最终的帖子的特征,设计并实现一个全连接层的神经网络用于预测新闻的真假标签;
8、s6:用交叉熵损失训练所述s5得到的整个网络。
9、本发明进一步设置为:所述s1通过以下步骤实现:
10、s1-1:将源贴文本数据{t1,t2,…,tm}转化为其相应的word2vec向量表示,表示为w1,w2,…,wm};
11、s1-2:分别使用核大小为{3,4,5}的卷积神经网络(cnn)对{w1,w2,…,wm}进行处理并进行平均池化操作,以得到源贴文本的对应文本特征{t1,t2,…,tm}。
12、本发明进一步设置为:所述s2通过以下步骤实现;
13、s2-1:构造多视图;使用三维矩阵表示不同标签的用户-帖子关系,如[i,j,k]表示第i个用户参与了第j个帖子且帖子的标签为第k类;由此可得到一个总视图和多个子视图;总视图是不分类帖子标签的只考虑用户-帖子关系,子视图分别对应不同标签下的用户-帖子关系;
14、s2-2:在单个视图中执行信息传递操作得到下一层的用户表示和帖子表示,其公式如下:
15、
16、
17、s2-3:在单个视图中执行两次信息传递操作,并将每一层的用户表示和帖子表示取平均得到单个视图的用户表示和帖子表示;
18、s2-4:经过所述s2-1~s2-3的操作,得到总视图的用户表示{ug1,ug2,···,ugn},帖子表示{pg1,pg2,···,pgm}和各个子视图的用户表示{usi1,usi2,···,usin},i表示第i个子视图,并将帖子表示{pg1,pg2,···,pgm}作为帖子的特征{p1,p2,…,pm}。
19、本发明进一步设置为:所述s3通过以下步骤实现;
20、s3-1:计算所述s2得到的各子视图之间用户表示的标准差ws作为用户偏好明确性权重;
21、s3-2:利用用户偏好明确性权重ws来聚合总视图的用户表示得到每个帖子对应的用户偏好明确性表示{s1,s2,…,sm}。
22、本发明进一步设置为:所述s4通过以下步骤实现;
23、s4-1:利用元学习在用户-帖子行为较多的用户学的一个较好的初始化用户偏好权重wp并将其迁移到用户-帖子行为较少的用户;
24、s4-2:利用用户偏好权重wp聚合各子视图的用户表示得到每个用户偏好表示{ur1,ur2,···,urn};
25、s4-3:对于任一帖子,取取参与该帖子的所有用户偏好表示的均值作为该帖子的用户偏好表示{r1,r2,…,rm}。
26、综上所述,本发明具有以下有益效果:
27、1、本发明基于用户-帖子的行为,使用协同过滤算法对不用标签的帖子中的用户传播行为进行建模,从用户的动态行为角度出发,解决了用户静态属性和历史发帖行为易于被伪装导致用户行为建模不准确的问题,使得模型能够更好的捕捉用户的行为特性,实现更高的虚假新闻检测率;
28、2、本发明利用难以伪装的用户-帖子关系来建模用户对于新闻真实性的偏好,具体来说,构建了一个3d矩阵,以便在每个单一视图中进行用户到帖子和帖子到用户的传播;以及为多个帖子标签构建多个视图,同时在全局视图中采用对比学习;
29、3、本发明提供两种整合多个视图以全面捕捉高级用户行为特征的策略。第一种策略利用元学习来获得适当的用户偏好权重,第二种策略利用标准偏差度量来评估用户偏好的明确性。最后,利用学习得到的帖子特征和用户行为特征来进行虚假新闻识别,充分利用了用户的不同偏好特征,因而能够提高新闻真假性特征的提取效率,提高虚假新闻的识别准确率。
1.基于用户帖子关系的多视图协同过滤虚假新闻检测方法,其特征是:所述方法包括以下步骤:
2.根据权利要求1所述的基于用户帖子关系的多视图协同过滤虚假新闻检测方法,其特征是:所述s1通过以下步骤实现:
3.根据权利要求1所述的基于用户帖子关系的多视图协同过滤虚假新闻检测方法,其特征是:所述s2通过以下步骤实现;
4.根据权利要求1所述的基于用户帖子关系的多视图协同过滤虚假新闻检测方法,其特征是:所述s3通过以下步骤实现;
5.根据权利要求1所述的基于用户帖子关系的多视图协同过滤虚假新闻检测方法,其特征是:所述s4通过以下步骤实现;