社交机器人检测方法、系统、存储介质和电子设备与流程

    专利2022-07-08  133


    本发明涉及社交网络技术领域,尤其涉及一种社交机器人检测方法、系统、存储介质和电子设备。



    背景技术:

    近年来,随着信息技术的高速发展,社交网络被人们广泛地使用,人们可以通过它分享新闻、观点和交友等,但是其中出现了一种非正常用户的社交机器人账户。社交机器人已经被应用到人们生活的方方面面(智能客服、问卷机器人等),但恶意的社交机器人使用导致网络诈骗和虚假新闻亦愈来愈严重,所以社交机器人账号检测愈发受到各国政府和企业重视。

    现有社交机器人检测技术主要采用基于图的账号检测、众包方式账号检测和基于机器学习方法的账号检测,这些技术存在训练成本高、算法精度不高等缺点。基于图的账号检测方法采用社交网络的社会关系图谱来表示社交网络中节点间的边和链接的网络信息和关系,从而实现机器人账号的检测。直接采用社交网络信息构建的图来检测账号,存在可能因为个别节点干扰,降低检测精度的问题,鲁棒性不好;众包账号检测方法是采取领域专家来评估、分辨和判决账号是否为机器人账号的方式。该方法需要依赖大量的专家投入,人力成本过高,适合小数据量的账号检测任务;基于机器学习方法的账号检测,采用机器学习算法和统计方法来构建社交网络特征的模型,使用算法模型来实现社交账号的检测。训练机器学习模型的数据和特征选择好坏,对检测精度影响较大,稳定性不高,也存在一定的局限性。



    技术实现要素:

    本发明提供了一种社交机器人检测方法、系统、存储介质和电子设备,能够满足低延时、高鲁棒性、高稳定性和高识别率的要求。

    根据本发明的第一方面,提供了一种社交机器人检测方法,包括:

    获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;

    根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;

    根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;

    确定所述目标账号的每篇发文的类别;

    将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;

    根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。

    进一步地,所述获取目标账号的好友账号和所述好友账号的关联发文包括:

    获取所述目标账号的发文中最近提及的第一数量的好友账号;

    获取所述好友账号最近发表的第二数量的关联发文。

    进一步地,根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱包括:

    根据所述账号信息矩阵和所述文章信息矩阵生成关联关系矩阵,所述关联关系矩阵表示所述好友账号与所述目标账号之间的关联关系度量;

    根据所述账号信息矩阵和所述关联关系矩阵得到所述社交关系图谱。

    进一步地,按照如下方式生成所述关联关系矩阵:

    rel=[rel1...reln],

    其中,m为好友账号的关联发文的篇数,ti为最近一篇关联发文的时间与最早一篇关联发文的时间的差值,表示好友账号单位时间内的关联发文的篇数。mi为目标账号在最近发表的m篇发文中提及好友账号i的文章篇数,表示目标账号提及好友账号i的概率,periodi为目标账号的m篇发文的时间间隔,α为超参数。

    进一步地,所述分类检测模型包括预先训练得到的图注意力(gat)模型和集成学习判决模型。

    进一步地,所述将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果包括:

    对所述社交关系图谱中的好友账号进行采样;

    基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文;

    将所选取的关联发文的向量拼接到所述好友账号的向量尾部;将所述目标账号的发文的向量拼接到所述目标账号的向量尾部,得到新的社交关系图谱;

    将所述新的社交关系图谱输入到图注意力模型中,生成特征向量;

    将所述目标账号的发文的向量拼接到所述特征向量中,得到拼接特征向量;

    将所述拼接特征向量输入所述集成学习判决模型,得到基于所述发文的检测结果。

    进一步地,所述根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果包括:

    对每篇发文的检测结果进行加权平均,得到所述目标账号的最终检测结果。

    根据本发明的第二方面,提供了一种社交机器人检测系统,包括:

    获取模块,用于获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;

    矩阵构建模块,用于根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;

    图谱构建模块,用于根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;

    分类模块,用于确定所述目标账号的每篇发文的类别;

    检测模块,用于将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;

    输出模块,用于根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。

    根据本发明的第三方面,提供了一种计算机可读存储介质,存储有多条指令,所述指令用于实现如本发明的第一方面所述的方法。

    根据本发明的第四方面,提供了一种电子设备,包括处理器和与所述处理器连接的存储介质,所述存储介质存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如本发明的第一方面所述的方法。

    本发明根据目标账号、好友账号和发文信息生成特征向量,根据发文类别自适应地选用预先训练好的分类检测模型进行检测,提升了算法的检测精度和检测效率;在分类检测模型中使用注意力模型和集成判决模型,进一步满足了低延时、高鲁棒性、高稳定性和高识别率的要求。

    附图说明

    图1为根据本发明实施例的社交机器人检测方法的流程示意图;

    图2为根据本发明实施例的分类检测模型的处理流程图;

    图3为根据本发明实施例的社交网络关系示意图;

    图4为根据本发明实施例的社交机器人检测系统的结构示意图;

    图5为根据本发明实施例的计算机设备内部的结构示意图

    具体实施方式

    为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

    本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。

    处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。

    存储器可以包括随机存储器(randomaccessmemory,ram),也可以包括只读存储器(read-onlymemory,rom)。存储器可用于存储指令、程序、代码、代码集或指令。

    显示屏用于显示各个应用程序的用户界面。

    除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。

    社交机器人检测任务可以形式化定义为,输入是待检测的社交账号信息i=(i1,i2,...,in),其中in表示社交账号的第n维信息的向量化表示,输出为被检测社交账号为机器人的概率p和各项指标得分情况s=(s1,s2,...,sn),其中sn表示第n维账号指标在检测中的得分情况。对于批量账号检测任务,根据每个社交账号为机器人的概率和各项指标得分情况给出输入账号中为机器人账号的排名列表。

    由于社交机器人在社交网络中会互相提及对方,容易形成社交关系图,所以可以利用社交账号的关系图来挖掘和检测恶意社交机器人账号。首先,通过待检测的目标账号信息i=(i1,i2,...,in)获取该目标账号最近提及的n(例如为100)个社交好友账号及每个好友账号提及该目标账号的最近m(例如为200)篇关联发文。所述“提及”包括转发目标账号的发文、在发文中提到目标账号或通过“@”等命令符提醒目标账号浏览发文等与目标账号发生关联的行为。将目标账号和好友账号的信息处理为向量,构建账号信息矩阵u,获取目标账号最近的m(例如为200)篇发文,连同好友账号的n×m篇发文的信息一同处理为向量,并构建为文章信息矩阵p(矩阵第一行为目标账号的文章向量)。使用账号信息矩阵u和文章信息矩阵p构建社交网络关系图谱g,将目标账号的m篇文章分为c种类别,针对每种品类利用文章和社交网络关系图谱g训练得到该类别的分类检测模型,用于社交机器人的检测。

    实施例一

    如图1所示,本发明实施例提供了一种社交机器人检测方法,包括:

    s101、获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;

    具体地,包括:

    获取所述目标账号的发文中最近提及的第一数量(n)的好友账号;

    获取所述好友账号最近发表的第二数量(m)的关联发文。

    例如,获取目标账号的发文中提及的所有好友账号并按提及的时间距离当前时间由近及远排序,取前100个好友账号。获取该100个好友账号的发文中提及所述目标账号的关联发文,按发文时间距离当前时间由近及远排序,取前200篇关联发文。

    s102、根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;

    根据所述目标账号和好友账号获取账号信息,例如性别、年龄、地理位置、好友数、关注数等。获取所述目标账号的发文和所述好友账号的关联发文的文章信息,例如题目、内容、点赞数、转发数等。

    对获取到的目标账号和好友账号的信息进行向量化处理,得到账号信息矩阵其中iw=(i1,i2,...,in)表示账号信息向量,w=n 1,n表示采样到的好友账号数,例如i1为目标账号的账号信息向量,i2......iw为好友账号的账号信息向量。

    获取目标账号最近发表的m篇发文,将该m篇发文和步骤s101中获取的好友账号的m篇关联发文的信息一起进行向量化处理(即嵌入处理)得到文章信息矩阵例如第一行为目标账号的m篇发文的文章向量,其它行中的每一行对应1个好友账号的m篇发文的文章向量。

    s103、根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;

    其中,根据所述账号信息矩阵和所述文章信息矩阵生成关联关系矩阵,所述关联关系矩阵表示所述好友账号与所述目标账号之间的关联关系度量,按照如下方式生成关联关系矩阵rel:

    rel=[rel1...reln],

    其中

    reli表示单位时间内好友间互发推文的量化度量,作为好友账号i与目标账号之间的关联关系的度量,即好友亲密程度。x为待检测的目标账号提及好友账号i的文章数量,z表示目标账号单位时间内发文提及好友账号i的文章数。z~π(λ)且e(z)=λ表示单位时间内待检测账号提及好友i的概率,所以其中periodi为目标账号的m篇发文的时间间隔。由此,

    m为好友账号的关联发文的篇数,ti为最近一篇关联发文的时间与最早一篇关联发文的时间的差值,表示好友账号单位时间内的关联发文的篇数。mi为目标账号在最近发表的m篇发文中提及好友账号i的文章篇数,表示目标账号提及好友账号i的概率,periodi为目标账号的m篇发文的时间间隔,α为超参数。

    根据所述账号信息矩阵u和所述关联关系矩阵rel得到所述社交关系图谱g=(u,rel)。

    s104、确定所述目标账号的每篇发文的类别;

    根据每篇发文的内容,可以确定其所属的类别。所述类别是预先设置的,例如体育类、教育类、人文类、时政类等。

    s105、将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;

    其中,所述分类检测模型包括预先训练得到的图注意力(gat)模型和集成学习判决模型。

    如图2所示,该步骤具体包括:

    s1051、对所述社交关系图谱中的好友账号进行采样;

    s1052、基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文;

    s1053、将所选取的关联发文的向量拼接到所述好友账号的向量尾部;将所述目标账号的发文的向量拼接到所述目标账号的向量尾部,得到新的社交关系图谱g′;

    s1054、将所述新的社交关系图谱g′输入到图注意力模型gat中,生成特征向量h;

    s1055、将所述目标账号的发文的向量p1,pidx拼接到所述特征向量h中,得到拼接特征向量f=(h,p1,pidx);

    s1056、将所述拼接特征向量f输入所述集成学习判决模型,得到基于所述发文的检测结果(r,s)。其中r为检测账号为机器人的概率;s=(s1...sn 1)为模型各项指标的得分情况,其中包含n项账号信息相关的特征和1项文章信息相关特征。

    s106、根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。

    具体地,对每篇发文的检测结果进行加权平均,得到所述目标账号的最终检测结果:

    其中ri为使用第i篇文章得到的目标账号为机器人的概率。

    其中si为使用第i篇文章得到的各项指标的得分矩阵。

    本实施例的方法根据目标账号、好友账号和发文信息生成特征向量,根据发文类别自适应地选用预先训练好的分类检测模型进行检测,提升了算法的检测精度和检测效率;在分类检测模型中使用注意力模型和集成判决模型,进一步满足了低延时、高鲁棒性、高稳定性和高识别率的要求。

    其中,分类检测模型按照下述方法进行预先训练得到:

    获取作为训练数据的目标账号,该目标账号已标注是否为社交机器人;

    获取该目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;

    根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;

    根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;

    确定所述目标账号的每篇发文的类别;

    对于每个类别训练分类检测模型,包括:

    对所述社交关系图谱中的好友账号进行采样;

    基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文;

    将所选取的关联发文的向量拼接到所述好友账号的向量尾部;选取目标账号该类别的一篇发文,将所述目标账号的发文的向量p1,pidx拼接到所述目标账号的向量尾部,得到新的社交关系图谱g′;

    将所述新的社交关系图谱g′输入到图注意力模型gat中,生成特征向量h;

    将所述目标账号的发文的向量p1,pidx拼接到所述特征向量h中,得到拼接特征向量f=(h,p1,pidx);

    将所述拼接特征向量f输入所述集成学习判决模型,得到基于所述发文的检测结果(r,s)。其中r为检测账号为机器人的概率;s=(s1...sn 1)为模型各项指标的得分情况,其中包含n项账号信息相关的特征和1项文章信息相关特征。

    根据所述检测结果和目标账号的标注进行多轮训练,训练得到的gat模型和集成学习判决模型即构成分类检测模型,与目标账号的发文类别相关联得到各类别的分类检测模型。

    实施例二

    下面以图3所示的社交网络关系为例,阐释本发明的社交机器人检测方法。

    在图3示出的社交网络关系中,以twitter社交机器人账号检测为例,待检测的目标账号的节点n0有4个近邻节点n1、n2、n3、n4表示目标账号最近提及的4个好友账号,节点间有边代表存在社交关系,边的数值表示节点间好友关系的亲密程度,计算公式为:

    (参见实施例一)。本实施例中假设边的数值都为1。

    首先获取待检测的用户及其好友的账号和发文信息,这里使用twitterapi进行信息获取。将获取的用户信息和发文信息采用嵌入算法(embedding)进行向量化处理,得到账号信息向量ik=(i1,i2,...,in),1≤k≤5,从而可得到账号信息矩阵每个账号抓取m=20篇文章并将文章向量化,得到文章信息矩阵

    遍历待检测账号获取到的20篇文章,并对每篇文章给出其所属类别(这里采用32个一级类目,181个二级类目),针对每篇文章的类别选用不同领域的账号检测模型对账号信息矩阵u和文章信息矩阵p处理并预测机器人账号概率和各项特征指标得分情况。

    具体地:

    根据账号信息矩阵u和文章信息矩阵p,可得到关联关系矩阵rel=[rel1...reln],其中这里假设rel=[1,1,1,1],构建社交关系图谱g=(u,rel)。

    基于高斯分布对社交网络图谱g中的待检测账号的好友节点采样50%个节点,即采样2个好友节点,这里假设采样节点为n1、n3。

    文章信息矩阵中p2,·对应n1用户的文章信息,p4,·对应n3用户的文章信息。从p2,·和p4,·中随机抽取两篇文章的向量p2,3和p4,3拼接到n1和n3的账号信息向量尾部,可得对应n1融合文章信息的向量,对应n3融合文章信息的向量。对于目标账号,假设当前使用的文章为p1,7,可得基于融合文章信息的账号信息矩阵和关联关系矩阵rel,可得到融合了文章信息的社交关系图谱g′=(u′,rel)。

    将融合了账号信息、文章信息和社交关系信息的关系网络图谱g′输入到图注意力模型gat中聚合,生成特征向量h;

    将当前待检测的目标账号的文章p1,7拼接到特征向量h尾部,可以得到

    将特征向量输入到集成学习判决模型中即可得到账号检测结果(r,s),其中r为检测账号为机器人的概率;s=(s1...sn 1)为各项指标的得分情况,其中包含n项账号信息的特征和1项文章信息的特征。

    对各领域账号检测结果加权平均得到系统最终检测结果:

    其中ri为使用第i篇文章得到的目标账号为机器人的概率。

    其中si为使用第i篇文章得到的各项指标的得分矩阵。

    实施例三

    如图4所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了社交机器人检测系统,包括:

    获取模块41,用于获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;

    矩阵构建模块42,用于根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;

    图谱构建模块43,用于根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;

    分类模块44,用于确定所述目标账号的每篇发文的类别;

    检测模块45,用于将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;

    输出模块46,用于根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。

    其中,检测模块45包括预先训练得到的图注意力(gat)模型和集成学习判决模型。检测模块45具体用于:

    对所述社交关系图谱中的好友账号进行采样;

    基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文:

    将所选取的关联发文的向量拼接到所述好友账号的向量尾部;将所述目标账号的发文的向量拼接到所述目标账号的向量尾部,得到新的社交关系图谱g′;

    将所述新的社交关系图谱g′输入到图注意力模型gat中,生成特征向量h;

    将所述目标账号的发文的向量p1,pidx拼接到所述特征向量h中,得到拼接特征向量f=(h,p1,pidx);

    将所述拼接特征向量f输入所述集成学习判决模型,得到基于所述发文的检测结果(r,s)。其中r为检测账号为机器人的概率;s=(s1...sn 1)为模型各项指标的得分情况,其中包含n项账号信息相关的特征和1项文章信息相关特征。

    该系统各模块具体实现上述实施例一提供的社交机器人检测方法,具体的模块功能可参见实施例一中对应的方法步骤的描述,在此不再赘述。

    本实施例的装置根据目标账号、好友账号和发文信息生成特征向量,根据发文类别自适应地选用预先训练好的分类检测模型进行检测,提升了算法的检测精度和检测效率;在分类检测模型中使用注意力模型和集成判决模型,进一步满足了低延时、高鲁棒性、高稳定性和高识别率的要求。

    本发明提出的社交机器人检测方法和系统已在一个大规模twitter标注数据集(332,493,934条用户的标注数据)上进行了验证。

    实验结果表明,该方案在效率上远高于其他对比方案。该检测方法和系统可以实现在线实时账号检测,速度是现有的botometer检测平台的3倍。实验数据显示,本发明的检测方案平均检测耗时在30ms以内,可以满足实时在线账号检测需求。

    实验数据显示本发明的检测方案的检测精确率为98.433%,召回率为94.1667%,可以满足社交机器人检测需求。

    如图5所示,本发明还提供一种计算机设备,该计算机设备包括存储介质和处理器。存储介质中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行本发明任一实施例中的社交机器人检测方法的步骤。

    本发明还能够提供一种计算机可读存储介质,该存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时实现本发明任一实施例中的社交机器人检测方法的步骤。

    在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram,randomaccessmemory),只读存储器(rom,read-onlymemory),可擦除可编辑只读存储器(eprom,erasableprogrammableread-onlymemory,或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom,compactdiscread-onlymemory)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

    应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga,programmablegatearray),现场可编程门阵列(fpga,fieldprogrammablegatearray)等。

    在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

    此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。


    技术特征:

    1.一种社交机器人检测方法,其特征在于,包括:

    获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;

    根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;

    根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;

    确定所述目标账号的每篇发文的类别;

    将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;

    根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。

    2.根据权利要求1所述的方法,其特征在于,所述获取目标账号的好友账号和所述好友账号的关联发文包括:

    获取所述目标账号的发文中最近提及的第一数量的好友账号;

    获取所述好友账号最近发表的第二数量的关联发文。

    3.根据权利要求2所述的方法,其特征在于,根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱包括:

    根据所述账号信息矩阵和所述文章信息矩阵生成关联关系矩阵,所述关联关系矩阵表示所述好友账号与所述目标账号之间的关联关系度量;

    根据所述账号信息矩阵和所述关联关系矩阵得到所述社交关系图谱。

    4.根据权利要求3所述的方法,其特征在于,按照如下方式生成所述关联关系矩阵:

    rel=[rel1…reln],

    其中,m为好友账号的关联发文的篇数,ti为最近一篇关联发文的时间与最早一篇关联发文的时间的差值,表示好友账号单位时间内的关联发文的篇数。mi为目标账号在最近发表的m篇发文中提及好友账号i的文章篇数,表示目标账号提及好友账号i的概率,periodi为目标账号的m篇发文的时间间隔,α为超参数。

    5.根据权利要求4所述的方法,其特征在于,所述分类检测模型包括预先训练得到的图注意力(gat)模型和集成学习判决模型。

    6.根据权利要求5所述的方法,其特征在于,所述将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果包括:

    对所述社交关系图谱中的好友账号进行采样;

    基于文章信息矩阵,针对采样出的好友账号随机选取一篇关联发文;

    将所选取的关联发文的向量拼接到所述好友账号的向量尾部;将所述目标账号的发文的向量拼接到所述目标账号的向量尾部,得到新的社交关系图谱;

    将所述新的社交关系图谱输入到图注意力模型中,生成特征向量;

    将所述目标账号的发文的向量拼接到所述特征向量中,得到拼接特征向量;

    将所述拼接特征向量输入所述集成学习判决模型,得到基于所述发文的检测结果。

    7.根据权利要求6所述的方法,其特征在于,所述根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果包括:

    对每篇发文的检测结果进行加权平均,得到所述目标账号的最终检测结果。

    8.一种社交机器人检测系统,其特征在于,包括:

    获取模块,用于获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;

    矩阵构建模块,用于根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;

    图谱构建模块,用于根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;

    分类模块,用于确定所述目标账号的每篇发文的类别;

    检测模块,用于将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;

    输出模块,用于根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。

    9.一种计算机可读存储介质,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-7任一项所述的方法。

    10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储介质,所述存储介质存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-7任一项所述的方法。

    技术总结
    本发明公开了一种社交机器人检测方法、系统、存储介质和电子设备。方法包括:获取待检测的目标账号的好友账号和所述好友账号的关联发文,所述关联发文为提及所述目标账号的发文;根据所述目标账号和好友账号构建账号信息矩阵,根据所述目标账号的发文和所述好友账号的关联发文构建文章信息矩阵;根据所述账号信息矩阵和文章信息矩阵构建社交关系图谱;确定所述目标账号的每篇发文的类别;将所述目标账号的发文、所述社交关系图谱和所述文章信息矩阵输入与所述发文的类别对应的分类检测模型,得到基于所述发文的检测结果;根据所述目标账号的每篇发文的检测结果得到所述目标账号的最终检测结果。本发明具有低延时、高鲁棒性、高稳定性和高识别率。

    技术研发人员:周明;唐杰;刘德兵;仇瑜
    受保护的技术使用者:北京智源人工智能研究院
    技术研发日:2020.11.26
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21659.html

    最新回复(0)