本发明属于事件标记与分类
技术领域:
,更为具体地讲,涉及一种基于知识图谱的自动化事件标记与分类方法。
背景技术:
:近年来,随着社交媒体的迅速发展,推特、微博等社交媒体逐渐成为人们获取新闻信息的重要途径。因此,越来越多的工作开始关注社交媒体信息并对其进行分析,其中一类比较重要的工作就是社交媒体数据的事件抽取工作,即根据社交媒体数据抽取出其所描述的事件。但是对于抽取出的事件(事件关键短语、摘要等),难免会出现一些并不关注的事件,因此需要对抽取出的事件进行标记与分类(军事、政治、地理等若干类别),得到每个事件所属的类别,从而过滤掉不关注类别的事件,筛选出感兴趣的事件。但是如何根据描述事件的少量信息精确获取其类别,以及如何解决某个事件可能同属于多个类别的问题,暂未有较好的解决方式,都是需要进一步研究和解决的。技术实现要素:本发明的目的在于克服现有技术的不足,提供一种基于知识图谱的自动化事件标记与分类方法,实现对社交媒体事件的自动化精确标记与分类。为实现上述发明目的,本发明基于知识图谱的自动化事件标记与分类方法包括以下步骤:s1:根据实际需要设置n个领域类别,分别收集每个领域类别的文本数据并构建知识图谱gn,n=1,2…,n;s2:预设时间窗口t,爬取该时间窗口内社交媒体中发布的各个文本数据,对每个文件数据进行关键短语提取,将所提取到的关键短语构成关键短语集合a。分别计算关键短语集合a中的每个关键短语s的突发程度ws,计算公式如下:ws=ps×log(us)×log(rs)×log(log(fs))其中,ps表示时间窗口t内关键短语s的突发概率,us表示时间窗口t内使用过关键短语s的用户数量,rs表示时间窗口t内包含关键短语s的文本被转发的次数,fs表示时间窗口t内使用关键短语s的用户的关注数目总和;将所有关键短语按照突发程度从高到低进行排序,选择前k个关键短语作为突发短语加入突发短语集合b;s3:将时间窗口t平均划分为m个连续不相交的子时间窗口,记第m个子时间窗口为tm,对于每个突发短语e,e∈b,统计每个子时间窗口tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口t内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口tm所占比例d(e,m)=f1(e,m)/f2(e);记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度s(ea,eb):根据突发短语间的相似度对突发短语进行聚类,得到k个突发短语簇ck,k=1,2,…,k,每个突发短语簇ck即为时间窗口t内的一个突发事件;s4:对于突发短语簇ck所对应的突发事件,根据步骤s1所构建的各个领域类别知识图谱gn所涵盖的文本数据,计算突发短语簇ck中每个突发短语v在各个领域类别知识图谱gn上的tf-idf得分score(v,n),再进行求和得到突发短语簇ck所对应突发事件在各个领域类别知识图谱gn上的tf-idf得分score(k,n):s5:预先设定tf-idf得分阈值对于突发短语簇ck所对应的突发事件,如果其在领域类别知识图谱gn上的tf-idf得分score(k,n)大于阈值则将该突发事件标记为该领域类别,从而确定突发事件的标记和分类。本发明基于知识图谱的自动化事件标记与分类方法,构建所需的领域类别的知识图谱,爬取预设时间窗口内的社交媒体中发布的各个文本数据,提取关键短语并筛选得到突发短语,对突发短语进行聚类得到突发短语簇,每个突发短语簇即为时间窗口内的一个突发事件,然后计算突发事件对应突发短语在各个知识图谱上的tf-idf得分,求和得到突发事件在各个知识图谱上的tf-idf得分,如果大于预设阈值,则将对应事件标记为该领域类别,从而确定事件的标记和分类。本发明通过对社交媒体中文本数据进行突发短语筛选和聚类,自动确定突发事件,然后再计算突发事件在各个领域类别知识图谱上的tf-idf得分,实现对社交媒体事件的自动化精确标记与分类。附图说明图1是本发明基于知识图谱的自动化事件标记与分类方法的具体实施方式流程图。具体实施方式下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。实施例图1是本发明基于知识图谱的自动化事件标记与分类方法的具体实施方式流程图。如图1所示,本发明基于知识图谱的自动化事件标记与分类方法的具体步骤包括:s101:构建各领域类别知识图谱:根据实际需要设置n个领域类别,分别收集每个领域类别的文本数据并构建知识图谱gn,n=1,2…,n。知识图谱(knowledgegraph)是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。针对互联网社交媒体,本实施例中所设置的领域类别包括军事(military)、人物(people)、产业(industry)、安全(safety)、气象(meterology)、地理(geography),爬取这些领域类别在维基百科上的相关数据,基于这些数据构建知识图谱,借助这些知识图谱信息来进行事件的标记和分类。s102:筛选突发短语:预设时间窗口t,爬取该时间窗口内社交媒体中发布的各个文本数据,对每个文件数据进行关键短语提取,将所提取到的关键短语构成关键短语集合a。分别计算关键短语集合a中的每个关键短语s的突发程度ws,计算公式如下:ws=ps×log(us)×log(rs)×log(log(fs))其中,ps表示时间窗口t内关键短语s的突发概率,即ts、ts′分别表示时间窗口t内关键短语s、关键短语s′出现的次数,s,s′∈a,us表示时间窗口t内使用过关键短语s的用户数量,rs表示时间窗口t内包含关键短语s的文本被转发的次数,fs表示时间窗口t内使用关键短语s的用户的关注数目总和。将所有关键短语按照突发程度从高到低进行排序,选择前k个关键短语作为突发短语加入突发短语集合b,k的值根据需要设置。表1是本实施例中部分关键短语的突发程度列表。关键短语突发程度iran20.1310zarif6.91061foreignminister3.68816humanrights3.21209president2.54122resignation2.53455fellowdiplomats1.22547foreignpolicy0.32457hintingat0.30289condemns0.02536infrontof0.01785exceptfor0.00566表1本实施例中选择前3个关键短语作为突发短语加入突发短语集合b,即b={iran,zarif,foreignminister}。s103:基于突发短语聚类构建突发事件:将时间窗口t平均划分为m个连续不相交的子时间窗口,记第m个子时间窗口为tm,m=1,2,…,m,对于每个突发短语e,e∈b,统计每个子时间窗口tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口t内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口tm所占比例d(e,m)=f1(e,m)f2(e)。对突发短语集合b中的突发短语两两计算相似度,计算方法如下:记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度s(ea,eb):根据突发短语间的相似度对突发短语进行聚类,得到k个突发短语簇ck,k=1,2,…,k,每个突发短语簇ck即为时间窗口t的一个突发事件。本实施例中,文本集合之间的相似度采用tf-idf(termfrequency–inversedocumentfrequency,词频-逆向文件频率)相似度。tf-idf是一种用于信息检索(informationretrieval)与文本挖掘(textmining)的常用加权技术。tf-idf是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本实施例中文本集合的tf-idf相似度的计算方法包括以下步骤:1)分别对两个文本集合进行分词,对得到两个单词集合进行合并得到单词集合φ。2)对于单词集合φ中的每个单词,分别计算该单词在两个文本集合中的tf-idf值pi,1、pi,2,i=1,2,…,|φ|,|φ|表示单词集合φ中单词数量。tf-idf值的计算方法为:对于单词i,统计其在文本集合中的词频tf(i)和逆文本频率idf(i)=log(d/di),d表示文本集合中的文本数量,di表示文本集合中包含单词i的文本数量,则tf-idf值为tf(i)×idf(i)。3)根据每个单词的tf-idf值构建得到每个文本集合对应的tf-idf向量p1=(p1,1,p2,1,…p|φ|,1)、p2=(p1,2,p2,2,…p|φ|,2)。4)计算两个文本集合对应的tf-idf向量之间的余弦相似度,即作为文本集合之间的相似度。本实施例中突发短语的聚类采用jarvis-patrick聚类算法,该算法可以基于突发知识间的相似度进行聚类,其方法可以简述如下:根据突发短语相似度绘制snn(sharednearestneighbor,共享最近邻居)相似度图,利用相似度阈值对snn相似度图进行稀疏化,找出稀疏化的snn相似度图的连通分支,即可得到聚类结果。表2是本实施例中突发短语聚类得到的突发短语簇。表2s104:计算突发事件的tf-idf得分:对于突发短语簇ck所对应的事件,根据步骤s101所构建的各个领域类别知识图谱gn所涵盖的文本数据,计算突发短语簇ck中每个突发短语v在各个领域类别知识图谱gn上的tf-idf得分score(v,n),再进行求和得到突发短语簇ck所对应突发事件在各个领域类别知识图谱gn上的tf-idf得分score(k,n):表3是本实施例中突发短语簇所对应事件在各个领域类别知识图谱上的tf-idf得分。表3s105:事件标记和分类:预先设定tf-idf得分阈值对于突发短语簇ck所对应的突发事件,如果其在领域类别知识图谱gn上的tf-idf得分score(k,n)大于阈值则将该突发事件标记为该领域类别,从而确定事件的标记和分类。在本实施例中设置得分阈值可以得出该事件的标记与分类为“军事(military)”和“人物(people)”,符合人为观察。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本
技术领域:
的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本
技术领域:
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。当前第1页1 2 3 
技术特征:1.一种基于知识图谱的自动化事件标记与分类方法,其特征在于,包括以下步骤:
s1:根据实际需要设置n个领域类别,分别收集每个领域类别的文本数据并构建知识图谱gn,n=1,2…,n;
s2:预设时间窗口t,爬取该时间窗口内社交媒体中发布的各个文本数据,对每个文件数据进行关键短语提取,将所提取到的关键短语构成关键短语集合a。分别计算关键短语集合a中的每个关键短语s的突发程度ws,计算公式如下:
ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示时间窗口t内关键短语s的突发概率,us表示时间窗口t内使用过关键短语s的用户数量,rs表示时间窗口t内包含关键短语s的文本被转发的次数,fs表示时间窗口t内使用关键短语s的用户的关注数目总和;
将所有关键短语按照突发程度从高到低进行排序,选择前k个关键短语作为突发短语加入突发短语集合b;
s3:将时间窗口t平均划分为m个连续不相交的子时间窗口,记第m个子时间窗口为tm,对于每个突发短语e,e∈b,统计每个子时间窗口tm内包含该突发短语e的文本集合text(e,m)和文本数量f1(e,m),以及整个时间窗口t内包含该突发短语e的文本数量f2(e),计算每个突发短语e在子时间窗口tm所占比例d(e,m)=f1(e,m)/f2(e);
记两个突发短语分别为ea、eb,首先分别计算文本集合text(ea,m)和文本集合text(eb,m)之间的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式计算两个突发短语的相似度s(ea,eb):
根据突发短语间的相似度对突发短语进行聚类,得到k个突发短语簇ck,k=1,2,…,k,每个突发短语簇ck即为时间窗口t内的一个突发事件;
s4:对于突发短语簇ck所对应的突发事件,根据步骤s101所构建的各个领域类别知识图谱gn所涵盖的文本数据,计算突发短语簇ck中每个突发短语v在各个领域类别知识图谱gn上的tf-idf得分score(v,n),再进行求和得到突发短语簇ck所对应突发事件在各个领域类别知识图谱gn上的tf-idf得分score(k,n):
s5:预先设定tf-idf得分阈值对于突发短语簇ck所对应的突发事件,如果其在领域类别知识图谱gn上的tf-idf得分score(k,n)大于阈值则将该突发事件标记为该领域类别,从而确定事件的标记和分类。
2.根据权利要求1所述的自动化事件标记与分类方法,其特征在于,所述步骤s3中文本集合相似度采用tf-idf相似度,计算方法包括以下步骤:
1)分别对两个文本集合进行分词,对得到的两个单词集合进行合并得到单词集合φ;
2)对于单词集合φ中的每个单词,分别计算该单词在两个文本集合中的tf-idf值pi,1、pi,2,i=1,2,…,|φ|,|φ|表示单词集合φ中单词数量;
3)根据每个单词的tf-idf值构建得到每个文本集合对应的tf-idf向量p1=(p1,1,p2,1,…p|φ|,1)、p2=(p1,2,p2,2,…p|φ|,2);
4)计算两个文本集合对应的tf-idf向量之间的余弦相似度,即作为文本集合之间的相似度。
3.根据权利要求1所述的自动化事件标记与分类方法,其特征在于,所述步骤s3中突发短语的聚类采用jarvis-patrick聚类算法。
技术总结本发明公开了一种基于知识图谱的自动化事件标记与分类方法,构建所需的领域类别的知识图谱,爬取预设时间窗口内的社交媒体中发布的各个文本数据,提取关键短语并筛选得到突发短语,对突发短语进行聚类得到突发短语簇,每个突发短语簇即为时间窗口内的一个突发事件,然后计算突发事件对应突发短语在各个知识图谱上的TF‑IDF得分,求和得到突发事件在各个知识图谱上的TF‑IDF得分,如果大于预设阈值,则将对应事件标记为该领域类别,从而确定事件的标记和分类。本发明通过对社交媒体中文本数据进行突发短语筛选和聚类,自动确定突发事件,然后再计算突发事件在各个领域类别知识图谱上的TF‑IDF得分,实现对社交媒体事件的自动化精确标记与分类。
技术研发人员:王晓玲;赵鑫;袁佳豪;王韵弘
受保护的技术使用者:华东师范大学
技术研发日:2020.12.07
技术公布日:2021.03.12