本发明属于数据挖掘,具体涉及一种基于活动图的协作模式挖掘方法。
背景技术:
1、图模式挖掘的目的是发现隐藏在网络中的相关和有趣的模式,频繁子图挖掘和频繁项集挖掘是两种最常见的模式挖掘问题。在模式挖掘过程中,海量的数据集会导致挖掘效率低下,尤其是对于频繁子图模式挖掘来说,由于其存在刚性的拓扑结构约束以及复杂的同构测试,难以高效地捕获图中存在的大量模糊模式。此外,传统的频繁项集挖掘侧重于每个人的行为,由于缺乏结构和时间上的约束,忽略了社群之间的相互影响和互动模式。
2、早起的频繁项集挖掘主要包括先验算法与模式增长算法。近些年来,一些较为高效的频繁子图挖掘算法也被陆续提出,这些算法将各种约束合并到频繁子图的挖掘过程,利用约束的反单调性对搜索空间有效剪枝。
3、在连通的大图挖掘中,在计算支持度时会出现多个不同的嵌入出现重叠的现象,使得支持度不满足向下闭包的特性。因此,为了找到合适的支持度定义,逐渐衍生出了最大独立集算法进行支持度计数,有效地避免了重叠引起的不满足闭包的问题,又有该领域学者在此基础上对支持度计数方法作出了改进,发明了最小镜像算法以解决该问题。
4、但是,以上这些方法没有很好的利用属性信息去挖掘属性和结构之间的关联。而在21世纪初又有学者提出了一种结合了属性与结构的图挖掘方式,即在大图中进行一种邻近模式挖掘,其中邻近模式是在图中连接紧密并且频繁出现的一组标签集,并且考虑了标签中的传播特性。
5、公开号为cn116522016a的专利申请文件,公开了一种基于空间索引的频繁模式挖掘方法。通过构建一个地理社交网络的空间索引,用树形索引结构存储网络的地理位置信息和区域范围内的结构信息,将频繁模式挖掘工作的范围由完整图细化到了图中的某一个区域,通过比较不同区域的频繁模式可以帮助分析区域间用户的行为模式与社交偏好等特性的差异,但由于该申请中所定义的结构约束仅限于地理空间位置,并且在挖掘频繁模式时忽略了时间维度上的约束,从而导致挖掘出的频繁模式不能够完全精确地反映用户的行为模式,并且适用的范围也比较有限。
技术实现思路
1、为了克服上述现有技术的不足,本发明的目的在于提供一种基于活动图的协作模式挖掘方法,通过对典型协作模式的挖掘,来揭示数据在拓扑结构和时间维度的关联性,有效地捕捉多个实体之间协作行为的规律,运用此规律能够帮助企业或个体有针对性的开展一些业务,具有提升各行各业收益率的技术效果。
2、为了实现上述目的,本发明采取的技术方案是:
3、一种基于活动图的协作模式挖掘方法,包括以下步骤:
4、步骤1,根据实体之间的交互关系和实体上的动态属性数据,构建连通的活动图;
5、步骤2,从步骤1构建的活动图中提取用户活动数据,并从中提取所有属性,根据单一属性支持度阈值获取k-项协作模式集lk;
6、步骤3,基于先验原理,将步骤2获取的k-项协作模式集lk(k≥1)中的所有协作模式进行两两组合以生成候选(k+1)-项协作模式集c(k+1);
7、步骤4,从步骤3的候选(k+1)-项协作模式集c(k+1)中取出候选协作模式i,并嵌入到活动图中得到嵌入π,同时根据结构约束对嵌入π进行剪枝;
8、步骤5,根据时间约束对步骤4剪枝后的集合π构建活动集a(π),将候选协作模式i映射到活动集a(π)上得到集合φ,并根据时间约束对集合φ进行剪枝;
9、步骤6,对步骤5的集合φ中的出现进行支持度计数,并舍弃计数值低于最小支持度阈值的出现;
10、步骤7,令i=i+1,重复步骤4-步骤6,直至c(k+1)中的所有候选协作模式均被检查完毕,转步骤8;
11、步骤8,将所有的(k+1)-项协作模式构成的集合作为lk,令k=k+1,重复步骤3-步骤7,直至无法再得到任何协作模式,转步骤9;
12、步骤9,将挖掘出的所有协作模式作为本次协作模式挖掘的结果并输出。
13、所述步骤1的具体方法为:
14、根据实体之间的交互关系和实体上的动态属性数据,构建连通的活动图g(v,e,l),将每个实体作为一个结点v,每个实体之间的交互关系作为一条边e,将实体(结点v)上发生的活动表示为一个二元组a(v)=<l,t>,其中,l表示发生的事件标签,t表示事件发生的时间戳;每个实体触发的活动集表示为a(v)。
15、所述步骤2的具体方法为:
16、从步骤1构建的活动图中提取用户活动数据,并从中提取所有属性,对这些属性出现的次数进行统计,将计数值高于单一属性支持度阈值的属性进行保留,获取k-项协作模式集lk,其中,k代表模式集中每个协作模式含有的项数,k初值设为1,最终所有被保留的属性构成的集合即为1-项协作模式集l1。
17、所述步骤4的具体方法为:
18、步骤4,从步骤3的候选(k+1)-项协作模式集c(k+1)中取出候选协作模式i,将i映射至图g的结点集v中,得到若干嵌入构成的集合π,依次对集合π中的每一个嵌入进行结构约束检查,并将不符合结构约束的嵌入进行剪枝。
19、所述步骤5的具体方法为:
20、步骤5,对于步骤4剪枝后的集合π中的每一个嵌入π,令a(π)为π中所有的活动集,将候选协作模式i映射至活动集a(π)上,得到若干出现构成的集合φ,依次对集合φ中的每一个出现进行时间约束检查,并将不符合时间约束的出现进行剪枝。
21、所述步骤6的具体方法为:
22、步骤6,对步骤5的集合φ中的出现进行支持度计数,将符合时间约束和反单调性约束的出现数目进行统计,若计数值大于最小支持度阈值,则将候选协作模式i作为一个(k+1)-项协作模式,否则舍弃掉该候选协作模式。
23、所述步骤4中,在进行结构约束检查时,对步骤1所述活动图进行存在直径约束的图聚类,并根据聚类结果构建索引表。
24、与现有技术相比,本发明的有益效果为:
25、(1)传统频繁项集挖掘忽略了社群之间的相互影响,频繁子图模式挖掘难以避免同构测试,效率低下;而本发明将传统频繁项集挖掘与频繁子图模式挖掘进行了结合,在大图中进行挖掘时,先通过传统频繁项集挖掘算法来提取频繁的属性集,然后将属性集嵌入到大图中,并根据时空约束对不同构的频繁子图进行挖掘,最终得到具备规律的协作模式。
26、(2)传统的属性图模式挖掘往往忽略了时间的约束,没有考虑属性随时间变化的情况;而本发明将属性图中的每一个属性都与时间进行关联,建立了与时间、结构相关的频繁图模式挖掘框架。
27、(3)在大图的模式挖掘中,传统算法往往要消耗大量时空资源;而本发明创新性地提出了基于直径的图聚类算法和跨簇结点间距离快速计算的算法来大幅度降低模式挖掘所需的时空资源。
28、综上,本发明通过对一种全新的协作模式进行挖掘,揭示了数据在拓扑结构和时间维度的关联性,有效地捕捉多个实体之间协作行为的规律,运用此规律能够帮助企业或个体有针对性的开展业务,具有提升各行各业收益率的优点。
1.一种基于活动图的协作模式挖掘方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于活动图的协作模式挖掘方法,其特征在于:所述步骤1的具体方法为:
3.根据权利要求1所述的一种基于活动图的协作模式挖掘方法,其特征在于:所述步骤2的具体方法为:
4.根据权利要求1所述的一种基于活动图的协作模式挖掘方法,其特征在于:所述步骤4的具体方法为:
5.根据权利要求1所述的一种基于活动图的协作模式挖掘方法,其特征在于:所述步骤5的具体方法为:
6.根据权利要求1所述的一种基于活动图的协作模式挖掘方法,其特征在于:所述步骤6的具体方法为:
7.根据权利要求1所述的一种基于活动图的协作模式挖掘方法,其特征在于:所述步骤4中,在进行结构约束检查时,对步骤1所述活动图进行存在直径约束的图聚类,并根据聚类结果构建索引表。
