一种基于双数据增强的对比多视图深度融合聚类方法

    专利2025-12-04  2


    本发明涉及数据挖掘和机器学习,具体来说,涉及一种基于双数据增强的对比学习多视图深度融合聚类方法,主要应用领域包含社交网络、图像处理与识别、报文分析等。


    背景技术:

    1、多视图聚类研究已在社交网络、图像处理与识别、报文分析、网页分割等领域得到广泛应用。多视图学习又称多视角学习。现实中同一事物可以通过不同角度或途径进行描述,这就构成了该事物的多个视图。比如,一张图片可以用视频和颜色描述,网页可以用网页内容和超链接描述。而采集方式的不同也可以构成多个视图,比如,在地貌勘测中全站仪、无人机和扫描仪测得数据构成不同视图。

    2、现实中存在大量未被标记的数据,亟需设计无监督的聚类方法挖掘这些数据信息,创造应用价值。但是不同视图下的图聚类质量良莠不齐,视图信息的提取效果不佳。相比于单视图数据,多视图数据具有一致性和互补性。一致性是视图间的共性信息,确保所有视图的整体表达趋于一致;互补性是指区分不同视图间的个性信息。所以,多视图聚类的一个重要挑战是如何利用多视图数据的一致性和互补性来提升多视图聚类的质量。

    3、图对比学习具有强大的监督学习能力,大量基于图对比学习的多视图学习被提出。例如e .pan和z .kang在proceedings of the 35th conference on neuralinformation processing systems.2021,pp.2148-2159.上的论文 multi-viewcontrastive graph clustering提出使用图滤波去除高频噪声,保留几何特征,通过图对比损失得到一致性视图。b .li, b .jing, h .tong在 proceedings of the 22nd acmweb conference,2022, pp.1203-1213.的论文graph communal contrastive learning通过图对比局部多视图聚类模型以探索聚类内一致性和视图间一致性。y.wang, d .chang,z .fu在ieee transactions on multimedia.2023,pp.14-25上的论文graph contrastivepartial multi-view clustering通过最大化对视图的相似度来保证多视图的一致性。以上基于图对比学习的多视图聚类算法较为灵活多变。以图对比学习的方式学习多视图的特征表示,对于多视图所提供的丰富信息的学习较为充分,但是缺乏同时学习多视图一致性信息,并且利用学习到的互补性信息进行多视图协同聚类的方法,多视图互补信息的缺失仍旧会影响多视图整体表示的全面性,从而不能进一步提升聚类结果。

    4、综合以上信息,多视图的特征信息提取及特征表示依旧是多视图聚类的重要任务之一,无论数据形式如何,良好的特征表示无疑能够极大提升聚类结果的可靠性。除此以外,现代数据爆炸式增长,由于调查方式不当、技术限制和节约空间等因素,数据稀疏是常见的问题,稀疏数据并非无用,只不过是信息不全,需要通过适当的手段挖掘出有用信息。如何利用多视图的信息特性增强聚类结果,减少多视图数据本身缺陷(数据缺失、噪声等)带来的数据影响,缓解高维数据的稀疏性也是多视图聚类任务的重要挑战。为了解决以上问题,提出一种基于双数据增强的对比多视图深度融合聚类算法。该方法同时考虑到结构和特征信息的增强,捕获视图间的互补性和一致性,集成并融合视图间的信息,在文本挖掘、社交网络领域可以提高聚类效果。


    技术实现思路

    1、本发明为解决现有技术中存在的上述问题,提出一种基于双数据增强的对比多视图深度融合聚类算法,可以有效应用于文本挖掘、社交网络等领域,适用于处理高维稀疏的无监督多视图数据,融合视图间信息,提高聚类效果。该方法通过多视图的结构增强和特征增强,提出用多视图卷积融合模块捕获视图之间的互补性和一致性,进行视图间的深度融合,最后用双重自监督模块联合优化,提升聚类结果。

    2、本发明提供的一种基于双数据增强的对比多视图深度融合聚类方法包括如下步骤:

    3、步骤一:从数据集中获取总体增强图和增强后的特征向量;

    4、步骤a1:定义数据集中共有个关系视图,第个视图的邻接矩阵,,首先采用()方法对各个视图进行图增强,得到各个视图的增强图矩阵,处理方式:

    5、;

    6、;

    7、;

    8、其中,为第个视图的邻接矩阵添加单位矩阵,为第个视图的对角度矩阵,为第个视图第行对角线位置的值,等于对应视图邻接矩阵第行所有元素的和,为增强图的扩散率,设置扩散率,表示以0.2的比例扩增各视图的邻接矩阵;

    9、步骤a2:对各视图的增强图进行合并操作,得到总体的增强图矩阵:

    10、;

    11、步骤a3:对各视图的邻接矩阵进行合并操作,得到总体的邻接矩阵:

    12、;

    13、步骤a4:对于节点特征增强,随机采样一个掩码向量,以隐藏节点特征中的一部分维度,掩码中的每个元素都从伯努利分布中采样,其中超参数是丢弃概率,同样设置为,增强节点特征表示如下:

    14、;

    15、步骤二:对总体增强图和增强后的特征向量进行子采样,分批次输入对比编码器,得到节点表示和图表示,通过双尺度自注意力机制后,输送至一个双线性判别器学习多视图的一致性信息表达,最大化局部和全局的互信息;

    16、步骤b1:取相同节点位置的邻接矩阵和增强矩阵,分4个批次输入至模型中;采用两个不同的图卷积网络分别学习原图的特征以及增强图的特征,得到来自原图的节点表示和来自增强图的节点表示:

    17、;

    18、;

    19、;

    20、;

    21、;

    22、其中,是完整视图的关系矩阵,为单位矩阵,为对角度矩阵,第行对角线上的值等于中第行所有元素和,为对称归一化邻接矩阵,为初始节点特征,为完整视图下的网络参数,为增强图下的网络参数,为对比层数;

    23、步骤b2:将学习到的节点表示被输入到一个共享的readout函数中,输出两个全等视图和,为来自原图的图表示,为来自增强图的图表示,

    24、;

    25、;

    26、步骤b3:对得到的节点表示和图表示通过双尺度自注意力机制;

    27、对于任一节点表示中的节点,即中的第行,由表示,记节点的相邻节点为,以节点的邻居节点为例,权重:

    28、;

    29、;

    30、其中,的自注意力值经过非线性变换获得,为初始化过的权重矩阵,为节点的邻居节点的表示,t为转置,为偏置向量,越大,即权重越大,说明此邻居节点的表示对于中心节点越重要;最后采用激活函数将权重映射至0-1之间,可以在不同的节点之间比较权重的大小;

    31、在获得所有邻居节点的权重值后,更新中心节点的表示:

    32、;

    33、其中,表示中心节点的第个邻居节点自适应学习得到的权重;为邻居节点的特征表示;分别对原图和增强图的节点表示和重复该过程,可得经节点自注意力表达后的原图与增强图的节点表示和;

    34、学习图表示时,由于数据分布的不同,在使用传统的均值聚合时,容易受到离群点的影响,学习到的图表示过于脆弱,不宜于提升后续的整体表达效果;而采用中值聚合则能够有效解决该问题,并更加聚焦于数据本身的分布,和均经过处理:

    35、;

    36、得到最终的图注意力表达和,其中n为节点数,是原图经过图自注意力机制后的图表示,是增强图经过图自注意力机制后的图表示;

    37、步骤b4:将经过注意力机制的节点和图表示被输送至一个双线性判别器学习多视图的一致性信息表达,最大化局部和全局的互信息;判别器从一个原视图接收节点表示,从另一个增强视图接收图表示,经过双线性处理后对一致性进行评分,使用梯度下降法更新图对比学习编码器中的参数最终取最优表达作为聚类任务的特征;

    38、;

    39、;

    40、其中是子采样的图数,是子采样的节点数,、代表不同视图的节点、节点,表示互信息;

    41、步骤b5:用重构损失评估重构后的视图和原始视图之间的差异:

    42、;

    43、步骤三:对节点特征进行低通滤波,滤除不需要的高频噪声,提高学习到的图特征的质量,获得平滑信号;

    44、首先处理多个视图的特征数据,个节点的特征可视为个维图信号,就基础图而言,一个自然的信号在附近的节点上应该是平滑的;平滑信号可以通过下面的优化问题来实现:

    45、;

    46、;

    47、其中,代表第个视图,是平衡参数,一般认为,是计算出的拉普拉斯矩阵,最终的可以通过关于求导并将其设为零来得到:

    48、;

    49、为了避免逆矩阵,此处采用的一阶泰勒展开:

    50、;

    51、特征图滤波可以滤除不需要的高频噪声,同时保留图中的几何特征,提高学习到的图特征的质量;

    52、步骤四:为每个视图设计个性化的图卷积网络,即在图卷积网络中,结合共用的节点特征数据,不同视图结构会过滤出对应视图关系下独特的节点信息;具体来说:个性化图卷积网络的输入是每个视图各自的结构信息和经过过滤的共享节点特征,各视图的深入学习自身特征:

    53、;

    54、其中,表示不同视图,,为当前数据集的关系视图数量,为隐藏层数,为不同视图网络的参数矩阵;不同的卷积网络为不同视图的互补性信息获取提供了渠道,重点捕捉了不同视图的结构特征;

    55、步骤五:设计多视图融合自注意力机制:视图节点自注意力机制,视图自注意力机制,得到视图内部的重要节点和不同视图的重要性:

    56、步骤c1:与步骤二中的步骤b3的节点注意力机制相同,得到不同节点的权重,即;

    57、分别对原图和增强图的节点表示和重复该过程,可得经节点注意力表达后的原图与增强图的节点表示和;

    58、步骤c2:为每个视图计算自注意力值,记第个视图的自注意力值为,

    59、;

    60、其中,为当前视图的权重矩阵,为偏置向量;

    61、得到第个视图的自注意力值后,类似于节点权重的学习,引入激活函数学习不同视图的权重:

    62、;

    63、为视图的权重值,体现了不同视图对于全部视图的重要性

    64、步骤六:完成视图间的交叉融合:学习不同视图权重后拓展式,向全部视图添加视图权重得到融合的表达:

    65、;

    66、其中,为不同视图的权重;代表视图交叉相乘,是第个视图经过层卷积后的嵌入特征;并非采用以往线性相加的方式融合不同视图的信息,而是采用多个视图深层信息的交叉相乘,每个视图相互传递个性化信息,形成视图间的信息交流;

    67、最后,融合表达与完整视图结合,得到富含个性化信息的视图综合表达:

    68、;

    69、其中,为融合网络的参数矩阵,则是在融合视图信息的基础上,结合完整视图,通过图卷积网络形成互补性信息的深度融合;

    70、步骤七:使用双重自监督模块将得到的表示联合优化,进行端到端的聚类训练任务,具体来说双数据增强的图对比编码器模块获得特征,通过k-means聚类后得到聚类结果,并根据学生分布计算聚类分布;再将分布提纯至二次,得到优化分布;多视图卷积融合模块得到目标分布;最后使用散度优化目标分布和聚类分布,二者更接近二次分布;聚类分布与p的kl散度计算,目标分布的计算方法和与的散度计算:

    71、;

    72、;

    73、;

    74、使用联合优化的方式更新整个算法,优化最终的聚类结果,故基于双数据增强的对比多视图深度融合聚类算法的损失函数:

    75、;

    76、其中,为平衡对比损失与重构损失的参数,和为控制嵌入空间扭曲程度的系数,根据以往实验得出的经验,本算法设置实验的,。

    77、本发明具有以下特点:(1)将结构上的单一增强方式扩展为结构-属性的双数据增强方式,构建结构-属性双数据增强的图对比编码器模块,充分挖掘高维稀疏数据的隐式特征,强化特征提取能力。(2)同时考虑视图的一致性和互补性,为每个视图设计独有的图卷积网络和视图间深度融合机制,深入学习不同视图的互补信息,促进不同视图的联合学习。(3)设计节点和视图自注意力机制,关注视图内部的节点对该视图的重要程度,衡量各视图的互补信息对完整视图的重要性。

    78、本发明应用到社交网络分割和文本挖掘等领域,利用视图一致性和互补性,搭建了数据增强与信息协同的桥梁,可充分服务于稀疏数据的特征表达,提高多视图聚类效果。


    技术特征:

    1.一种基于双数据增强的对比多视图深度融合聚类方法,其特征在于:该方法包括如下步骤:

    2.根据权利要求1所述的基于双数据增强的对比多视图深度融合聚类方法,其特征在于:步骤一中对高维稀疏数据进行结构增强的基础上,又进行特征增强,充分挖掘高维稀疏数据的隐式特征,强化特征提取能力:

    3.根据权利要求1所述的基于双数据增强的对比多视图深度融合聚类方法,其特征在于:步骤四中为每个视图设计个性化的图卷积网络,每个网络使用各自的结构信息和经过过滤的共享节点特征学习自身特征:

    4.根据权利要求1所述的基于双数据增强的对比多视图深度融合聚类方法,其特征在于:步骤五中设计多视图融合自注意力机制,得到视图内部的重要节点和不同视图的重要性,在步骤六中将各个视图的表示按照重要性进行融合,其计算方式如下:

    5.根据权利要求1所述的基于双数据增强的对比多视图深度融合聚类方法,其特征在于:使用双重自监督模块进行端到端的聚类训练任务,具体来说双数据增强的图对比编码器模块获得特征,通过k-means聚类后得到聚类结果,并根据学生分布计算聚类分布;再将分布提纯至二次,得到优化分布;多视图卷积融合模块得到目标分布;最后使用散度优化目标分布和聚类分布,二者更接近二次分布;聚类分布与p的kl散度计算,目标分布的计算方法和与的散度计算。


    技术总结
    本发明公开了一种基于双数据增强的对比多视图深度融合聚类算法,该方法对数据进行多视图的结构增强和特征增强,通过图对比学习编码器提取图结构信息和节点信息,学习数据的共性信息和个性信息;设计双尺度自注意力机制,在节点级关注不同节点的重要程度,在整体图上,提升图表示的稳定性,促进了多视图一致性信息的有效提取;通过图神经网络更加深入的捕获各个视图的个性信息,在进行视图间的深入融合,再在节点和视图上使用自注意力机制,捕获重要视图和重要节点;最后,应用双重自监督模块联结了双数据增强的图对比编码器模块以及多视图卷积融合模块,将二者的表示联合优化,共同提升聚类结果。

    技术研发人员:董永峰,李英双,张佳雪,邓亚晗,任梓瑜,陈雨濛,魏欣欣
    受保护的技术使用者:河北工业大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-92481.html

    最新回复(0)