本发明涉及多模态图融合学习,特别是一种基于boolean乘的多模态图融合学习方法及系统。
背景技术:
1、随着科技的发展,多模态数据(例如图像、文本、和语音)的广泛应用使得多模态图融合成为研究的热点之一。图神经网络(gnn,graph neural networks)是目前处理图数据的最有效的方法之一。gnn善于捕捉图数据中的局部邻居关系,但在多模态图数据中,不同模态之间的关系可能更为复杂。gnn难以有效地处理模态之间的跨模态关联,导致在整合多模态信息时性能受到限制。而且gnn基于图结构进行节点更新,但在多模态情况下,不同模态的数据可能具有异构性,节点之间的联系可能更加复杂。gnn难以灵活地适应多种类型的模态数据,导致模型的泛化性较差。
2、基于此限制,kazi提出了可微图模块(dgm,differentiable graph module)模型,采用欧氏距离来学习节点之间的图结构,利用特征矩阵的节点间距离,更关注于节点之间的相对位置,能够捕获更细粒度的信息。然而,在多模态图数据中,图结构可能是动态变化的,不同模态之间的关系可能经常变化。dgm在捕捉图结构动态性方面相对不足。且dgm通过欧氏距离学习节点之间的关系,但在多模态情况下,不同模态可能具有不同的度量尺度和特征空间,dgm在处理异构模态数据时的建模能力相对受限,可能无法有效地融合异构模态的信息。
3、因此越来越多的学者开始注重多模态图的融合技术,但仍存在一些不足之处,限制了其在实际应用中的进一步发展。这些不足之处强调了当前多模态图融合技术的挑战和改进空间,促使学者们进一步研究和发展更为高效、鲁棒和通用的多模态图融合方法。
技术实现思路
1、为解决现有技术中存在的问题,本发明的目的是提供一种基于boolean乘的多模态图融合学习方法及系统,本发明增强了在融合模态关系后模型的表达能力。
2、为实现上述目的,本发明采用的技术方案是:一种基于boolean乘的多模态图融合学习方法,包括以下步骤:
3、步骤1、图嵌入:利用图神经网络的特征嵌入层,将节点特征和邻接矩阵映射为降维后的表示;
4、步骤2、图学习:对隐藏图结构进行推断;
5、步骤3、图融合:将推断出的隐藏图与初始的图进行boolean乘融合;
6、步骤4、图特征学习:对融合后的图结构进行图特征学习。
7、作为本发明的进一步改进,所述步骤1具体如下:
8、通过学习权重和应用非线性变换,将高维特征映射到低维空间;同时,聚合邻居节点信息以强调节点关联性,整合节点特征和邻接矩阵两方面信息得到每个节点在降维后的特征表示。
9、作为本发明的进一步改进,在步骤2中,对于推断得到的隐藏图,在观测到多模态图时替换为观测到的图。
10、作为本发明的进一步改进,在步骤2中,对图结构进行推断具体包括以下方法:
11、(1)无明确边关系的节点:假设图中的所有节点都是全连接的;
12、(2)注意力图神经网络:引入了对边权重的灵活建模,赋予节点之间边的不同权重;
13、(3)图结构推断:根据各类距离度量或相似性度量来衡量节点之间的关系,得到离散的二进制邻接矩阵。
14、作为本发明的进一步改进,所述步骤3具体如下:
15、通过描述节点相邻关系的矩阵构建图的固有结构ainherent∈{0,1}n*n,其中n为图的节点数,利用欧式距离计算节点特征矩阵中各节点特征之间的距离,生成推断得到的图结构矩阵alearned,将两种模态的图进行boolean乘:
16、
17、其中,anew为boolean乘融合后的新的邻接矩阵,表示二进制矩阵的boolean乘,∨和∧分别是逻辑或和逻辑与运算符,[ainherent]i,k和[alearned]k,j为矩阵取下标运算,其中i,k和k,j为矩阵下标;boolean乘采用三角运算的原则对固有图结构矩阵和学到的图结构矩阵进行矩阵相乘运算;boolean乘相当于三角连接检测运算,实现两个模态图之间关系的相互影响和整合,形成新的融合图。
18、作为本发明的进一步改进,在步骤3中,当观测数据为多模态数据时,即涉及到来自不同数据模态的信息时,假设b,c∈{0,1}n×n是观测于其它不同模态的图的邻接矩阵或者由两个观测到的不同模态的图进一步直接演化出来的图;则可以不同模态图进行直接的boolean图融合:
19、
20、其中anew为多模态图数据融合的新图数据结构。
21、作为本发明的进一步改进,所述步骤4具体如下:
22、将原始图的特征矩阵表示为推断后得到的特征矩阵表示为然后,通过将这两个特征矩阵进行融合操作,得到新的特征矩阵x;最后,利用x进行进一步的特征更新:
23、
24、其中,表示推断图时得到的特征矩阵,表示进行特征更新时得到的特征矩阵,com表示特征融合函数,x为更新后的特征。
25、本发明还公开了一种基于boolean乘的多模态图融合学习系统,包括:
26、图嵌入模块:用于利用图神经网络的特征嵌入层,将节点特征和邻接矩阵映射为降维后的表示;
27、图学习模块:用于对隐藏图结构进行推断;
28、图融合模块:用于将推断出的隐藏图与初始的图进行boolean乘融合;
29、图特征学习模块:用于对融合后的图结构进行图特征学习。
30、本发明的有益效果是:
31、本发明使用boolean乘法的三角运算原则,将多模态图结构融合,捕捉复杂模态关系并处理异构性;通过考虑模态相对关系和全局拓扑结构,提高了多模态数据表示的一致性和丰富性;对于图像等异构模态数据的联合建模,提供了新颖、灵活和强大的学习框架;引入boolean乘的三角运算原则增强了在融合模态关系后模型的表达能力。
1.一种基于boolean乘的多模态图融合学习方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于boolean乘的多模态图融合学习方法,其特征在于,所述步骤1具体如下:
3.根据权利要求1所述的基于boolean乘的多模态图融合学习方法,其特征在于,在步骤2中,对于推断得到的隐藏图,在观测到多模态图时替换为观测到的图。
4.根据权利要求1所述的基于boolean乘的多模态图融合学习方法,其特征在于,在步骤2中,对图结构进行推断具体包括以下方法:
5.根据权利要求1所述的基于boolean乘的多模态图融合学习方法,其特征在于,所述步骤3具体如下:
6.根据权利要求1或5所述的基于boolean乘的多模态图融合学习方法,其特征在于,在步骤3中,当观测数据为多模态数据时,即涉及到来自不同数据模态的信息时,假设b,c∈{0,1}n×n是观测于其它不同模态的图的邻接矩阵或者由两个观测到的不同模态的图进一步直接演化出来的图;则可以不同模态图进行直接的boolean图融合:
7.根据权利要求6所述的基于boolean乘的多模态图融合学习方法,其特征在于,所述步骤4具体如下:
8.一种基于boolean乘的多模态图融合学习系统,其特征在于,包括: