本发明涉及高维生物信息学数据处理领域,尤其是涉及一种基于深度流形学习的多模态组学数据的多任务表征处理方法、装置及介质。
背景技术:
1、目前的生物技术可以同时从同一组细胞中测量多个高维度的模态,它们相互补充,共同发挥作用。因此,整合不同组学数据对应的多模态信息是全面表征细胞结构/生理的前提与关键。近年来单细胞空间转录组学技术(例如,10x visium、slideseq、slideseqv2和stereo-seq等)的发展使得生物学家可以同时在一个细胞中测得不同的模态信息(例如,基因表达、形态学图像和空间位置坐标)。有了对同一个系统的不同模态的认识,可以进一步加深对重要生命组织结构的理解,比如大脑、胚胎等。单细胞空间转录组多模态数据整合的常见范式是通过每个模态特有的编码器,将来自不同特征空间的数据投影到低维空间进行组合,并基于无监督损失函数进行模型优化。但是这些方法(例如stsme、spagcn、deepst、stagate和graphst等)都有一个共同的局限,他们没有考虑到不同模态之间的分辨率是不同的,比如海马体、大脑皮层在形态学图像上可以展示出更细致具体的结构,而在基因表达上差异相对较小。因此,在整合过程中,低分辨率的基因表达空间会影响高分辨的形态学空间,从而损失这些模态特异性的信息。换言之,这些不同模态之间会相互掣肘,而不是共同促进。
2、在实际应用中,迫切需要一种能够均衡兼顾不同模态信息,以充分利用不同模态数据中潜在的重要信息,又能适用于多种应用场景的空间转录组多模态数据融合方法,例如可视化、聚类、轨迹推断和标记基因识别等。
技术实现思路
1、本发明的目的就是为了提供一种基于深度流形学习的多模态组学数据的多任务表征处理方法、装置及介质,模态融合网络在进行多模态融合时优先考虑流形结果保留,具备多模态数据图结构保留学习的功能,可以提高数据降维的质量。
2、本发明的目的可以通过以下技术方案来实现:
3、一种基于深度流形学习的多模态组学数据的多任务表征处理方法,包括:
4、基于各模态的原始数据分别提取得到对应于各模态数据的表征向量和图结构;
5、基于得到的对应于各模态数据的表征向量和图结构,通过模态融合网络进行多模态数据融合得到融合表征向量,其中,所述模态融合网络的总损失函数至少包括流形结构保留损失函数;
6、基于融合表征向量,进行数据降维和可视化。
7、所述基于各模态的原始数据分别提取得到对应于各模态数据的表征向量和图结构,包括:
8、对各模态的原始数据进行数据增强处理;
9、基于增强处理后的各模态的原始数据构建得到对应于各模态的图结构;
10、基于提取的对应于各模态数据的图结构,采用图信息融合网络进行图邻域信息融合得到对应于各模态的表征向量。
11、所述对各模态的原始数据进行数据增强处理中,具体为采用通过邻域内数据插值的方式生成新数据实现增强,增强的后数据为:
12、
13、
14、其中:x+为增强后的数据,ru为增强的强度系数,x为原始数据,为原始数据的一跳邻域内的邻居,hop1(x,e)为数据x在边集e上直接相连(即距离一跳)的邻居,u(0,pu)为均匀分布,pu为的参数。
15、各模态的表征向量的数学表达式为:
16、ym=gnnθ(xm,ep)
17、其中:ym为模态m的表征向量,xm为经过数据增强后的模态m的数据,ep为对应于模态m的图结构中数据点图邻域关系的表达向量,gnnθ为图信息融合网络。
18、所述融合表征向量的数学表达式为:
19、y=encπ(cat(yα,yβ))
20、其中:y为融合表征向量,yα为模态α的表征向量,yβ为模态β的表征向量,cat(·)为依次拼接的操作符,encπ为模态融合网络。
21、所述流形结构保留损失函数为:
22、z=mlpφ(y)
23、
24、
25、sij=κ(zi,zj)
26、其中:为流形结构保留损失函数,为,em为模态m的拓扑结构,y为融合表征向量,mlpφ是以为φ参数的多层感知机,用来提取潜空间表征向量z,为拓扑先验向量,sij为描述融合表征zi,zj的关系参数,κ(·)为核函数。
27、所述拓扑先验向量的数学表达式为:
28、
29、其中:为拓扑先验向量,为第i个数据和第j个数据之间的增强关系,如果则表示第j个数据是第i个数据增强后的数据,其余情况eα为自然底数e的α次方,α是参数,为第i个数据的融合表征向量,为第j个数据的融合表征向量。
30、所述总损失函数还包括模态强化损失函数,其中,所述总损失函数为:
31、
32、
33、其中:为总损失函数,为流形结构保留损失函数,λ为模态强化损失函数的系数,为模态强化损失函数,n为数据的数量,为数据i的特征向量,为与对应的从融合特征量重建的特征向量。
34、一种基于深度流形学习的多模态组学数据的多任务表征处理装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述的方法。
35、一种存储介质,其上存储有程序,所述程序被执行时实现如上述的方法。
36、与现有技术相比,本发明具有以下有益效果:
37、1、模态融合网络在进行多模态融合时优先考虑流形结果保留,具备多模态数据图结构保留学习的功能,可以提高数据降维的质量。
38、2、具备同时实现获取经过结构保留的模态融合表征向量、可视化下游分析和融合特征下游分析的功能。
39、3、可作为预训练模型实现多模态数据的可视化下游分析和融合特征下游分析。
1.一种基于深度流形学习的多模态组学数据的多任务表征处理方法,其特征在于,包括:
2.根据权利要求1所述的一种基于深度流形学习的多模态组学数据的多任务表征处理方法,其特征在于,所述基于各模态的原始数据分别提取得到对应于各模态数据的表征向量和图结构,包括:
3.根据权利要求2所述的一种基于深度流形学习的多模态组学数据的多任务表征处理方法,其特征在于,所述对各模态的原始数据进行数据增强处理中,具体为采用通过邻域内数据插值的方式生成新数据实现增强,增强的后数据为:
4.根据权利要求2所述的一种基于深度流形学习的多模态组学数据的多任务表征处理方法,其特征在于,各模态的表征向量的数学表达式为:
5.根据权利要求4所述的一种基于深度流形学习的多模态组学数据的多任务表征处理方法,其特征在于,所述融合表征向量的数学表达式为:
6.根据权利要求1所述的一种基于深度流形学习的多模态组学数据的多任务表征处理方法,其特征在于,所述流形结构保留损失函数为:
7.根据权利要求6所述的一种基于深度流形学习的多模态组学数据的多任务表征处理方法,其特征在于,所述拓扑先验向量的数学表达式为:
8.根据权利要求1所述的一种基于深度流形学习的多模态组学数据的多任务表征处理方法,其特征在于,所述总损失函数还包括模态强化损失函数,其中,所述总损失函数为:
9.一种基于深度流形学习的多模态组学数据的多任务表征处理装置,包括存储器、处理器,以及存储于所述存储器中的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被执行时实现如权利要求1-8中任一所述的方法。