本申请涉及图处理,具体而言,涉及一种图数据的文本描述生成方法、装置、存储介质及电子设备。
背景技术:
1、图(grraph)是一种抽象数据类型,其数据结构包括一个有限的集合作为节点集合,以及一个无序对或者有序对的集合作为边。当前生活中,大量的数据都是以图结构形式存在的,如社交网络数据、蛋白质结构数据等。不同于普通的文本、图像等数据,图所描述的信息逻辑复杂、内容多样。因此,对其进行整体描述需要较强的专业性和时间消耗,影响了对图的理解和传播。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种图数据的文本描述生成方法、装置、存储介质及电子设备,以至少解决相关技术无法快速、准确地对图数据进行文本描述的技术问题。
2、根据本申请实施例的一个方面,提供了一种图数据的文本描述生成方法,包括:获取待描述的目标图数据;利用预训练的目标图转文模型对目标图数据进行转换,得到目标图数据对应的目标文本描述,其中,目标图转文模型是由多组样本数据对初始图转文模型迭代训练所得,每组样本数据中包括:图数据样本及对应的文本描述标签,且文本描述标签是由目标对象对图数据样本进行描述所得的第一文本描述以及基于图数据样本的中心性信息所得的第二文本描述所确定的。
3、可选地,目标图转文模型的训练过程包括:确定初始图转文模型,其中,初始图转文模型包括:基于图神经网络的编码器、基于transformer架构的解码器;获取多组样本数据;将每组样本数据依次输入至初始图转文模型中进行迭代训练,得到目标图转文模型。
4、可选地,获取多组样本数据,包括:获取多个图数据样本;对于每个图数据样本,获取目标对象对图数据样本进行描述的第一文本描述;对图数据样本进行中心性分析,得到中心性信息,并依据预设的文本描述模板和中心性信息生成第二文本描述;利用大语言模型对第一文本描述和第二文本描述进行信息整合,得到对应的文本描述标签;由多个图数据样本以及每个图数据样本对应的文本描述标签组成多组样本数据。
5、可选地,将每组样本数据依次输入至初始图转文模型中进行迭代训练,得到目标图转文模型,包括:对于每组样本数据,通过编码器对图数据样本进行特征提取,得到对应的图嵌入表示,并利用解码器对图嵌入表示进行解码,得到对应的预测文本描述;采用预设的文本相似度法确定各组样本数据内的文本描述标签及预测文本描述之间的文本相似度,并基于文本相似度确定损失函数;依据损失函数对初始图转文模型的模型参数进行调整,得到目标图转文模型。
6、可选地,通过编码器对图数据样本进行编码,得到对应的图嵌入表示,包括:确定图数据样本内的多个图节点,并确定各个图节点的节点嵌入表示;基于多个图节点的节点嵌入表示的均值确定图数据样本对应的图嵌入表示。
7、可选地,利用解码器对图嵌入表示进行解码,得到对应的预测文本描述,包括:利用解码器对图嵌入表示进行处理,得到第一个预测字;重复利用解码器对上一个预测字和图嵌入表示进行处理,得到当前预测字;将多个当前预测字按照解码器的输出顺序依次进行组合,得到预测文本描述。
8、可选地,文本相似度法方法包括以下至少之一:基于余弦相似度的文本相似度法、基于jaccard相似度的文本相似度法、基于海明距离的文本相似度法。
9、根据本申请实施例的另一方面,还提供了一种图数据的文本描述生成装置,包括:获取模块,用于获取待描述的目标图数据;文本生成模块,用于利用预训练的目标图转文模型对目标图数据进行转换,得到目标图数据对应的目标文本描述,其中,目标图转文模型是由多组样本数据对初始图转文模型迭代训练所得,每组样本数据中包括:图数据样本及对应的文本描述标签,且文本描述标签是由目标对象对图数据样本进行描述所得的第一文本描述以及基于图数据样本的中心性信息所得的第二文本描述所确定的。
10、根据本申请实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,非易失性存储介质所在设备通过运行该计算机程序执行上述的图数据的文本描述生成方法。
11、根据本申请实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的图数据的文本描述生成方法。
12、在本申请实施例中,获取待描述的目标图数据;利用预训练的目标图转文模型对目标图数据进行转换,得到目标图数据对应的目标文本描述,其中,目标图转文模型是由多组样本数据对初始图转文模型迭代训练所得,每组样本数据中包括:图数据样本及对应的文本描述标签,且文本描述标签是由目标对象对图数据样本进行描述所得的第一文本描述以及基于图数据样本的中心性信息所得的第二文本描述所确定的。
13、在上述技术方案中,通过图数据样本,以及采用目标对象对图数据样本进行描述所得的第一文本描述以及基于图数据样本的中心性信息所得的第二文本描述所确定的文本描述标签训练所得的图转文模型,可以提升模型描述的准确性和多样性,实现高效、准确地利用图转文模型生成图数据对应的文字描述,进而解决了相关技术无法快速、准确地对图数据进行文本描述技术问题。
1.一种图数据的文本描述生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述目标图转文模型的训练过程包括:
3.根据权利要求2所述的方法,其特征在于,获取多组所述样本数据,包括:
4.根据权利要求2所述的方法,其特征在于,将每组所述样本数据依次输入至所述初始图转文模型中进行迭代训练,得到所述目标图转文模型,包括:
5.根据权利要求4所述的方法,其特征在于,通过所述编码器对所述图数据样本进行编码,得到对应的图嵌入表示,包括:
6.根据权利要求4所述的方法,其特征在于,利用所述解码器对所述图嵌入表示进行解码,得到对应的预测文本描述,包括:
7.根据权利要求4所述的方法,其特征在于,所述文本相似度法方法包括以下至少之一:基于余弦相似度的文本相似度法、基于jaccard相似度的文本相似度法、基于海明距离的文本相似度法。
8.一种图数据的文本描述生成装置,其特征在于,包括:
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的图数据的文本描述生成方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的图数据的文本描述生成方法。
