一种基于修改文本反馈的多模态图像检索方法

    专利2025-05-20  18


    本发明涉及多模态图像检索,具体而言,尤其涉及一种基于修改文本反馈的多模态图像检索方法。


    背景技术:

    1、图像检索一直是计算机视觉领域的核心内容。构建图像检索系统最具挑战性的一个方面是准确理解用户意图的能力。然而,大多数图像搜索引擎要么基于图像到图像的匹配,要么基于图像与文本的匹配。这些方法的内在缺点在于无法根据用户的意图优化检索到的项目,尤其是当用户无法通过单个图像或所有关键字精确描述其意图时,单一模态检索越来越难以满足人们的需要。

    2、模态是指人接受信息的特定方式。由于多媒体数据往往是多种信息的传递媒介(例如一段视频中往往会同时使得文字信息、视觉信息和听觉信息得到传播),多模态学习(multimodal deep learning)已逐渐发展为多媒体内容分析与理解的主要手段,国内外研究者也逐步在多模态学习领域取得了显著的研究成果。

    3、早期的多模态组合图像检索经常是采用传统cnn进行特征提取,这种方式在单一特定领域具有一定优势,但扩展性和多场景适应性很差。随着基于transformer的预训练模型的提出,预训练模型在包括多模态组合图像检索等诸多下游任务都取得了令人惊喜的结果。通过采用预训练大模型微调的方式,可以有效解决传统cnn领域单一,扩展性差的问题。现有技术依然存在的技术问题为:

    4、1.如何使预训练模型契合多模态的特征可加性,进行多模态图像检索任务;

    5、2.如何增强修改文本与参考图像的语义相关性,使得模型可以根据修改文本的补充语义,更准确地找寻目标图像。


    技术实现思路

    1、根据上述提出的技术问题,提供一种基于修改文本反馈的多模态图像检索方法。本发明通过将参考图像特征与修改文本特征相融合为组合特征,并度量组合特征与目标图像特征的距离,对目标的图像进行预测。

    2、本发明采用的技术手段如下:

    3、一种基于修改文本反馈的多模态图像检索方法,包括:

    4、s1、选择目标图像集,获取参考图像,并利用clip图像编码器提取参考图像特征;

    5、s2、输入修改文本,并利用clip文本编码器提取修改文本特征,并将参考图像特征和修改文本特征输入至特征组合器;

    6、s3、对输入特征组合器的特征进行特征增强,并进行特征融合,得到组合特征;

    7、s4、提取候选图像集的特征,并与组合特征进行相似度计算,将相似度前50的图像划分为高置信度目标图像,根据相似度大小对高置信度目标图像进行排名,并将置信度最高的图像作为新的参考图像;

    8、s5、判断新的参考图像的相似度值是否达到设定的相似度阈值,若新的参考图像的相似度值达到设定的相似度阈值,则将新的参考图像作为最终目标图像;若新的参考图像的相似度值没有达到设定的相似度阈值,则再次补充修改文本,重复执行步骤s1至步骤s4进行多次匹配,且每次匹配前,降低非高置信度目标图像的本次相似度计算的置信系数,直到相似度排名前五十的高置信度目标图像中出现一个达到相似度阈值要求的图像。

    9、进一步地,所述clip图像编码器和所述clip文本编码器根据clip特征提取网络构建检索模型,提取参考图像特征和修改文本特征。

    10、进一步地,所述根据clip特征提取网络构建检索模型包括对clip特征提取网络进行修改,clip特征提取网络包括图像特征提取网络和文本特征提取网络,修改是在图像特征提取网络和文本特征提取网络中加入双重注意力特征融合模块dafm,并通过两阶段的微调训练方式,使clip特征提取网络契合多模态图像检索任务,将检索模型命名为两阶段训练双重注意力组合图像检索模型,简称tp_daf,具体包括:

    11、第一阶段:clip图像编码器保持冻结状态,利用对比损失函数微调clip文本编码器,并使用简单加和的方式进行特征融合,破坏图像文本嵌入空间的对称性,便于后续的特征融合;

    12、第二阶段:冻结clip权重,重新训练图像文本特征增强融合模块mda,双重注意力特征融合模块dafm对文本特征进行特征增强并进行图像文本的特征融合。

    13、进一步地,所述步骤s1中还包括对参考图像进行预处理的过程,包括:

    14、调整图像尺寸,将图像的较小的一面与clip输入尺寸的输入dim相匹配;

    15、中心裁剪,得到一个正方形的patch输入dim ×输入dim输出;

    16、零填充操作,将较小的一面与较大的一面相匹配,即对图像进行平方。

    17、进一步地,所述步骤s2中,输入的修改文本基于参考图像的修改反馈文本,还包括对clip文本编码器进行微调的过程,具体为:

    18、使用clip文本编码器从训练三元组中提取特征,将查询特性与简单的元素求和结合起来,后跟l2normalization,借助以组合特征和目标特征为输入的对比损失,更新clip文本编码器的权重。

    19、进一步地,所述步骤s3中,是通过设计一种基于双重注意力通道的方式将图像特征和文本特征进行组合,具体步骤如下:

    20、将经过第一层注意力增强后得到特征v*分别进入g,i两个通道,在g,i两个通道中,将一级注意力特征v*与文本特征t进行双重文本拼接操作,将拼接向量与权重矩阵进行矩阵乘法操作,所得结果加上偏移矩阵即为最终的特征融合矩阵,通过双重注意力机制进行特征增强建模的过程如下:

    21、

    22、

    23、

    24、

    25、其中, q表示参考图像特征, k表示文本特征, d为常量值, softmax为归一化操作, v表示参考图像特征, v*表示经过第一层注意力增强后的特征, vc表示第二层注意力结果。

    26、较现有技术相比,本发明具有以下优点:

    27、1、本发明提供的基于修改文本反馈的多模态图像检索方法,通过将参考图像特征与修改文本特征相融合为组合特征,并度量组合特征与目标图像特征的距离,对目标的图像进行预测。

    28、2、本发明提供的基于修改文本反馈的多模态图像检索方法,通过两阶段微调clip文本编码器以及双重注意力特征融合模块dafm,提高了基于文本修改反馈的组合图像检索的准确性。

    29、3、本发明提供的基于修改文本反馈的多模态图像检索方法,设置了置信系数,允许进行多次文本补充,让用户更加方便地找到符合自身意图的目标图像。

    30、基于上述理由本发明可在多模态图像检索等领域广泛推广。



    技术特征:

    1.一种基于修改文本反馈的多模态图像检索方法,其特征在于,包括:

    2.根据权利要求1所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,所述clip图像编码器和所述clip文本编码器根据clip特征提取网络构建检索模型,提取参考图像特征和修改文本特征。

    3.根据权利要求2所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,所述根据clip特征提取网络构建检索模型包括对clip特征提取网络进行修改,clip特征提取网络包括图像特征提取网络和文本特征提取网络,修改是在图像特征提取网络和文本特征提取网络中加入双重注意力特征融合模块dafm,并通过两阶段的微调训练方式,使clip特征提取网络契合多模态图像检索任务,将检索模型命名为两阶段训练双重注意力组合图像检索模型,简称tp_daf,具体包括:

    4.根据权利要求1所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,步骤s1中还包括对参考图像进行预处理的过程,包括:

    5.根据权利要求1所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,步骤s2中,输入的修改文本基于参考图像的修改反馈文本,还包括对clip文本编码器进行微调的过程,具体为:

    6.根据权利要求1所述的一种基于修改文本反馈的多模态图像检索方法,其特征在于,步骤s3中,是通过设计一种基于双重注意力通道的方式将图像特征和文本特征进行融合,具体步骤如下:


    技术总结
    本发明提供一种基于修改文本反馈的多模态图像检索方法,属于多模态图像检索技术领域,包括:选择目标图像集,获取参考图像,利用CLIP的图像编码器提取参考图像特征;输入修改文本,利用CLIP的文本编码器提取修改文本特征,将参考图像特征和修改文本特征输入至特征组合器进行特征融合,得到组合特征;提取候选图像集的特征,与组合特征进行相似度计算,将相似度前50的图像划分为高置信度目标图像,根据相似度大小对高置信度目标图像进行排名,将置信度最高的图像作为新的参考图像,根据设定的相似度阈值判断是否需要再次补充修改文本,直至找到目标图像。本发明还提出了基于两阶段训练和双重注意力的组合图像检索模型,来提升检索准确性。

    技术研发人员:宁博,李怀清,赵彬,董静阳
    受保护的技术使用者:大连海事大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-86976.html

    最新回复(0)