基于涂鸦提示编码大模型的交互式自动化标注系统及方法

    专利2025-12-08  7


    本发明属于计算机视觉领域,涉及一种基于涂鸦提示编码大模型的交互式自动化标注系统及方法。


    背景技术:

    1、作为计算机视觉领域的重要任务之一,图像分割旨在根据一定特征将图像划分成若干个互不相交的区域,使得这些特征在同一区域表现出一致性或相似性。在工业界,图像分割广泛应用于医学影像分析(病变组织探测及边界提取)、自动驾驶(可导航表面及行人检测)、遥感图像处理(农业检测、地物分类)和安防监控等领域。然而,现有的多数分割模型通常是针对特定目标场景量身定制的,这限制了它们进一步推广到不同领域分割任务的能力。

    2、如今在计算视觉领域,基于transformer的视觉大模型的出现使得研究人员能够在统一的框架中解决多类下游分割任务。在这些视觉大模型中“分割一切模型”segmentanything model(sam)尤为突出,这是一个在1100万张图像和10亿张掩码训练下构建的图像分割基础大模型,并在多类新的图像领域和视觉任务展现出了出色的零样本迁移能力。需要说明的是,sam是在提示分割任务上完成预训练,即给定分割提示后模型返回有效的分割掩码。它的架构包含三个模块,分别是基于transformer结构的图像编码器,负责提取输入图像的特征;提示编码器,将用户指定的提示信息进行编码;掩膜解码器,对两个编码器输出的信息作融合后给出分割掩码。

    3、由于其卓越的泛化能力,业界开始研究如何在工业领域部署sam。然而在医学领域,由于医学影像存在前景背景相似度极高、特定组织边界轮廓模糊等问题,多方研究已经表明sam无法直接用于完成医学影像分割任务。最直接的解决方案是在医学影像数据集上微调sam。然而更新sam所有的参数非常耗时、计算密集且难以部署,因此如何在有限的计算资源和时间成本内将sam模型快速适配到特定医学数据上成为了当前的研究重点。

    4、针对更新sam的所有参数消耗大量时间和计算成本的问题,目前有两种主流的解决思路,一种是只微调掩膜解码器,如j ma,b wang等人对掩膜解码器作监督训练以实现模型在特定医学图像数据集上的快速适应;第二种是使用轻量级网络结构代替主干网络的更新,如kzhang,d liu等人提出的基于低秩矩阵的训练策略,以及j wu,r fu等人提出的在编码器和解码器中加入适配器的方法。但以上方法往往忽略了sam的提示编码器,因为这部分结构相对简单且固定。然而sam的提示编码器目前只支持点和框这两类简单的视觉提示,对于目标区轮廓复杂形状不规则的情况这两类方式往往无法指明用户的分割意图,因此需要一种包含更多位置信息的视觉提示方式;同时sam的提示编码器采用固定三角函数式的绝对位置编码来生成一个点或两个点的位置信息向量,这种方式能够较为直接地为解码端提供单个点的位置信息,但是对于出现更多点的情况,这种方式无法获取每个点之间的相对位置信息,从而导致一部分位置信息的缺失,因为需要一种编码方式获取各点之间的相对位置信息。


    技术实现思路

    1、有鉴于此,本发明的目的在于提供一种基于涂鸦提示编码大模型的交互式自动化标注系统及方法。

    2、为达到上述目的,本发明提供如下技术方案:

    3、本发明提出了一种基于涂鸦提示编码大模型的交互式自动化标注系统,其包括:图像编码器、涂鸦提示编码器和掩膜解码器,其中,涂鸦提示编码器包括模拟模块、采样模块、编码模块;图像编码器负责提取图像特征;涂鸦提示编码器进行涂鸦曲线的生成及后续的编码;掩膜解码器将图像编码器和涂鸦提示编码器的输出结果进行分割后输出分割结果。

    4、本发明还提出了一种基于涂鸦提示编码大模型的交互式自动化标注方法,该方法包括如下步骤:

    5、s1、将原图像输入到图像编码器,获取图像特征向量;

    6、s2、将原图像和二值标签图像输入到涂鸦提示编码器,在模拟模块中对二值标签图像提取形态学骨架后添加噪声干扰,再使用贝塞尔曲线拟合散点生成模拟用户标注意图的涂鸦曲线,最后送入到采样模块使用特定采样算法对涂鸦曲线采样获得点集;

    7、s3、将采样模块输出的点集送入到涂鸦提示编码器的编码模块中,分别完成基于固定三角函数式的绝对位置编码和基于注意力机制的相对位置编码,两类编码向量相加后作为位置编码向量输出;

    8、s4、将图像特征向量与位置编码向量送入到掩膜解码器中输出预测的掩码;

    9、s5、使用模型输出的预测掩码与二值化标签图像完成监督训练,更新涂鸦提示编码器的编码模块和掩膜解码器的参数,得到涂鸦提示编码大模型。

    10、用户向完成参数更新后的模型输入新的未标注图像,同时对目标分割区域提供任意形式的涂鸦标注,之后掩膜解码器自动输出分割掩码。

    11、进一步,在步骤s1的图像特征提取过程中,将待微调数据集中的原图像输入到sam原始的图像编码器中,将尺寸为c×h×w图像经过具有窗口注意力机制和残差连接的transformer模块后输出尺度为1×256×64×64的图像特征向量。

    12、进一步,在步骤s2的涂鸦曲线模拟及采样过程中,包括如下详细步骤:

    13、s21、在训练阶段,使用hilditch算法对原图像对应的二值标签图像提取骨架以获得目标区域的形态学特征,生成保留图像形态学特征且像素宽度为1的骨架像素集合;

    14、s22、遍历骨架像素集合中的每个像素,以该像素为中心在一个4x4的窗口中内随机添加3~6个噪声点,再对噪声点和骨架像素进行采样得到数量为n的散点;

    15、s23、使用贝塞尔曲线对数量为n的散点进行拟合,再使用伯恩斯坦多项式将贝塞尔曲线定义在点集上;具体过程为:

    16、首先计算其对应的伯恩斯坦多项式

    17、

    18、给定控制点c1,c2,...,cn,贝塞尔曲线上任意一点定义为:

    19、

    20、其中,n表示散点个数;i是非零正整数,取值范围是[1,n];t表示步长;

    21、s24、将任意一段涂鸦曲线视为一组像素点集p,首先获取点集p的中心点pm,以及中心点左侧的点集合pl和中心点右侧的点集合pr;如果涂鸦像素总数量n低于设置的采样点数s,则从pl和pr各随机采样[(n-1)/2]个点,[x]表示不大于x的最大整数,分别得到子点集pl'和pr',并由{pl',pm,pr',ppad}构成长度为s的点集pe,其中ppad为填充点集;否则从pl和pr各随机采样(s-1)/2个点,分别得到子点集pl'和pr',并直接由{pl',pm,pr'}构成点集pe;

    22、s25、将点集pe在原图像尺寸下的点坐标数值转换为图像特征向量尺寸下的数值,确保在解码端信息融合时两类编码器输出向量位置信息的对齐。

    23、进一步,在步骤s3的涂鸦编码过程中,对采样点坐标集合pe完成涂鸦编码,并行完成绝对位置编码和相对位置编码,包括以下步骤:

    24、s31、对于绝对位置编码,首先根据pe获取点属性向量,选用固定三角函数式的编码方式进行编码,使用多个点的位置坐标表示乘以高斯矩阵以获取编码向量,公式如下:

    25、

    26、其中pos∈a1×s×2,表示输入点坐标,由pe获得;matrix∈a2×128是可训练的高斯矩阵,使用正态分布随机数初始化;输出的编码向量ape∈a1×s×256;

    27、再根据点属性向量为编码向量ape赋值,模型初始化时定义三个可训练的向量,分别代表正样本点、负样本点和非样本点的权重,根据点属性向量选择三类权重之一完成对应向量赋值;

    28、s32、对于相对位置编码,首先对pe提取中心点pm与除掉填充点集后获得的点集pe',若不存在填充向量则pe'=pe,假设点集pe'的长度为l;

    29、使用注意力机制来完成点坐标的相对位置编码,将中心点pm视为查询的对象,即:

    30、q=[pm]wq   (4)

    31、被查询的对象需要代表中心点与其他点的相对位置信息,使用中心点pm与点集中所有点的坐标差值,即:

    32、k=[key0,key1,...keyl-1]wk   (5)

    33、其中keyk=pm-pk,k∈[0,1,...,l-1];

    34、而键值则是预处理后的点集,即:

    35、v=pe'wv=[p0,p1,...,pl-1]wv   (6)

    36、将以上向量作为输入完成注意力机制编码,输出:

    37、

    38、s33、对于相对位置编码向量rpe∈a1×l×256,若l<s,则添加一个可学习的向量来保持尺寸匹配,此时绝对位置编码向量ape和相对位置编码向量rpe均是维度为(1,s,256)的三维向量,将其在第二个维度拼接后作为涂鸦编码器输出的位置编码向量。

    39、进一步,在步骤s4的解码器输出分割结果过程中,将步骤s1输出的图像特征向量与步骤s3输出的位置编码向量一起送入到sam原始的掩膜解码器中,通过交叉注意力机制完成信息融合后获得模型预测的分割掩码。

    40、进一步,在步骤s5的监督训练完成微调过程中,对于s4输出的预测掩码,使用diceloss+celoss的损失函数组合完成有监督训练,其中diceloss是一种用于图像分割的损失函数,diceloss用于衡量预测掩码和标签区域之间的相似度,更关注前景区域;而交叉熵损失celoss则能平等计算每个像素点的损失,该损失函数组合的鲁棒性已在多个分割任务上被证实。在监督训练过程中,仅更新涂鸦提示编码器的编码模块和掩膜解码器的所有参数,即微调涂鸦提示编码器和掩膜解码器,冻结图像编码器。

    41、本发明的有益效果在于:本发明采用固定三角函数式编码方式获取涂鸦采样点的绝对位置信息,采用基于注意力机制的编码方式获取采样点之间的相对位置信息,解决了sam的现有视觉提示编码信息有限、无法快速对目标区域提供精确提示的问题,实现了一种全新的基于涂鸦提示的位置编码方法,有利于在医学图像中快速为目标区域提供精准指示,提升sam的分割性能。

    42、本发明的系统和方法能够支持除点、框之外的涂鸦方式的视觉提示,使得用户能够给出扩展性更强、意图更为明确的提示方式。本发明还能够对多点实现相对位置编码,相较于传统的绝对位置编码方式能够为模型的解码端提供更多位置信息。本发明还能够能实现对任意数据集端到端的训练与推理,且只需微调参数量较少的涂鸦提示编码器的编码模块和掩膜解码器,计算开销和时间成本大大降低。

    43、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。


    技术特征:

    1.一种基于涂鸦提示编码大模型的交互式自动化标注系统,其特征在于:其包括:图像编码器、涂鸦提示编码器和掩膜解码器,其中,所述涂鸦提示编码器包括模拟模块、采样模块、编码模块;

    2.一种基于涂鸦提示编码大模型的交互式自动化标注方法,其特征在于:所述方法包括以下步骤:

    3.根据权利要求2所述的基于涂鸦提示编码大模型的交互式自动化标注方法,其特征在于:在步骤s1的图像特征提取过程中,将待微调数据集中的原图像输入到sam原始的图像编码器中,将尺寸为c×h×w图像经过具有窗口注意力机制和残差连接的transformer模块后输出尺度为1×256×64×64的图像特征向量。

    4.根据权利要求3所述的基于涂鸦提示编码大模型的交互式自动化标注方法,其特征在于:在步骤s2的涂鸦曲线模拟及采样过程中,包括以下步骤:

    5.根据权利要求4所述的基于涂鸦提示编码大模型的交互式自动化标注方法,其特征在于:在步骤s3的涂鸦编码过程中,对采样点坐标集合pe完成涂鸦编码,并行完成绝对位置编码和相对位置编码,包括以下步骤:

    6.根据权利要求5所述的基于涂鸦提示编码大模型的交互式自动化标注方法,其特征在于:在步骤s4的解码器输出分割结果过程中,将步骤s1输出的图像特征向量与步骤s3输出的位置编码向量一起送入到sam原始的掩膜解码器中,通过交叉注意力机制完成信息融合后获得模型预测的分割掩码。

    7.根据权利要求6所述的基于涂鸦提示编码大模型的交互式自动化标注方法,其特征在于:在步骤s5的监督训练完成微调过程中,对于s4输出的预测掩码,使用diceloss+celoss的损失函数组合完成有监督训练,在监督训练过程中,仅更新涂鸦提示编码器的编码模块和掩膜解码器的所有参数,即微调涂鸦提示编码器和掩膜解码器,冻结图像编码器。


    技术总结
    本发明涉及一种基于涂鸦提示编码大模型的交互式自动化标注系统及方法,属于计算机视觉领域。该系统包括图像编码器、涂鸦提示编码器和掩膜解码器。该方法基于该系统包括如下步骤:将原图像输入到图像编码器,获取图像特征向量;将原图像和二值标签图像输入到涂鸦提示编码器,通过模拟模块和采集模块进行涂鸦曲线模拟及采样以获得点集;将点集输入到涂鸦提示编码器的编码模块中进行编码以输出位置编码向量;将图像特征向量与位置编码向量送入到掩膜解码器中输出预测掩码;使用模型输出的预测掩码与二值化标签图像完成监督训练,更新涂鸦提示编码器的编码模块和掩膜解码器的参数,得到涂鸦提示编码大模型。

    技术研发人员:周喜川,胡昱然,聂晶
    受保护的技术使用者:重庆大学
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-92654.html

    最新回复(0)