一种面向多机器视觉任务的高效编码方法、装置及介质

    专利2025-08-02  18


    本发明涉及图像处理,具体涉及一种面向多机器视觉任务的高效编码方法、装置及介质。


    背景技术:

    1、机器视觉模型需要大量的训练数据,特别是最近流行的大型模型如clip、sam、blip等。这样大量的数据的传输和存储对机器视觉应用的进一步发展提出了重大挑战。特别是在边缘设备上,算力以及网络带宽存在一定限制。因此,压缩数据以减少存储和传输成本已成为一个迫切的任务。传统的标准化有损编码方法,如jpeg、hevc和vvc,已经被广泛用于日常数据压缩。近年来,快速发展的基于学习的编解码器也在速率失真性能方面表现出了强大的能力。但随着深度学习应用相关研究工作的逐步深入和成熟,图像或者视频信息在越来越多的场合会被用作机器智能分析任务(如自动驾驶、元宇宙、远程医疗等)的输入,现有的压缩主要致力于对视觉保真度进行优化,忽视了机器和人类对图像的不同感知。因此,这些方法产生的压缩图像常常在下游机器视觉任务中产生次优结果。因此如果能够设计一种面向多智能任务的高效编码框架,提高对于智能任务的率失真性能,将极大地降低所需传输带宽、存储空间,以及算力需求,推动智能多媒体技术的发展。


    技术实现思路

    1、传统的图像编码标准主要针对人类的视觉优化,而忽略了大多数现代图像实际上是由机器进行分析的,在实际情况下与人类感知存在很大差异,为此,本发明提出了一种面向多机器视觉任务的高效编码方法,包括步骤:

    2、s1:根据当前机器视觉任务,通过语义提取网络进行目标先验信息的获取;

    3、s2:通过在中间层插入内部适配器的编码器,结合目标先验信息对当前图像进行码率重分配下的图像编码;

    4、s3:通过在中间层插入内部适配器的解码器,对图像编码后的图像进行重建以获取解码图像;

    5、s4:基于解码图像,通过预训练的机器视觉网络进行任务推断。

    6、进一步,所述s1步骤中机器视觉任务包括图像分类、语义分割和目标检测。

    7、进一步地,所述s1步骤中,目标先验信息包括目标检测框、边缘信息、灰度图、深度信息。

    8、进一步地,所述内部适配器由两个深度卷积层和一个零卷积层组成,所述零卷积层为初始权重为零的卷积层。

    9、进一步地,所述内部适配器通过改变特征分布实现不同机器视觉任务之间的迁移学习。

    10、进一步地,所述s1步骤中的目标先验信息通过所述s2步骤中的内部适配器迁移到编码器中。

    11、进一步地,所述s3步骤中的解码图像通过s3步骤中的内部适配器迁移到所述s4步骤中的机器视觉网络中。

    12、进一步地,当所述机器视觉任务更换时,通过对适配器以及机器视觉网络的head部分进行重新训练以适配更换后的机器视觉任务。

    13、还包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述一种面向多机器视觉任务的高效编码方法的步骤。

    14、还包括一种处理数据的装置,其特征在于,包括:

    15、存储器,其上存储有计算机程序;

    16、处理器,用于执行所述存储器中的计算机程序,以实现所述一种面向多机器视觉任务的高效编码方法的步骤。

    17、与现有技术相比,本发明至少含有以下有益效果:

    18、(1)本发明所述的一种面向多机器视觉任务的高效编码方法、装置及介质,通过在原有编解码器的基础上增加内部适配器,并结合外部先验信息,从而使得机器视觉任务类型发生改变时,无需改变原始的编解码器参数,只需对适配器与机器视觉网络的头部进行适应性训练即可,大大提高了编码的效率;

    19、(2)通过深度卷积层的引入,使得适配器整体更加轻量级,从而只需要对较少的参数进行微调,而零卷积层的加入则进一步提高了调整过程中的稳定性。



    技术特征:

    1.一种面向多机器视觉任务的高效编码方法,其特征在于,包括步骤:

    2.如权利要求1所述的一种面向多机器视觉任务的高效编码方法,其特征在于,所述s1步骤中机器视觉任务包括图像分类、语义分割和目标检测。

    3.如权利要求1所述的一种面向多机器视觉任务的高效编码方法,其特征在于,所述s1步骤中,目标先验信息包括目标检测框、边缘信息、灰度图、深度信息。

    4.如权利要求1所述的一种面向多机器视觉任务的高效编码方法,其特征在于,所述内部适配器由两个深度卷积层和一个零卷积层组成,所述零卷积层为初始权重为零的卷积层。

    5.如权利要求1所述的一种面向多机器视觉任务的高效编码方法,其特征在于,所述内部适配器通过改变特征分布实现不同机器视觉任务之间的迁移学习。

    6.如权利要求5所述的一种面向多机器视觉任务的高效编码方法,其特征在于,所述s1步骤中的目标先验信息通过所述s2步骤中的内部适配器迁移到编码器中。

    7.如权利要求5所述的一种面向多机器视觉任务的高效编码方法,其特征在于,所述s3步骤中的解码图像通过s3步骤中的内部适配器迁移到所述s4步骤中的机器视觉网络中。

    8.如权利要求1所述的一种面向多机器视觉任务的高效编码方法,其特征在于,当所述机器视觉任务更换时,通过对适配器以及机器视觉网络的head部分进行重新训练以适配更换后的机器视觉任务。

    9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8中任一项所述编码方法的步骤。

    10.一种处理数据的装置,其特征在于,包括:


    技术总结
    本发明公开了一种面向多机器视觉任务的高效编码方法、装置及介质,涉及图像处理技术领域,包括步骤:根据当前机器视觉任务,通过语义提取网络进行目标先验信息的获取;通过在中间层插入内部适配器的编码器,结合目标先验信息对当前图像进行码率重分配下的图像编码;通过在中间层插入内部适配器的解码器,对图像编码后的图像进行重建以获取解码图像;基于解码图像,通过预训练的机器视觉网络进行任务推断。本发明在原有编解码器的基础上增加内部适配器,并结合外部先验信息,从而使得机器视觉任务类型发生改变时,无需改变原始的编解码器参数,只需对适配器与机器视觉网络的头部进行适应性训练即可,大大提高了编码的效率。

    技术研发人员:金鑫,刘津铭,曾文军
    受保护的技术使用者:宁波东方理工大学(暂名)
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-90321.html

    最新回复(0)