图像处理方法、装置、设备及存储介质与流程

专利2026-03-01 22

本技术涉及人工智能技术等领域，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术：

1、在图像识别领域，神经网络识别模型能够根据检索图像与数据库中的候选图像之间的特征相似度大小，来得到检索图像中的对象的对象属性。一般而言，神经网络识别模型对高分辨率的检索图像有着更高的识别精度，而随着检索图像的分辨率降低，识别精度显著降低。为提高低分辨率的检索图像的识别精度，通常需要预先训练一个专精于高分辨率图像识别的模型作为离线教师模型，在正式训练时，以离线教师模型针对高分辨率图像的输出结果作为标签信息，引导学生模型对低分辨率图像进行识别。实践中发现，这种模型训练方式，需要额外的时间、资源预先训练教师模型，且以高分辨率图像的输出结果作为低分辨率图像的标签，未考虑低分辨率图像与高分辨率图像之间的信息差异，导致模型训练的准确度比较低。

技术实现思路

1、本技术实施例提供一种图像处理方法、装置、设备及存储介质，能够提高模型训练的效率和准确度，降低模型训练过程中所消耗的资源。

2、本技术实施例一方面提供一种图像处理方法，包括：

3、获取样本对象图像对应的第一采样图像和第二采样图像，以及用于反映上述样本对象图像中的样本对象的标注对象属性；上述第一采样图像的分辨率大于上述第二采样图像的分辨率；

4、通过初始学生模型，对上述样本对象图像进行对象识别，得到第一预测对象属性，通过初始教师模型，对上述第一采样图像进行识别处理，得到第二预测对象属性和第一图像特征，通过上述初始学生模型对上述第二采样图像进行识别处理，得到第三预测对象属性和第二图像特征；

5、根据上述第一图像特征、上述第二图像特征、上述第一预测对象属性、上述第二预测对象属性、上述第三预测对象属性以及上述标注对象属性，对上述初始学生模型的模型参数进行更新；

6、根据更新后的初始学生模型在历史时间段内的模型参数，对上述初始教师模型的模型参数进行更新，对于更新后的初始教师模型和更新后的初始学生模型，重复执行上述步骤至训练结束，并将训练结束后的更新后的初始学生模型确定为目标学生模型。

7、本技术实施例一方面提供一种图像处理装置，包括：

8、获取模块，用于获取样本对象图像对应的第一采样图像和第二采样图像，以及用于反映上述样本对象图像中的样本对象的标注对象属性；上述第一采样图像的分辨率大于上述第二采样图像的分辨率；

9、识别模块，用于通过初始学生模型，对上述样本对象图像进行对象识别，得到第一预测对象属性，通过初始教师模型，对上述第一采样图像进行识别处理，得到第二预测对象属性和第一图像特征，通过上述初始学生模型对上述第二采样图像进行识别处理，得到第三预测对象属性和第二图像特征；

10、第一更新模块，用于根据上述第一图像特征、上述第二图像特征、上述第一预测对象属性、上述第二预测对象属性、上述第三预测对象属性以及上述标注对象属性，对上述初始学生模型的模型参数进行更新；

11、第二更新模块，用于根据更新后的初始学生模型在历史时间段内的模型参数，对上述初始教师模型的模型参数进行更新，对于更新后的初始教师模型和更新后的初始学生模型，重复执行上述步骤至训练结束，并将训练结束后的更新后的初始学生模型确定为目标学生模型。

12、可选的，第一更新模块，具体用于根据上述第一预测对象属性以及上述标注对象属性，确定上述初始学生模型的识别损失；

13、根据上述第一图像特征、上述第二图像特征、上述第二预测对象属性以及上述第三预测对象属性，确定上述初始学生模型的自蒸馏损失；

14、根据上述识别损失和上述自蒸馏损失，对上述初始学生模型的模型参数进行更新。

15、可选的，第一更新模块，具体用于根据上述第一图像特征和上述第二图像特征，确定上述初始学生模型的空间注意力损失；

16、根据上述第一图像特征和上述第二图像特征，确定上述初始学生模型的通道注意力损失；

17、根据上述第二预测对象属性和上述第三预测对象属性，确定上述初始学生模型的属性预测损失；

18、将上述空间注意力损失、上述通道注意力损失和上述属性预测损失，确定为上述初始学生模型的自蒸馏损失。

19、可选的，第一更新模块，具体用于对上述自蒸馏损失中所包含的空间注意力损失、上述通道注意力损失以及上述属性预测损失进行加权求和处理，得到上述初始学生模型的自蒸馏总损失；

20、对上述自蒸馏总损失和上述识别损失进行求和处理，得到上述初始学生模型的总损失；

21、根据上述总损失，对上述初始学生模型的模型参数进行更新。

22、可选的，上述第一图像特征包括上述第一采样图像中的m个像素点在c个特征通道下分别对应的特征值，上述第二图像特征包括上述第二采样图像中的m个像素点在c个特征通道下分别对应的特征值，m、c均为大于1的整数；

23、可选的，第一更新模块，具体用于对上述第一采样图像中的每个像素点在上述c个特征通道下分别对应的特征值进行平均化处理，得到上述第一采样图像中的对应像素点的重要程度；

24、对上述第二采样图像中的每个像素点在上述c个特征通道下分别对应的特征值进行平均化处理，得到上述第一采样图像中的对应像素点的重要程度；

25、根据上述第一采样图像中的m个像素点分别对应的重要程度，以及上述第二采样图像中的m个像素点分别对应的重要程度，确定上述初始学生模型的空间注意力损失。

26、可选的，第一更新模块，具体用于对上述第一采样图像中的第f个像素点的重要程度，与上述第二采样图像中的第f个像素点的重要程度进行求差处理，得到上述第二采样图像中的第f个像素点对应的重要程度偏差；f为小于或等于m的正整数；

27、对第二采样图像中的m个像素点分别的重要程度偏差进行求平方和处理，得到上述初始学生模型的空间注意力损失。

28、可选的，上述第一图像特征包括上述第一采样图像中的m个像素点在c个特征通道下分别对应的特征值，上述第二图像特征包括上述第二采样图像中的m个像素点在c个特征通道下分别对应的特征值，m、c均为大于1的整数；

29、可选的，第一更新模块，具体用于对上述第一采样图像中的m个像素点分别在每个特征通道下的特征值进行平均化处理，得到上述第一采样图像中的对应特征通道的重要程度；

30、对上述第二采样图像中的m个像素点分别在每个特征通道下的特征值进行平均化处理，得到上述第二采样图像中的对应特征通道的重要程度；

31、根据上述第一采样图像中的c个特征通道分别对应的重要程度，以及上述第二采样图像中的c个特征通道分别对应的重要程度，确定上述初始学生模型的通道注意力损失。

32、可选的，第一更新模块，具体用于对上述第一采样图像中的第k个特征通道的重要程度，与上述第二采样图像中的第k个特征通道的重要程度进行求差处理，得到上述第二采样图像的第k个特征通道的重要程度偏差；k为小于或等于c的正整数；

33、对上述第二采样图像中的c个特征通道分别对应的重要程度偏差进行求平方和处理，得到上述初始学生模型的通道注意力损失。

34、可选的，第二更新模块，具体用于对更新后的初始学生模型在历史时间段内的模型参数进行平滑处理，得到处理后的模型参数；

35、根据处理后的模型参数，对上述初始教师模型的模型参数进行更新。

36、可选的，第二更新模块，具体用于在对上述初始学生模型进行t步迭代更新之后，获取上述更新后的初始学生模型在第t步迭代更新后的模型参数，以及上述更新后的初始学生模型在第t-1步迭代更新后的指数滑动平均值；t为大于1的整数；

37、根据平滑因子，对在上述第t步迭代更新后的模型参数和在上述第t-1步迭代更新后的指数滑动平均值进行平滑处理，得到上述更新后的初始学生模型在上述第t步迭代更新后的指数滑动平均值；

38、将在上述第t步迭代更新后的指数滑动平均值，确定为处理后的模型参数。

39、可选的，获取模块，具体用于按照第一下采样倍数，对上述样本对象图像进行下采样处理，得到第一采样图像；

40、按照第二下采样倍数，对上述样本对象图像进行下采样处理，得到第二采样图像；上述第一下采样倍数小于上述第二下采样倍数。

41、可选的，获取模块，具体用于获取待识别的目标对象图像；

42、通过目标学生模型对上述目标对象图像进行对象识别，得到上述目标对象图像中的对象的对象属性。

43、本技术实施例一方面提供了一种计算机设备，包括存储器和处理器，上述存储器存储有计算机程序，上述处理器执行上述计算机程序时实现上述的方法的步骤。

44、本技术实施例一方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述的方法的步骤。

45、本技术实施例一方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。

46、本技术至少包括如下优势：（1）通过对更新后的初始学生模型在历史时间段内的模型参数进行对初始教师模型的模型参数进行更新，使初始教师模型在训练过程中更加稳定，有助于降低训练过程中的噪声和波动，从而提高学生模型学习到的知识量。（2）由于初始教师模型的更新过程考虑了更新后的初始学生模型在历史时间段内的模型参数，因此，使初始教师模型能够更好的捕捉到更新后的初始学生模型在训练过程中学到的知识，这使得初始教师模型具有更好的泛化能力，从而提高更新后的初始学生模型的泛化能力，即提高模型的训练准确度。（3）在训练初始学生模型的过程中训练初始教师模型，不需要额外训练一个离线教师模型，节省了大量的时间和计算资源，即提高模型训练的效率，降低模型训练过程中所消耗的资源。（4）根据第一图像特征、第二图像特征等对初始学生模型进行训练，第一图像特征和第二图像特征是由不同分辨率的采样图像得到的，即考虑了不同分辨率图像之间的信息差异，提高模型训练的准确度，这样有利于使训练得到的目标学生模型具有不同分辨率图像的识别能力，提高目标学生模型的适用性。

技术特征：

1.一种图像处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述第一图像特征、所述第二图像特征、所述第一预测对象属性、所述第二预测对象属性、所述第三预测对象属性以及所述标注对象属性，对所述初始学生模型的模型参数进行更新，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第一图像特征、所述第二图像特征、所述第二预测对象属性以及所述第三预测对象属性，确定所述初始学生模型的自蒸馏损失，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述识别损失和所述自蒸馏损失，对所述初始学生模型的模型参数进行更新，包括：

5.如权利要求3所述的方法，其特征在于，所述第一图像特征包括所述第一采样图像中的m个像素点在c个特征通道下分别对应的特征值，所述第二图像特征包括所述第二采样图像中的m个像素点在c个特征通道下分别对应的特征值，m、c均为大于1的整数；

6.如权利要求5所述的方法，其特征在于，所述根据所述第一采样图像中的m个像素点分别对应的重要程度，以及所述第二采样图像中的m个像素点分别对应的重要程度，确定所述初始学生模型的空间注意力损失，包括：

7.如权利要求3所述的方法，其特征在于，所述第一图像特征包括所述第一采样图像中的m个像素点在c个特征通道下分别对应的特征值，所述第二图像特征包括所述第二采样图像中的m个像素点在c个特征通道下分别对应的特征值，m、c均为大于1的整数；

8.如权利要求7所述的方法，其特征在于，所述根据所述第一采样图像中的c个特征通道分别对应的重要程度，以及所述第二采样图像中的c个特征通道分别对应的重要程度，确定所述初始学生模型的通道注意力损失，包括：

9.如权利要求1所述的方法，其特征在于，所述根据更新后的初始学生模型在历史时间段内的模型参数，对所述初始教师模型的模型参数进行更新，包括：

10.如权利要求9所述的方法，其特征在于，所述对更新后的初始学生模型在历史时间段内的模型参数进行平滑处理，得到处理后的模型参数，包括：

11.如权利要求1所述的方法，其特征在于，所述获取样本对象图像对应的第一采样图像和第二采样图像，包括：

12.如权利要求1所述的方法，其特征在于，所述方法还包括：

13.一种图像处理装置，其特征在于，包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

技术总结
本申请实施例公开了一种图像处理方法、装置、设备及存储介质，应用于人工智能技术，该方法包括：通过初始学生模型，对样本对象图像进行对象识别，得到第一预测对象属性，通过初始教师模型，对第一采样图像进行识别处理，得到第二预测对象属性和第一图像特征，通过初始学生模型对第二采样图像进行识别处理，得到第三预测对象属性和第二图像特征；对初始学生模型的模型参数进行更新；根据更新后的初始学生模型在历史时间段内的模型参数，对初始教师模型的模型参数进行更新，重复执行上述步骤至训练结束，并将训练结束后的更新后的初始学生模型确定为目标学生模型。本申请能够提高模型训练的效率和准确度，降低模型训练过程中所消耗的资源。

技术研发人员：张钟毓,黄余格,丁守鸿
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/4/29

转载请注明原文地址:https://wp.8miu.com/read-95907.html

专利

最新回复(0)