本发明涉及图像处理技术领域,尤其是涉及一种图像分类方法、图像分类模型的训练方法和装置。
背景技术:
随着网络技术和智能移动平台的发展,直播行业对人们生活的影响越来越大,为了避免直播平台中不良信息对人们的危害,需要对直播平台的直播内容进行监管,但由于直播平台的数量巨大,人力监管往往会费时费力,耗费大量成本,因此需要一种算法自动对直播图像进行分类,以通过分类结果确定直播图像的内容是否包含有不良信息。
相关技术中的直播图像分类方法,通常通过预先建立的输入图像与图像类别的映射关系,对直播图像进行分类,但由于直播环境多样,直播图像中包含的场景也复杂多变,干扰了对图像类别的识别和判定,导致该方式的分类准确率较低。
技术实现要素:
本发明的目的在于提供一种图像分类方法、图像分类模型的训练方法和装置,以避免场景差异干扰对图像类别的识别和判定,进而提升图像分类的准确率。
第一方面,本发明实施例提供了一种图像分类方法,该方法包括:获取待处理图像;将该待处理图像输入至预先训练完成的图像分类模型中,输出该待处理图像的图像类别;其中,图像分类模型用于:识别待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别待处理图像的图像类别,得到每个预设场景对应的初始分类结果;基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别。
在可选的实施方式中,上述场景识别结果包括待处理图像属于每个预设场景的概率;上述初始分类结果包括待处理图像属于多个预设类别中的每个预设类别的概率;上述基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别的步骤,包括:基于场景识别结果中待处理图像属于每个预设场景的概率,确定每个预设场景对应的初始分类结果的加权权重;基于加权权重和每个预设场景对应的初始分类结果,确定待处理图像属于每个预设类别的最终概率,将最大的最终概率对应的预设类别,确定为待处理图像的图像类别。
在可选的实施方式中,上述基于场景识别结果中待处理图像属于每个预设场景的概率,确定每个预设场景对应的初始分类结果的加权权重的步骤,包括:针对每个预设场景,将场景识别结果中的待处理图像属于当前场景的概率,确定为当前场景对应的初始分类结果的加权权重;上述基于加权权重和每个预设场景对应的初始分类结果,确定待处理图像属于每个预设类别的最终概率的步骤,包括:针对每个预设场景,将当前场景对应的所述加权权重,分别与当前场景对应的初始分类结果中的每个预设类别的概率相乘,得到当前场景下每个预设类别对应的概率乘积;针对每个预设类别,将每个预设场景下当前类别对应的概率乘积相加,得到待处理图像属于当前类别的最终概率。
在可选的实施方式中,上述图像分类模型包括特征提取网络、场景分类网络、多个预设场景对应的图像分类网络和分类输出网络;上述特征提取网络用于从待处理图像中提取图像特征,将图像特征输入至场景分类网络和多个预设场景对应的图像分类网络;上述场景分类网络用于根据图像特征,识别待处理图像所包含的场景,得到场景识别结果;每个预设场景对应的图像分类网络用于根据图像特征,在预设场景下识别待处理图像的图像类别,得到预设场景对应的初始分类结果;分类输出网络用于基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别。
第二方面,本发明实施例提供了一种图像分类模型的训练方法,该训练方法包括:获取样本集;该样本集包括多个样本,每个样本包含有样本图像,以及样本图像对应的场景类别标签和图像类别标签;其中,该场景类别标签用于指示多个预设场景中的一个场景;基于样本集,对图像分类模型的初始模型进行机器学习训练,得到图像分类模型。
在可选的实施方式中,上述图像分类模型的初始模型包括特征提取网络、场景分类网络、多个预设场景对应的图像分类网络和分类输出网络;上述基于样本集,对图像分类模型的初始模型进行机器学习训练,得到图像分类模型的步骤,包括:基于样本集训练特征提取网络和场景分类网络,得到训练后的特征提取网络和训练后的场景分类网络;针对每个预设场景对应的图像分类网络,通过样本集中场景类别标签为当前预设场景的样本,训练当前预设场景对应的图像分类网络,得到训练后的图像分类网络;基于样本集训练训练后的特征提取网络、训练后的场景分类网络、多个训练后的图像分类网络和分类输出网络,得到最终的图像分类模型。
在可选的实施方式中,上述通过样本集中场景类别标签为当前预设场景的样本,训练当前预设场景对应的图像分类网络,得到训练后的图像分类网络的步骤,包括:从样本集中确定场景类别标签为当前预设场景的目标样本;将目标样本中的样本图像输入至训练后的特征提取网络,得到第一输出结果;将第一输出结果输入至当前预设场景对应的图像分类网络,得到第二输出结果;基于第二输出结果和样本图像对应的图像类别标签,确定网络损失值;基于该网络损失值更新图像分类网络的权重参数;继续执行从样本集中确定场景类别标签为当前预设场景的目标样本的步骤,直到图像分类网络收敛,得到当前预设场景对应的训练后的图像分类网络。
在可选的实施方式中,上述基于样本集训练上述训练后的特征提取网络、训练后的场景分类网络、多个训练后的图像分类网络和分类输出网络,得到最终的图像分类模型的步骤,包括:基于样本集确定训练样本;训练样本包含有样本图像,以及样本图像对应的场景类别标签和图像类别标签;将样本图像输入至训练后的特征提取网络,输出第一结果,将第一结果输入至训练后的场景分类网络,输出第二结果;将第一结果分别输入至多个训练后的图像分类网络,得到多个预设场景对应的第三结果;将第二结果和每个预设场景对应的第三结果输入至分类输出网络,得到输出结果;基于所述输出结果和所述图像类别标签,确定损失量;基于所述损失量更新训练后的特征提取网络、训练后的场景分类网络、多个训练后的图像分类网络和分类输出网络的权重参数;继续执行基于样本集确定训练样本的步骤,直到各个网络收敛,得到图像分类模型。
在可选的实施方式中,上述基于输出结果和图像类别标签,确定损失量的步骤,包括:损失量通过下述算式确定:l=-log(cy);其中,l表示损失量,c表示输出结果,该输出结果中包含有样本图像属于多个预设类别中的每个预设类别的最终概率;cy表示在输出结果中样本图像属于图像类别标签对应的预设类别的最终概率,log表示对数运算。
第三方面,本发明实施例提供了一种图像分类装置,该装置包括:图像获取模块,用于获取待处理图像;图像分类模块,用于将待处理图像输入至预先训练完成的图像分类模型中,输出待处理图像的图像类别;其中,该图像分类模型用于:识别待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别待处理图像的图像类别,得到每个预设场景对应的初始分类结果;基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别。
第四方面,本发明实施例提供了一种图像分类模型的训练装置,该训练装置包括:样本集获取模块,用于获取样本集;该样本集包括多个样本,每个样本包含有样本图像,以及样本图像对应的场景类别标签和图像类别标签;其中,该场景类别标签用于指示多个预设场景中的一个场景;模型训练模块,用于基于样本集,对图像分类模型的初始模型进行机器学习训练,得到图像分类模型。
第五方面,本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器存储有能够被处理器执行的机器可执行指令,该处理器执行机器可执行指令以实现前述实施方式任一项所述的图像分类方法或者前述实施方式任一项所述的图像分类模型的训练方法。
第六方面,本发明实施例提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现前述实施方式任一项所述的图像分类方法或者前述实施方式任一项所述的图像分类模型的训练方法。
本发明实施例带来了以下有益效果:
本发明提供的一种图像分类方法、图像分类模型的训练方法和装置,首先获取待处理图像;进而将该待处理图像输入至预先训练完成的图像分类模型中,该图像分类模型识别该待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别待处理图像的图像类别,得到每个述预设场景对应的初始分类结果;基于每个预设场景对应的初始分类结果和场景识别结果,输出该待处理图像的图像类别。该方式中,图像分类模型能够识别图像所包含的场景,基于场景识别结果以及在各场景下得到的图像类别的初始分类结果,确定图像的最终类别;由于在确定图像类别时考虑了图像所包含的场景,从而避免了场景因素的差异对图像类别识别的干扰,进而提高了图像分类的准确度。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像分类方法的流程图;
图2为本发明实施例提供的另一种图像分类方法的流程图;
图3为本发明实施例提供的另一种图像分类方法的流程图;
图4为本发明实施例提供的图像分类模型的网络结构示意图;
图5为本发明实施例提供的一种图像分类模型的训练方法的流程图;
图6为本发明实施例提供的另一种图像分类模型的训练方法的流程图;
图7为本发明实施例提供的一种图像分类装置的结构示意图;
图8为本发明实施例提供的一种图像分类模型的训练装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,存在两种直播图像的分类方法,第一种是传统图像分类算法,一般需要人工提取图像的特征(如形状、颜色、纹理等),然后训练一个图像特征到类别的分类器,通过该分类器可以对直播图像进行分类,但该方式缺乏图像的高层语义信息,导致该方式的图像分类精度较低。
第二种是基于神经网络对直播图像进行分类,该神经网络通过机器学习训练建立输入图像和图像类别的映射关系,相较于传统图像分类算法,该方式可以考虑图像的高层语义信息,精度相对较高;但直播平台的图像来源多样,比如有户外场景、室内场景、影视场景、动画场景、漫画场景、游戏场景等,且不同场景的图片差异较大,从而增加了直播图像的分类难度,也干扰了对图像类别的识别和判定,导致该方式的分类准确率较低。
基于上述问题,本发明实施例提供了一种图像分类方法、图像分类模型的训练方法和装置。该技术可以应用于各种图像的分类场景中,尤其是各种直播场景下的图像分类场景。为便于对本实施例进行理解,首先对本发明实施例所公开的一种图像分类方法进行详细介绍,如图1所示,该方法包括如下步骤:
步骤s102,获取待处理图像。
获取图像的方式可以为通过通信连接的照相机、摄像头等设备拍摄后传入,或从存储有已经拍摄完成的待处理的图像的存储设备中获取。
上述待处理图像可以是各种直播场景下的图像,该直播场景可以是户外场景、室内场景、影视场景、动画场景、漫画场景或者游戏场景等,该待处理图像中可以包含有特定的人、物或者事件等。
步骤s104,将上述待处理图像输入至预先训练完成的图像分类模型中,输出该待处理图像的图像类别;其中,图像分类模型用于:识别待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别待处理图像的图像类别,得到每个预设场景对应的初始分类结果;基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别。
上述预设场景可以是任意直播场景,例如,多个预设场景可以包括:户外场景、室内场景、影视场景、动画场景、漫画场景和游戏场景等。多个预设场景中具体包含有哪些直播场景可以根据用户需求设定,在此不做具体限定。
上述图像分类模型可以是深度学习模型或者神经网络模型等。该图像分类模型是通过预设的样本集采用机器学习训练得到的。在具体实现时,该图像分类模型可以识别待处理图像所包含的场景,也即是识别待处理图像来源于哪个预设场景,或者来源于多个预设场景中每个预设场景的概率;还可以分别在多个预设场景下识别待处理图像的图像类别,得到每个预设场景下的初始分类结果,该方式显式地考虑了不同场景下图像表观的差异,从而可以消除场景因素对图像分类结果的影响,该初始分类结果可以用来指示该待处理图像在某一预设场景下得到的图像类别;然后融合每个预设场景对应的初始分类结果和场景识别结果,得到更为准确的待处理图像的图像类别。
本发明实施例提供的一种图像分类方法,首先获取待处理图像;进而将该待处理图像输入至预先训练完成的图像分类模型中,该图像分类模型识别该待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别待处理图像的图像类别,得到每个述预设场景对应的初始分类结果;基于每个预设场景对应的初始分类结果和场景识别结果,输出该待处理图像的图像类别。该方式中,图像分类模型能够识别图像所包含的场景,基于场景识别结果以及在各场景下得到的图像类别的初始分类结果,确定图像的最终类别;由于在确定图像类别时考虑了图像所包含的场景,从而避免了场景因素的差异对图像类别识别的干扰,进而提高了图像分类的准确度。
本发明实施例还提供了另一种图像分类方法,该方法在上述实施例方法的基础上实现;该方法重点描述基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别的具体过程(通过下述步骤s208实现);如图2所示,该方法包括如下步骤:
步骤s202,获取待处理图像。
步骤s204,将上述待处理图像输入至预先训练完成的图像分类模型中。
步骤s206,通过图像分类模型,识别待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别待处理图像的图像类别,得到每个预设场景对应的初始分类结果;其中,场景识别结果包括待处理图像属于每个预设场景的概率;初始分类结果包括待处理图像属于多个预设类别中的每个预设类别的概率。
在具体实现时,上述场景识别结果中包含有待处理图像属于多个预设场景下的每个预设场景的概率;每个预设场景对应的初始分类结果中都包含有在当前预设场景下,待处理图像属于多个预设类别中的每个预设类别的概率。多个预设类别可以是根据用户需求预先设置的图像类别,该预设类别可以包含有正常、低俗和色情等图像类别。
步骤s208,通过图像分类模型,基于场景识别结果中待处理图像属于每个预设场景的概率,确定每个预设场景对应的初始分类结果的加权权重;基于加权权重和每个预设场景对应的初始分类结果,确定待处理图像属于每个预设类别的最终概率,将最大的最终概率对应的预设类别,确定为待处理图像的图像类别。
上述每个预设场景对应的初始分类结果的加权权重是根据场景识别结果中待处理图像属于每个预设场景的概率确定的,通常待处理图像属于某一预设场景的概率越大,该预设场景对应的初始分类结果的加权权重也越大,例如,可以将待处理图像属于某一预设场景的概率值确定为该预设场景对应的初始分类结果的加权权重,也可以预先设置多个大小不一的数值,然后按照待处理图像属于每个预设场景的概率的大小,从预先设置的数值中选取数值作为每个预设场景对应的初始分类结果的加权权重。
在具体实现时,上述步骤s208可以通过下述步骤10-12实现:
步骤10,针对每个预设场景,将场景识别结果中的待处理图像属于当前场景的概率,确定为当前场景对应的初始分类结果的加权权重。
步骤11,针对每个预设场景,将当前场景对应的所述加权权重,分别与当前场景对应的初始分类结果中的每个预设类别的概率相乘,得到当前场景下每个预设类别对应的概率乘积。
步骤12,针对每个预设类别,将每个预设场景下当前类别对应的概率乘积相加,得到待处理图像属于当前类别的最终概率。
例如,场景识别结果中包含有三个预设场景,分别为动画场景、漫画场景和游戏场景,该场景识别结果中待处理图像属于动画场景的概率为0.2,属于漫画场景的概率为0.1,属于游戏场景的概率为0.7;那么动画场景对应的初始分类结果的加权权重为0.2,漫画场景对应的初始分类结果的加权权重为0.1,游戏场景对应的初始分类结果的加权权重为0.7。
假设每个初始分类结果中包含有三个预设类别,分别是正常、低俗和色情;其中,动画场景对应的初始分类结果中待处理图像属于三个预设类别的概率为[0.6,0.3,0.2],漫画场景对应的初始分类结果中待处理图像属于三个预设类别的概率为[0.8,0.1,0.1],游戏场景对应的初始分类结果中待处理图像属于三个预设类别的概率为[0.5,0.2,0.3];那么待处理图像的图像类别为正常的概率乘积为0.2*0.6 0.1*0.8 0.7*0.5=0.55,待处理图像的图像类别为低俗的概率乘积为0.2*0.3 0.1*0.1 0.7*0.2=0.20,待处理图像的图像类别为色情的概率乘积为0.2*0.2 0.1*0.1 0.7*0.3=0.26。由此可知,概率乘积最大值为0.55,那么该待处理图像的图像类别为正常。
上述图像分类方法,图像分类模型能够识别图像所包含的场景,和识别不同的场景下的初始分类结果,从而消除了场景因素对图像识别结果的影响,最后融合识别的场景结果和各个初始分类结果得到最终的图像类别,因而该方式显式地考虑了不同场景下图像表观之间的差异,消除了不同场景因素对图像识别的干扰,提高了图像分类和识别的准确度。同时,由于该方式可以准确识别直播图像的图像类别,从而可达到智能监控网络直播间的目的,大大减少了人力监管的成本。
本发明实施例还提供了另一种图像分类方法,该方法在上述实施例方法的基础上实现;该方法重点描述图像分类模型包括特征提取网络、场景分类网络、多个预设场景对应的图像分类网络和分类输出网络的情况下的图像分类方法;如图3所示,该方法包括如下步骤:
步骤s302,获取待处理图像。
步骤s304,将上述待处理图像输入至预先训练完成的图像分类模型,该图像分类模型包括特征提取网络、场景分类网络、多个预设场景对应的图像分类网络和分类输出网络。
具体地,上述特征提取网络分别与场景分类网络和多个预设场景对应的图像分类网络连接,分类输出网络分别与场景分类网络和多个预设场景对应的图像分类网络连接。如图4所示为图像分类模型的网络结构示意图,该图4中的图像分类模型包含有三个预设场景对应的图像分类网络,分别为动画场景子网络、漫画场景子网络和游戏场景子网络。
在具体实现时,上述特征提取网络包括依次连接的卷积层、批归一化层和激活函数层,该特征提取网络可以提取输入图像的图像特征,以获得图像特征的高层语义信息,为了提高特征提取网络的性能,通常该特征提取网络包括多组依次连接的卷积层、批归一化层和激活函数层。该激活函数层具体可以包括sigmoid函数、tanh函数、relu函数、softmax函数等。上述场景分类网络可以由一系列的“卷积层 批归一化层 激活函数层”、全局平均池化层和全连接层组成;上述动画场景子网络、漫画场景子网络和游戏场景子网络也可以由一系列的“卷积层 批归一化层 激活函数层”、全局平均池化层和全连接层组成。上述分类输出网络将场景分类网络、动画场景子网络、漫画场景子网络和游戏场景子网络的输出进行融合得到最终的图像识别结果。
步骤s306,通过特征提取网络从待处理图像中提取图像特征,将该图像特征输入至场景分类网络和多个预设场景对应的图像分类网络。
步骤s308,通过场景分类网络,根据图像特征,识别待处理图像所包含的场景,得到场景识别结果。
步骤s310,通过每个预设场景对应的图像分类网络,根据图像特征,在预设场景下识别待处理图像的图像类别,得到预设场景对应的初始分类结果。
步骤s312,通过分类输出网络,基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别。
上述图像分类方法,能够识别图像所包含的场景和识别不同的场景下的初始分类结果,从而消除了场景因素对图像识别结果的影响,最后融合识别的场景结果和各个初始分类结果得到最终的图像类别,因而该方式显式地考虑了不同场景下图像表观之间的差异,消除了不同场景因素对图像识别的干扰,提高了图像分类和识别的准确度。
针对于上述图像分类方法,本发明实施例还提供了一种图像分类模型的训练方法,如图5所示,该训练方法包括如下具体步骤:
步骤s502,获取样本集;所述样本集包括多个样本,每个样本包含有样本图像,以及样本图像对应的场景类别标签和图像类别标签;其中,该场景类别标签用于指示多个预设场景中的一个场景。
上述样本集中包含有大量的样本,每个样本中均包含有一个样本图像,以及该样本对应的场景类别标签和图像类别标签,该场景类别标签用于指示样本图像所包含的场景,该场景是多个预设场景中的一个场景,多个预设场景的数量和所包含的场景是根据用户需求设置的,该预设场景可以包括户外场景、室内场景、影视场景、动画场景、漫画场景或者游戏场景等;上述图像类别标签用于指示样本图像所属的图像类别,该图像类别是多个预设类别中的一个类别,多个预设类别的数量和所包含的预设类别是根据用户需求设置的,该预设类别可以包括户正常、低俗、色情等。
步骤s504,基于上述样本集,对图像分类模型的初始模型进行机器学习训练,得到图像分类模型。
在图像分类模型的训练过程中,将样本集中的样本图像输入至初始模型中,可以得到该样本图像的类别预测结果,然后通过该样本图像对应的图像类别标签和场景类别标签得到损失量,然后基于该损失量更新初始模型的权重参数,在损失量收敛或者达到预设的训练次数时得到图像分类模型。
上述图像分类模型的训练方法,首先获取样本集,该样本集包括多个样本,每个样本包含有样本图像以及该样本图像对应的场景类别标签和图像类别标签;进而基于该样本集,对图像分类模型的初始模型进行机器学习训练,得到图像分类模型。该方式在训练图像分类模型时,考虑到了不同场景下的图像表观差异,以使在运用训练后的图像分类模型进行图像分类时,可以消除场景因素对图像识别结果的影响,从而提升了图像分类模型的泛化能力和分类准确度。
本发明实施例还提供了另一种图像分类模型的训练方法,该方法在上述训练方法实施例的基础上实现;该训练方法重点描述图像分类模型的初始模型包括特征提取网络、场景分类网络、多个预设场景对应的图像分类网络和分类输出网络的情况下,基于样本集对图像分类模型的初始模型进行机器学习训练,得到图像分类模型的步骤的具体过程(通过下述步骤s604-s608实现);如图6所示,该训练方法包括如下步骤:
步骤s602,获取样本集;该样本集包括多个样本,每个样本包含有样本图像,以及样本图像对应的场景类别标签和图像类别标签。
在获取样本集时,首先收集直播图像
假设样本集d中一共有n1个动画样本,也即是有n1个场景类别标签为动画场景的样本图像;n2个漫画样本,也即是有n2个场景类别标签为漫画场景的样本图像;n3个游戏样本,也即是有n3个场景类别标签为游戏场景的样本图像;其中,n1 n2 n3=n,假设动画数据集为
步骤s604,基于样本集训练特征提取网络和场景分类网络,得到训练后的特征提取网络和训练后的场景分类网络。
在具体实现时,上述步骤s604可以通过下述步骤20-24实现:
步骤20,随机初始化特征提取网络的权重参数和场景分类网络的权重参数。
步骤21,基于样本集确定学习样本;该学习样本中包含有一个样本图像,以及该样本图像对应的场景类别标签和图像类别标签。
步骤22,将上述学习样本中的样本图像输入至上述特征提取网络,得到特征提取结果。
步骤23,将上述特征提取结果输入至上述场景识别网络,输出识别结果;基于该识别结果和样本图像对应的场景类别标签,确定第一损失值。
步骤24,基于该第一损失值更新特征提取网络和场景分类网络的权重参数;继续执行基于样本集确定学习样本的步骤,直到特征提取网络的权重参数和场景识别网络的权重参数收敛,得到训练后的特征提取网络和训练后的场景分类网络。
例如,分别随机初始化特征提取网络的权重参数w1和场景分类网络的权重参数w2;然后将学习样本的样本图像输入至特征提取网络和场景分类网络,得到输出结果z,将该输出结果z送入激活函数层的softmax函数中,得到识别结果p:
其中,pj表示识别结果p中第j个预设场景对应的概率,zj表示输出结果中第j个元素对应的输出值,zm表示输出结果z中第m个元素对应的输出值,m表示输出结果和识别结果中元素的总数,也即是预设场景的类别总数。然后基于识别结果和样本图像对应的场景类别标签,得到第一损失值l1:
l1=-log(ps);
其中,s表示样本图像对应的场景类别标签,ps表示识别结果中样本图像的场景类别标签对应的场景类别的概率。通过反向传播算法求l1对权重参数w1和权重w2的导数
然后不断迭代地对w1’和w2’进行更新,直到这两个权重参数收敛,得到训练后的特征提取网络和训练后的场景分类网络。
步骤s606,针对每个预设场景对应的图像分类网络,通过样本集中场景类别标签为当前预设场景的样本,训练当前预设场景对应的图像分类网络,得到训练后的图像分类网络。
在具体实现时,可以将多个预设场景中的每个预设场景作为当前预设场景,那么针对于当前预设场景对应的图像分类网络可以通过下述步骤30-33进行训练:
步骤30,从样本集中确定场景类别标签为当前预设场景的目标样本;也即是从上述样本集中,场景类别标签为当前预设场景的样本中确定目标样本,例如,如果当前预设场景为漫画场景,可以从漫画数据集d2中确定目标样本。
步骤31,将目标样本中的样本图像输入至训练后的特征提取网络,得到第一输出结果。
步骤32,将第一输出结果输入至当前预设场景对应的所述图像分类网络,得到第二输出结果;基于第二输出结果和样本图像对应的图像类别标签,确定网络损失值。
步骤33,基于网络损失值更新图像分类网络的权重参数;继续执行从样本集中确定场景类别标签为当前预设场景的目标样本的步骤,直到图像分类网络收敛,得到当前预设场景对应的训练后的图像分类网络。
例如,固定训练后的特征网络的权重参数,随机初始化当前预设场景对应的图像分类网络的权重参数w3;然后将目标样本的样本图像输入至特征提取网络和当前预设场景对应的图像分类网络,得到分类结果a,将该分类结果送入激活函数层的softmax函数中,得到第二输出结果b:
其中,bj表示第二输出结果中第j个预设类别对应的概率,aj表示分类结果中第j个元素对应的输出值,ah表示分类结果中第h个元素对应的输出值,h表示第二输出结果和分类结果中包含的元素的总数,也即是预设类别的类别总数。然后基于第二输出结果和样本图像对应的图像类别标签,确定网络损失值l2:
l2=-log(by)
其中,y表示样本图像对应的图像类别标签,by表示第二识别结果中样本图像的图像类别标签对应的图像类别的概率。通过反向传播算法求l2对权重参数w3的导数
然后不断迭代地对w3’进行更新,直到该权重参数收敛,得到训练后的当前预设场景对应的图像分类网络。
步骤s608,基于样本集训练上述训练后的特征提取网络、训练后的场景分类网络、多个训练后的图像分类网络和分类输出网络,得到最终的图像分类模型。
上述步骤s608的目的是为了微调图像分类模型中各个网络的权重参数,以得到可以更加准确地预测图像类别的图像分类模型。在具体实现时,上述步骤s608可以通过下述步骤40-43实现:
步骤40,基于样本集确定训练样本;该训练样本包含有样本图像,以及该样本图像对应的场景类别标签和图像类别标签。
步骤41,将上述样本图像输入至训练后的特征提取网络,输出第一结果,将该第一结果输入至训练后的场景分类网络,输出第二结果。
步骤42,将第一结果分别输入至多个训练后的图像分类网络,得到多个预设场景对应的第三结果;将该第二结果和每个预设场景对应的第三结果输入至分类输出网络,得到输出结果。
步骤43,基于上述输出结果和图像类别标签,确定损失量;基于该损失量更新训练后的特征提取网络、训练后的场景分类网络、多个训练后的图像分类网络和分类输出网络的权重参数;继续执行基于样本集确定训练样本的步骤,直到各个网络收敛,得到图像分类模型。
以多个预设场景包括动画场景、漫画场景和游戏场景为例,对上述步骤40-43进行详细介绍,首先将确定的训练样本的样本图像输入至训练后的特征提取网络,得到第一结果,将该第一结果输入至训练后的场景分类模型,得到分类输出结果z,将该分类输出结果送入激活函数层的softmax函数中,得到第二结果p’;
其中,p′j表示第二结果p’中第j个预设场景对应的概率,j的取值范围为1-3,第1个预设场景表示动画场景、第2个预设场景表示漫画场景、第3个预设场景表示游戏场景;zj表示分类输出结果z中第j个元素对应的输出值,zm表示分类输出结果z中第m个元素对应的输出值。
进而将第一结果分别输入至训练后的动画场景对应的图像分类网络、训练后的漫画场景对应的图像分类网络和训练后的游戏场景对应的图像分类网络,得到动画场景对应的分类结果a1、漫画场景对应的分类结果a2和游戏场景对应的分类结果a3,将上述分类结果分别送入softmax函数得到动画场景对应的第三结果b1、漫画场景对应的第三结果b2和游戏场景对应的第三结果b3:
其中,b1j、b2j、b3j分别表示动画场景对应的第三结果、漫画场景对应的第三结果、游戏场景对应的第三结果中第j个预设类别对应的概率,a1j、a2j、a3j分别表示动画场景对应的分类结果、漫画场景对应的分类结果、游戏场景对应的分类结果中第j个元素对应的输出值,a1h、a2h、a3h表示动画场景对应的分类结果、漫画场景对应的分类结果、游戏场景对应的分类结果中第h个元素对应的输出值,h表示第三结果和分类结果中元素的总数,也即是预设类别的类别总数。
然后将第二结果、动画场景对应的第三结果、漫画场景对应的第三结果和游戏场景对应的第三结果输入至分类输出网络,得到输出结果c:
c=p′1×a1 p′2×a2 p′3×p3;
进一步地,需要基于输出结果和图像类别标签,确定损失量l:
l=-log(cy);
其中,l表示损失量,c表示输出结果,该输出结果中包含有样本图像属于多个预设类别中的每个预设类别的最终概率;cy表示在输出结果中样本图像属于图像类别标签对应的预设类别的最终概率,log表示对数运算。然后通过反向传播算法求l对训练后的特征提取网络的权重参数w1、训练后的场景分类网络w2、训练后的动画场景对应的图像分类网络的权重参数w3、训练后的漫画场景对应的图像分类网络的权重参数w4、训练后的游戏场景对应的图像分类网络的权重参数w5的导数
不断迭代地对训练后的特征提取网络的权重参数、训练后的场景分类网络、训练后的动画场景对应的图像分类网络的权重参数、训练后的漫画场景对应的图像分类网络的权重参数、训练后的游戏场景对应的图像分类网络的权重参数进行更新,直到收敛,得到最终的图像分类模型。
在具体实现时,可以通过用来验证模型的测试集合确定训练后的图像分类模型的识别精度;通常可以从测试集合确定测试样本,该测试样本包含有样本图像,以及该样本图像对应的图像类别标签,将该测试样本中样本图像输入至图像分类模型中可以得到该样本图像的图像类别,将该图像类别与样本图像的图像类别标签进行比对,判定该图像类别是否与图像类别标签相同,如果相同表明本次测试结果正确;然后继续从测试集合中确定测试样本,直到测试集合中的所有样本选取完毕;统计每个测试样本对应的测试结果对应的正确性,得到训练后的图像分类模型的预测精度。
上述图像分类模型的训练方法,与传统图像分类算法相比,该方式可以自动学习与图像类别有关的图像多层级语义特征,从而提高了图像分类精度高。与基于神经网络对直播图像进行分类的方法相比,该方式显式地考虑了不同场景图像表观之间的差异,为了消除不同场景因素对直播图像识别带来的干扰,该方式提供的图像分类模型的核心思想是分而治之,首先由一个场景分类网络来判断输入图像的场景类别,然后为不同的场景各设计一个图像分类网络,这样可以消除场景因素对图像识别结果的影响,最后,融合各个分类网络的输出得到最终的图像分类结果。
针对于上述图像分类方法的实施例,本发明实施例提供了一种图像分类装置,如图7所示,该装置包括:
图像获取模块70,用于获取待处理图像。
图像分类模块71,用于将待处理图像输入至预先训练完成的图像分类模型中,输出该待处理图像的图像类别。其中,该图像分类模型用于:识别待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别待处理图像的图像类别,得到每个预设场景对应的初始分类结果;基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别。
上述图像分类装置,首先获取待处理图像;进而将该待处理图像输入至预先训练完成的图像分类模型中,该图像分类模型识别该待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别待处理图像的图像类别,得到每个述预设场景对应的初始分类结果;基于每个预设场景对应的初始分类结果和场景识别结果,输出该待处理图像的图像类别。该方式中,图像分类模型能够识别图像所包含的场景,基于场景识别结果以及在各场景下得到的图像类别的初始分类结果,确定图像的最终类别;由于在确定图像类别时考虑了图像所包含的场景,从而避免了场景因素的差异对图像类别识别的干扰,进而提高了图像分类的准确度。
具体地,上述场景识别结果包括待处理图像属于每个预设场景的概率;初始分类结果包括待处理图像属于多个预设类别中的每个预设类别的概率;上述图像分类模块71,用于:通过图像分类模型,基于场景识别结果中待处理图像属于每个预设场景的概率,确定每个预设场景对应的初始分类结果的加权权重;基于加权权重和每个预设场景对应的初始分类结果,确定待处理图像属于每个预设类别的最终概率,将最大的所述最终概率对应的预设类别,确定为待处理图像的图像类别。
进一步地,上述图像分类模块71,还用于:针对每个预设场景,将场景识别结果中的待处理图像属于当前场景的概率,确定为当前场景对应的初始分类结果的加权权重;针对每个预设场景,将当前场景对应的加权权重,分别与当前场景对应的初始分类结果中的每个预设类别的概率相乘,得到当前场景下每个预设类别对应的概率乘积;针对每个预设类别,将每个预设场景下当前类别对应的概率乘积相加,得到待处理图像属于当前类别的最终概率。
进一步地,上述图像分类模型包括特征提取网络、场景分类网络、多个预设场景对应的图像分类网络和分类输出网络;该特征提取网络用于从待处理图像中提取图像特征,将图像特征输入至场景分类网络和多个预设场景对应的图像分类网络;场景分类网络用于根据图像特征,识别待处理图像所包含的场景,得到场景识别结果;每个预设场景对应的图像分类网络用于根据图像特征,在预设场景下识别待处理图像的图像类别,得到预设场景对应的初始分类结果;分类输出网络用于基于每个预设场景对应的初始分类结果和场景识别结果,得到待处理图像的图像类别。
本发明实施例所提供的图像分类装置,其实现原理及产生的技术效果和前述图像分类方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
针对于上述图像分类模型的训练方法的实施例,本发明实施例提供了一种图像分类模型的训练装置,如图8所示,该训练装置包括:
样本集获取模块80,用于获取样本集;该样本集包括多个样本,每个样本包含有样本图像,以及样本图像对应的场景类别标签和图像类别标签;其中,该场景类别标签用于指示多个预设场景中的一个场景。
模型训练模块81,用于基于样本集,对图像分类模型的初始模型进行机器学习训练,得到图像分类模型。
上述图像分类模型的训练装置,首先获取样本集,该样本集包括多个样本,每个样本包含有样本图像以及该样本图像对应的场景类别标签和图像类别标签;进而基于该样本集,对图像分类模型的初始模型进行机器学习训练,得到图像分类模型。该方式在训练图像分类模型时,考虑到了不同场景下的图像的差异,以使在运用训练后的图像分类模型进行图像分类时,可以消除场景因素对图像识别结果的影响,从而提升了图像分类模型的泛化能力和分类准确度。
具体地,上述图像分类模型的初始模型包括特征提取网络、场景分类网络、多个预设场景对应的图像分类网络和分类输出网络;上述模型训练模块81,包括:第一训练单元,用于基于样本集训练特征提取网络和场景分类网络,得到训练后的特征提取网络和训练后的场景分类网络;第二训练单元,用于针对每个预设场景对应的图像分类网络,通过样本集中场景类别标签为当前预设场景的样本,训练当前预设场景对应的图像分类网络,得到训练后的图像分类网络;第三训练单元,用于基于样本集训练训练后的特征提取网络、训练后的场景分类网络、多个训练后的图像分类网络和分类输出网络,得到最终的图像分类模型。
进一步地,上述第二训练单元,还用于:从样本集中确定场景类别标签为当前预设场景的目标样本;将目标样本中的样本图像输入至训练后的特征提取网络,得到第一输出结果;将第一输出结果输入至当前预设场景对应的图像分类网络,得到第二输出结果;基于第二输出结果和样本图像对应的图像类别标签,确定网络损失值;基于网络损失值更新图像分类网络的权重参数;继续执行从样本集中确定场景类别标签为当前预设场景的目标样本的步骤,直到图像分类网络收敛,得到当前预设场景对应的训练后的图像分类网络。
进一步地,上述第三训练单元,还用于:基于样本集确定训练样本;该训练样本包含有样本图像,以及样本图像对应的场景类别标签和图像类别标签;将样本图像输入至训练后的特征提取网络,输出第一结果,将该第一结果输入至训练后的场景分类网络,输出第二结果;将第一结果分别输入至多个训练后的图像分类网络,得到多个预设场景对应的第三结果;将第二结果和每个预设场景对应的第三结果输入至分类输出网络,得到输出结果;基于输出结果和图像类别标签,确定损失量;基于损失量更新训练后的特征提取网络、训练后的场景分类网络、多个训练后的图像分类网络和分类输出网络的权重参数;继续执行基于样本集确定训练样本的步骤,直到各个网络收敛,得到图像分类模型。
在具体实现时,上述损失量通过下述算式确定:
l=-log(cy);
其中,l表示损失量,c表示输出结果,该输出结果中包含有样本图像属于多个预设类别中的每个预设类别的最终概率;cy表示在输出结果中样本图像属于所述图像类别标签对应的预设类别的最终概率,log表示对数运算。
本发明实施例所提供的图像分类模型的训练装置,其实现原理及产生的技术效果和前述图像分类模型的训练方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种电子设备,如图9所示,该电子设备包括处理器101和存储器100,该存储器100存储有能够被处理器101执行的机器可执行指令,该处理器101执行机器可执行指令以实现上述图像分类方法或者上述图像分类模型的训练方法。
进一步地,图9所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(ram,randomaccessmemory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现成可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述图像分类方法或者上述图像分类模型的训练方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的图像分类方法、图像分类模型的训练方法和装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
1.一种图像分类方法,其特征在于,所述方法包括:
获取待处理图像;
将所述待处理图像输入至预先训练完成的图像分类模型中,输出所述待处理图像的图像类别;
其中,所述图像分类模型用于:识别所述待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别所述待处理图像的图像类别,得到每个所述预设场景对应的初始分类结果;基于每个所述预设场景对应的初始分类结果和所述场景识别结果,得到所述待处理图像的图像类别。
2.根据权利要求1所述的方法,其特征在于,所述场景识别结果包括所述待处理图像属于每个所述预设场景的概率;所述初始分类结果包括所述待处理图像属于多个预设类别中的每个所述预设类别的概率;
所述基于每个所述预设场景对应的初始分类结果和所述场景识别结果,得到所述待处理图像的图像类别的步骤,包括:
基于所述场景识别结果中所述待处理图像属于每个所述预设场景的概率,确定每个所述预设场景对应的初始分类结果的加权权重;
基于所述加权权重和每个所述预设场景对应的初始分类结果,确定所述待处理图像属于每个所述预设类别的最终概率,将最大的所述最终概率对应的预设类别,确定为所述待处理图像的图像类别。
3.根据权利要求2所述的方法,其特征在于,所述基于所述场景识别结果中所述待处理图像属于每个所述预设场景的概率,确定每个所述预设场景对应的初始分类结果的加权权重的步骤,包括:
针对每个所述预设场景,将所述场景识别结果中的所述待处理图像属于当前场景的概率,确定为所述当前场景对应的初始分类结果的加权权重;
所述基于所述加权权重和每个所述预设场景对应的初始分类结果,确定所述待处理图像属于每个所述预设类别的最终概率的步骤,包括:
针对每个所述预设场景,将当前场景对应的所述加权权重,分别与所述当前场景对应的初始分类结果中的每个预设类别的概率相乘,得到所述当前场景下每个所述预设类别对应的概率乘积;
针对每个所述预设类别,将每个所述预设场景下当前类别对应的概率乘积相加,得到所述待处理图像属于所述当前类别的最终概率。
4.根据权利要求1所述的方法,其特征在于,所述图像分类模型包括特征提取网络、场景分类网络、多个所述预设场景对应的图像分类网络和分类输出网络;
所述特征提取网络用于从所述待处理图像中提取图像特征,将所述图像特征输入至所述场景分类网络和多个所述预设场景对应的图像分类网络;
所述场景分类网络用于根据所述图像特征,识别所述待处理图像所包含的场景,得到场景识别结果;每个所述预设场景对应的图像分类网络用于根据所述图像特征,在所述预设场景下识别所述待处理图像的图像类别,得到所述预设场景对应的初始分类结果;
所述分类输出网络用于基于每个所述预设场景对应的初始分类结果和所述场景识别结果,得到所述待处理图像的图像类别。
5.一种图像分类模型的训练方法,其特征在于,所述训练方法包括:
获取样本集;所述样本集包括多个样本,每个样本包含有样本图像,以及所述样本图像对应的场景类别标签和图像类别标签;其中,所述场景类别标签用于指示多个预设场景中的一个场景;
基于所述样本集,对所述图像分类模型的初始模型进行机器学习训练,得到所述图像分类模型。
6.根据权利要求5所述的训练方法,其特征在于,所述图像分类模型的初始模型包括特征提取网络、场景分类网络、多个预设场景对应的图像分类网络和分类输出网络;
所述基于所述样本集,对所述图像分类模型的初始模型进行机器学习训练,得到所述图像分类模型的步骤,包括:
基于所述样本集训练所述特征提取网络和所述场景分类网络,得到训练后的特征提取网络和训练后的场景分类网络;
针对每个预设场景对应的图像分类网络,通过所述样本集中所述场景类别标签为当前预设场景的样本,训练所述当前预设场景对应的图像分类网络,得到训练后的图像分类网络;
基于所述样本集训练所述训练后的特征提取网络、所述训练后的场景分类网络、多个所述训练后的图像分类网络和所述分类输出网络,得到最终的图像分类模型。
7.根据权利要求6所述的训练方法,其特征在于,通过所述样本集中所述场景类别标签为当前预设场景的样本,训练所述当前预设场景对应的图像分类网络,得到训练后的图像分类网络的步骤,包括:
从所述样本集中确定所述场景类别标签为当前预设场景的目标样本;
将所述目标样本中的样本图像输入至所述训练后的特征提取网络,得到第一输出结果;
将所述第一输出结果输入至所述当前预设场景对应的所述图像分类网络,得到第二输出结果;基于所述第二输出结果和所述样本图像对应的图像类别标签,确定网络损失值;
基于所述网络损失值更新所述图像分类网络的权重参数;继续执行从所述样本集中确定所述场景类别标签为当前预设场景的目标样本的步骤,直到所述图像分类网络收敛,得到当前预设场景对应的训练后的图像分类网络。
8.根据权利要求6所述的训练方法,其特征在于,所述基于所述样本集训练所述训练后的特征提取网络、所述训练后的场景分类网络、多个所述训练后的图像分类网络和所述分类输出网络,得到最终的图像分类模型的步骤,包括:
基于所述样本集确定训练样本;所述训练样本包含有样本图像,以及所述样本图像对应的场景类别标签和图像类别标签;
将所述样本图像输入至所述训练后的特征提取网络,输出第一结果,将所述第一结果输入至所述训练后的场景分类网络,输出第二结果;
将所述第一结果分别输入至多个所述训练后的图像分类网络,得到多个预设场景对应的第三结果;将所述第二结果和每个预设场景对应的第三结果输入至所述分类输出网络,得到输出结果;
基于所述输出结果和所述图像类别标签,确定损失量;基于所述损失量更新所述训练后的特征提取网络、所述训练后的场景分类网络、多个所述训练后的图像分类网络和所述分类输出网络的权重参数;继续执行基于所述样本集确定训练样本的步骤,直到各个网络收敛,得到图像分类模型。
9.根据权利要求8所述的训练方法,其特征在于,所述基于所述输出结果和所述图像类别标签,确定损失量的步骤,包括:
所述损失量通过下述算式确定:
l=-log(cy);
其中,l表示所示损失量,c表示所述输出结果,所述输出结果中包含有所述样本图像属于多个预设类别中的每个预设类别的最终概率;cy表示在所述输出结果中所述样本图像属于所述图像类别标签对应的预设类别的最终概率,log表示对数运算。
10.一种图像分类装置,其特征在于,所述装置包括:
图像获取模块,用于获取待处理图像;
图像分类模块,用于将所述待处理图像输入至预先训练完成的图像分类模型中,输出所述待处理图像的图像类别;
其中,所述图像分类模型用于:识别所述待处理图像所包含的场景,得到场景识别结果;在多个预设场景下识别所述待处理图像的图像类别,得到每个所述预设场景对应的初始分类结果;基于每个所述预设场景对应的初始分类结果和所述场景识别结果,得到所述待处理图像的图像类别。
11.一种图像分类模型的训练装置,其特征在于,所述训练装置包括:
样本集获取模块,用于获取样本集;所述样本集包括多个样本,每个样本包含有样本图像,以及所述样本图像对应的场景类别标签和图像类别标签;其中,所述场景类别标签用于指示多个预设场景中的一个场景;
模型训练模块,用于基于所述样本集,对所述图像分类模型的初始模型进行机器学习训练,得到所述图像分类模型。
12.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至4任一项所述的图像分类方法或者权利要求5至9任一项所述的图像分类模型的训练方法。
13.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使处理器实现权利要求1至4任一项所述的图像分类方法或者权利要求5至9任一项所述的图像分类模型的训练方法。
技术总结