本说明书涉及数据处理领域,尤其涉及一种训练样本筛选方法及装置。
背景技术:
1、在机器学习的过程中,往往需要获取大量的标注样本,训练分类器,以提高分类器的性能。由于训练样本的标注成本较高,以及在海量的训练样本中,所有训练样本对提高分类器的性能的价值是不同的,因此,筛选有价值的训练样本进行标注对训练分类器是至关重要的。
2、目前,一般采用基于不确定性的采样策略实现训练样本的筛选。例如,通过未充分训练的分类器确定训练样本的类别概率分布,并根据该类别概率分布确定训练样本的熵,该熵用于衡量训练样本的不确定性,从而筛选出不确定性高的训练样本进行标注,实现分类器的训练。但是这种单纯基于不确定性的采样策略实现训练样本筛选的方法考虑范围不全面,通用性较差,难以有效筛选价值高的训练样本,从而使得分类器的训练效率不理想。
3、基于此,本说明书提供一种训练样本筛选方法及装置。
技术实现思路
1、本说明书提供一种训练样本筛选方法及装置,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供了一种训练样本筛选方法,所述方法包括:
4、获取待训练的分类模型,并通过迭代更新已标注样本池,训练所述分类模型,对所述已标注样本池的迭代更新过程包括:针对任一迭代过程,将未标注的各训练样本,输入所述分类模型,分别确定各训练样本的当前预测概率分布;
5、针对每个训练样本,获取该训练样本在历史迭代训练过程的历史预测概率分布;
6、根据所述历史预测概率分布以及所述当前预测概率分布,确定该训练样本的第一分值,其中,所述历史预测概率分布与所述当前预测概率分布之间的差异越大,第一分值越高;
7、确定所述已标注样本池中各类别标注分别对应的标注样本的占比,并根据各占比以及所述当前预测概率分布,确定该训练样本的第二分值;
8、根据所述第一分值以及所述第二分值,确定该训练样本的总分值;
9、根据各训练样本的总分值的排序,筛选若干训练样本进行标注,并更新已标注样本池,以根据更新后的已标注样本池训练所述分类模型;
10、当所述分类模型达到预设的收敛条件时,停止迭代,确定训练完成的分类模型。
11、可选地,根据所述历史预测概率分布以及所述当前预测概率分布,确定该训练样本的第一分值,具体包括:
12、将所述历史预测概率分布以及所述当前预测概率分布,作为该训练样本的预测概率分布组;
13、针对所述预测概率分布组中的每个预测概率分布,根据该预测概率分布,确定该训练样本的第一边缘值;
14、根据该预测概率分布对应的上一迭代过程中的预测概率分布,确定该训练样本的第二边缘值;
15、确定该预测概率分布与上一迭代过程的预测概率分布之间的最优距离;
16、根据所述第一边缘值以及所述第二边缘值,确定该预测概率分布的系数值,并通过所述系数值对所述最优距离进行加权;
17、根据加权后的各最优距离,确定该训练样本的第一分值。
18、可选地,根据所述历史预测概率分布以及所述当前预测概率分布,确定该训练样本的第一分值,具体包括:
19、将所述历史预测概率分布以及所述当前预测概率分布,作为该训练样本的预测概率分布组;
20、针对所述预测概率分布组中的每个预测概率分布,根据该预测概率分布,确定该训练样本的第一边缘值;
21、根据该预测概率分布对应的上一迭代过程中的预测概率分布,确定该训练样本的第二边缘值;
22、确定该预测概率分布与该预测概率分布的上一迭代过程的预测概率分布之间的最优距离;
23、确定所述第一边缘值以及所述第二边缘值的比值;
24、从各预测概率分布中,确定比值落入预设范围的预测概率分布,作为第一预测概率分布;
25、根据各第一预测概率分布对应的最优距离,确定第一分值。
26、可选地,根据各占比以及所述当前预测概率分布,确定该训练样本的第二分值,具体包括:
27、通过各占比对当前预测概率分布进行加权,确定加权后的当前预测概率分布;
28、将所述加权后的当前预测概率分布的信息熵,作为该训练样本的第二分值。
29、可选地,所述分类模型至少包括预设的逻辑规则;
30、根据所述第一分值以及所述第二分值,确定该训练样本的总分值,具体包括:
31、针对每一训练样本,从所述逻辑规则中确定的第一逻辑规则,当该训练样本满足所述第一逻辑规则时,确定所述已标注样本池中与该训练样本相关联的标注样本,并确定所述相关联的标注样本的数量;
32、根据所述数量,确定该训练样本的关联度;
33、根据所述关联度确定该训练样本的第三分值,其中,所述第三分值与所述关联度成正相关;
34、根据所述第一分值、所述第二分值以及所述第三分值,确定该训练样本的总分值。
35、可选地,根据所述第一分值以及所述第二分值,确定该训练样本的总分值,具体包括:
36、构建强化学习模型,并初始化所述强化学习模型;
37、确定当前迭代过程中分类模型的性能值,作为第一性能值;
38、确定上一迭代过程中分类模型的性能值,作为第二性能值;
39、根据所述第一性能值以及各训练样本的当前预测概率分布,确定当前状态;
40、根据所述当前状态,通过调整后的强化学习模型,确定当前动作,其中,所述当前动作包括第一分值权重和第二分值权重;
41、针对每一训练样本,通过所述第一分值权重对该训练样本的第一分值进行加权;
42、通过所述第二分值权重对该训练样本的第二分值进行加权;
43、将加权后的第一分值和第二分值的和值,作为该训练样本的总分值。
44、可选地,确定该训练样本的总分值,具体包括:
45、构建强化学习模型,并初始化所述强化学习模型;
46、确定当前迭代过程中分类模型的性能值,作为第一性能值;
47、确定上一迭代过程中分类模型的性能值,作为第二性能值;
48、根据所述第一性能值和所述第二性能值,调整所述强化学习模型;
49、根据所述第一性能值以及各训练样本的当前预测概率分布,确定当前状态;
50、根据所述当前状态,通过调整后的强化学习模型,确定当前动作,其中,所述当前动作包括第一分值权重、第二分值权重以及第三分值权重;
51、针对每一训练样本,通过所述第一分值权重对该训练样本的第一分值进行加权;
52、通过所述第二分值权重对该训练样本的第二分值进行加权;
53、通过所述第三分值权重对该训练样本的第三分值进行加权;
54、将加权后的第一分值、第二分值以及第三分值的和值,作为该训练样本的总分值。
55、本说明书提供了一种训练样本筛选装置,所述装置包括:
56、第一获取模块,用于获取待训练的分类模型,并通过迭代更新已标注样本池,训练所述分类模型,对所述已标注样本池的迭代更新过程包括:针对任一迭代过程,将未标注的各训练样本,输入所述分类模型,分别确定各训练样本的当前预测概率分布;
57、第二获取模块,用于针对每个训练样本,获取该训练样本在历史迭代训练过程的历史预测概率分布;
58、第一分值模块,用于根据所述历史预测概率分布以及所述当前预测概率分布,确定该训练样本的第一分值,其中,所述历史预测概率分布与所述当前预测概率分布之间的差异越大,第一分值越高;
59、第二分值模块,用于确定所述已标注样本池中各类别标注分别对应的标注样本的占比,并根据各占比以及所述当前预测概率分布,确定该训练样本的第二分值;
60、总分值模块,用于根据所述第一分值以及所述第二分值,确定该训练样本的总分值;
61、筛选模块,用于根据各训练样本的总分值的排序,筛选若干训练样本进行标注,并更新已标注样本池,以根据更新后的已标注样本池训练所述分类模型;
62、确定模块,用于当所述分类模型达到预设的收敛条件时,停止迭代,确定训练完成的分类模型。
63、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现一种训练样本筛选方法。
64、本说明书提供了一种电子设备,所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现一种训练样本筛选方法。
65、本说明书采用的上述至少一个技术方案能够达到以下有益效果:在本说明书提供的一种训练样本筛选方法中,获取待训练的分类模型,并通过迭代筛选训练样本,更新已标注样本池,迭代训练该分类模型,其中,针对每一次迭代过程,将未标注的各训练样本,输入分类模型,得到各训练样本对应的当前预测概率分布,并针对每个训练样本,获取该训练样本在历史迭代过程的历史预测概率分布。根据历史预测概率分布和当前预测概率分布,确定第一分值,以及确定已标注样本池中各类别标注分别对应的训练样本的占比,根据各占比以及当前预测概率分布,确定第二分值。进而根据该训练样本的第一分值和第二分值,确定总分值,按照各训练样本总分值的排序,筛选若干训练样本进行标注,并更新已标注样本池,该已标注样本池用于训练分类模型,直至该分类模型达到预设的收敛条件为止。
66、从上述方法可以看出,通过引入训练样本的历史预测概率分布和已标注样本池中各类别标注分别对应的训练样本的占比,关注了训练样本的历史信息以及训练样本为各类别标注的倾向,以及结合第一分值和第二分值得到各训练样本的总分值,进而通过总分值的排序进行训练样本的筛选,通用性更高,以及通过迭代更新已标注样本池训练分类模型,提高了训练效率。
1.一种训练样本筛选方法,其特征在于,包括:
2.如权利要求1所述方法,其特征在于,根据所述历史预测概率分布以及所述当前预测概率分布,确定该训练样本的第一分值,具体包括:
3.如权利要求1所述方法,其特征在于,根据所述历史预测概率分布以及所述当前预测概率分布,确定该训练样本的第一分值,具体包括:
4.如权利要求1所述方法,其特征在于,根据各占比以及所述当前预测概率分布,确定该训练样本的第二分值,具体包括:
5.如权利要求1所述方法,其特征在于,所述分类模型至少包括预设的逻辑规则;
6.如权利要求1所述方法,其特征在于,根据所述第一分值以及所述第二分值,确定该训练样本的总分值,具体包括:
7.如权利要求4所述方法,其特征在于,确定该训练样本的总分值,具体包括:
8.一种训练样本筛选装置,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。