本发明属于工业互联网大数据与机器学习领域,具体涉及基于混合采样和动态集成学习的漂移数据流分类方法。
背景技术:
1、工业互联网大数据广泛产生于当前工业生产中,其特点为时序性强,数据质量低,且不失一般性,故其分布可能会随时间变化,就会导致概念漂移。在这种情况下,根据历史数据创建的分类器可能无法识别新概念,从而导致分类错误。此外,属于各种类别的数据量可能会偏斜,形成不平衡的数据流。而传统的分类方法更多考虑多数类,忽略少数类的影响,导致泛化能力差。因此对于具有概念漂移的不平衡数据流进行分类是一个具有挑战性的问题。
2、为解决概念漂移问题,现有技术包含了对适应新概念的大量研究,这些研究主要分为主动和被动两种方法。主动方法依赖于对数据分布中的变化的显式检测,以激活自适应机制,而被动方法随着时间的推移连续地更新模型(不需要对变化的显式检测)。
3、数据流的一个挑战问题是类不平衡,其中一个类的实例数量占比较大,被称为多数,另外一部分被称为少数类。不平衡数据可能会导致少数类上的基本分类器泛化较差,以及集成结构不适。为了解决这一问题,许多研究致力于将重采样技术引入集合模型。通过重采样新生成的少数实例的质量直接影响分类精度和学习效率。为了简化计算,通过复制新到达的少数实例来平衡不对称数据流,这些实例可能为分类提供无价值的信息。尤其是,基于这些实例构建的新基准分类器可能会过拟合,导致漂移适应性不足。一些处理不平衡的方法是在过去的数据中累积少数实例,该技术在静态数据流中工作,并且在概念漂移中具有有限的性能。单一的采样方法效率都存在显著缺点,而混合采样方式在效率和性能上明显的提升。
4、构建集成分类器是被动方法常见的选择,因为它具有适应数据流变化的特性。现有的集成分类器集成当前全部实例的全局分类决定,忽略了各个分类器之间的差异性。假设概念漂移仅发生在整个特征空间的一小部分区域,并且新创建的基分类器在该特定区域表现优于旧的分类器。在这种情况下,由于数量因素,整体的分类效果会被就旧分类器大大影响,为解决该问题,为新增的基分类器添加不同权重,提高其对最终分类结果的影响因子。同时,这也会削弱旧的基分类器的贡献,导致学习效率低下。
5、因此,以上现有技术未能平衡新旧基分类器的多个影响因素,且未能综合考虑不同分类器的局部特性。
技术实现思路
1、为解决以上现有问题,本发明提供了基于混合采样和动态集成学习的漂移数据流分类方法,包括:
2、s1、对原始数据流进行分块处理,得到多个数据区块;
3、s2、利用混合采样技术对每个数据区块进行混合采样,得到多个平衡数据区块,将多个平衡数据区块组合,得到平衡数据集;
4、s3、利用平衡数据集生成候选分类器池;
5、s4、利用改进的knora-e算法根据候选分类器池和平衡数据集中的平衡数据区块构建最佳分类集成模型;
6、s5、根据最佳分类集成模型计算分类结果,根据分类结果计算评估指标,根据评估指标更新最佳分类集成模型的权重;
7、s6、获取待测样本,获取待测样本的最佳分类集成模型,将待测样本输入最佳分类集成模型,得到分类结果。
8、利用混合采样技术对数据区块进行混合采样包括:
9、s21、将数据区块中的样本划分为少数类样本集合和多数类样本集合;
10、s22、利用borderline-smote技术处理少数类样本集合,得到新的少数类样本集合;
11、s23、利用easyensemble技术处理多数类样本集合,得到多个新的多数类样本集合;
12、s24、将新的少数类样本集合与每个新的多数类样本集合合并,得到多个平衡数据区块。
13、利用borderline-smote技术处理少数类样本集合包括:
14、s221、获取每个少数类样本的k近邻样本,计算每个少数类样本的k近邻样本中多数类样本的比例θi;
15、s222、根据比例θi将少数类样本分为噪声样本、危险样本和安全样本;
16、s223、根据噪声样本、危险样本和安全样本采用smote算法计算新的少数类样本集合。
17、计算新的少数类样本集合包括:
18、对安全样本进行采样,得到采样样本集合;删除噪声样本;在安全样本与其k近邻样本之间进行插值,得到新的合成样本;将采样样本集合和新的合成样本进行结合,得到新的少数类样本集合。
19、利用easyensemble技术处理多数类样本集合包括:对多数类样本集合进行随机采样,得到多个多数类子集,每个多数类子集中包含与新的少数类样本集合中的样本相同数量的多数类样本。
20、利用平衡数据集生成候选分类器池包括:生成候选分类器池,利用平衡数据集构建并训练多个基分类器,得到训练好的基分类器ci以及训练好的基分类器ci的训练时间、复杂度、构建时间;设置候选分类器池p的最大容量m,将训练好的基分类器ci添加到候选分类器池p中,若候选分类器池p的容量大于最大容量m,则删除构建时间最早的基分类器ci。
21、根据候选分类器池和平衡数据集的平衡数据区块利用改进的knora-e算法构建最佳的分类集成模型包括:
22、s31、获取平衡数据区块bl中每个样本xl,j的k近邻样本,将样本xl,j与其k近邻样本进行组合,得到样本xl,j的局部邻域n(xl,j);
23、s32、利用候选分类器池的每个基分类器ci对样本xl,j的局部邻域n(xl,j)进行分类,得到分类结果fi,l,j;
24、s33、根据分类结果fi,l,j计算候选分类器池的每个基分类器ci在样本xl,j的局部邻域n(xl,j)中的准确率;
25、s34、根据每个基分类器ci的复杂度、训练时间、构建时间以及在样本xl,j的局部邻域n(xl,j)中的准确率选择一组最佳的基分类器,得到样本xl,j的最佳分类集成模型。
26、优选地,获取平衡数据区块bl中每个样本xl,j的k近邻样本的方法为knn算法。
27、根据最佳分类集成模型计算分类结果包括:
28、根据最佳分类集成模型的基分类器ci的权重对最佳分类集成模型的所有基分类器ci的分类结果fi,k,j进行加权结合,得到每个类别的软得票数,选择软得票数最高的类别作为最终的分类结果。
29、优选地,评估指标为精确度。
30、有益效果:
31、1、本发明引入了一种混合采样算法,通过borderline-smote和easyensemble方法生成新样本平衡类别分布,改善分类器性能和鲁棒性,提高模型对少数类样本的识别能力,减少模型对多数类样本的过度拟合,从而提高整体分类准确;2、本发明通过使用改进的knora-e算法,综合考虑不同分类器的局部特性、复杂度、训练时间以及构建时间,在集成学习模型中根据数据的变化动态选择适合的分类器,提高模型的性能和泛化能力;3、混合采样和动态集成模型的结合对于提升工业互联网大数据分析和决策的准确性和效率具有重要意义。
1.基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,包括:
2.根据权利要求1所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,利用混合采样技术对数据区块进行混合采样包括:
3.根据权利要求2所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,利用borderline-smote技术处理少数类样本集合包括:
4.根据权利要求3所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,计算新的少数类样本集合包括:
5.根据权利要求2所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,利用easyensemble技术处理多数类样本集合包括:对多数类样本集合进行随机采样,得到多个多数类子集,每个多数类子集中包含与新的少数类样本集合中的样本相同数量的多数类样本。
6.根据权利要求1所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,利用平衡数据集生成候选分类器池包括:生成候选分类器池,利用平衡数据集构建并训练多个基分类器,得到训练好的基分类器ci以及训练好的基分类器ci的训练时间、复杂度、构建时间;设置候选分类器池p的最大容量m,将训练好的基分类器ci添加到候选分类器池p中,若候选分类器池p的容量大于最大容量m,则删除构建时间最早的基分类器ci。
7.根据权利要求1所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,根据候选分类器池和平衡数据集的平衡数据区块利用改进的knora-e算法构建最佳分类集成模型包括:
8.根据权利要求7所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,获取平衡数据区块bl中每个样本xl,j的k近邻样本的方法为knn算法。
9.根据权利要求1所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,根据最佳分类集成模型计算分类结果包括:
10.根据权利要求1所述的基于混合采样和动态集成学习的漂移数据流分类方法,其特征在于,评估指标为精确度。