本发明涉及河道水质监测,具体为一种基于元模型的河道水质监测数据插补方法。
背景技术:
1、近年来,随着智慧水务的推动与发展,对于河道水质数据的质量需求愈来愈高。高精度、高质量的水质监测数据是实现水体污染预警研究的基础,是实现智慧水务的保障。当前水质监测数据因传感器故障、数据传输与处理错误以及人为操作或管理等问题易产生不同缺失情况下的数据缺失问题。在不同缺失情况下对数据集采取不同的缺失处理方法会对研究结果产生一定的影响,因此研究一种具有高精度插补性能以及强泛化性的河道水质监测数据插补方法具有重要意义。
2、统计插补方法在解决简单缺失情况下数据插补是有效的,但其无法捕捉河道水质监测数据中的时间关系。时间序列插补模型能有效的获取数据之间的时间关联性,但在多元插补情况下表现较弱。生成插补模型擅于捕捉变量之间的复杂关系,能有限的解决多元插补问题。这些插补方法都对数据集有着针对性,方法的泛化性较弱,无法满足现实河道水质监测数据缺失类型不固定的情形。
技术实现思路
1、针对现有技术中存在的问题,本发明提供一种基于元模型的河道水质监测数据插补方法,利用元模型整合各类插补模型优势,在保证模型插补性能的同时,提高模型的泛化能力。
2、本发明提供了一种基于元模型的河道水质监测数据插补方法,包括如下步骤:
3、s1:基于河道水质监测原始数据,根据不同缺失情况和缺失程度分类进行模拟缺失,构建不同缺失情况下的数据集;
4、s2:针对不同缺失情况下的数据集,分别构建统计插补模型、时间序列插补模型以及生成式插补模型作为基模型,基于各缺失情况下的数据集,利用交叉验证方法对各模型进行训练并获得各模型插补结果;
5、s3:将各模型在同一缺失情况下获得的插补结果组合构成元特征集,并将各缺失情况下的元特征集组合为元特征矩,同时构建真实标签向量;
6、s4:基于元特征矩阵训练和测试元模型,并在测试通过后对基于元模型的河道水质监测数据插补模型进行评价。
7、进一步的,在步骤s1中,根据缺失率和缺失窗口大小划分不同缺失情况,利用人工模拟缺失方式,按照随机缺失机制,对河道水质监测原始数据进行人工模拟缺失,生成符合缺失情况的缺失数据集。
8、进一步的,在步骤s2中,针对不同缺失情况下的数据集分别构建统计插补模型、时间序列插补模型以及生成式插补模型作为基模型,并基于具体缺失情况下的缺失数据集对各模型利用交叉验证法进行训练和验证,得到各模型的预测结果。
9、各插补基模型具体为:
10、平均值插补模型、mice多重插补模型、brits双向循环时间序列插补模型、saits基于自注意力机制的时间序列插补模型以及gain生成式插补模型。
11、其中,平均值插补模型、mice多重插补模型在解决简单的数据缺失模式上具有优秀的性能;brts双向循环时间序列插补模型能够捕捉时间序列中的时间相关性并考虑序列上下文进行插补;saits基于自注意力机制的时间序列插补模型引入了注意力机制,使得模型可以更加关注对缺失值有重要影响的时间点和特征;gain生成式插补模型擅于捕捉变量之间的复杂关系,在多变量缺失数据插补情况下具有良好的表现。
12、进一步的,在步骤s3中,将同一缺失情况下各基模型对于验证集的插补结果组合构成元特征集,对每种缺失情况均进行上述操作,获得每种缺失情况下的元特征集。将所有元特征集组合成元特征矩阵,同时将人工模拟缺失处的真实值构建为真实标签向量。利用元特征集和真实标签向量对元模型进行训练与验证,通过测试得到基于元模型的河道水质监测数据插补模型。
13、其中,步骤s3中的元模型为逻辑回归模型。
14、进一步的,在步骤s4中,采用均方根误差和归一化网络稳定性指数对所述基于元模型的河道水质监测数据插补模型进行评价。
15、相对于现有技术,本发明主要提供一种基于元模型的河道水质监测数据插补模型,通过构建不同缺失情况下的数据集,利用不同类别的插补基模型对每种缺失情况下的数据集进行训练和验证,并整合各模型的插补结果用于元模型的训练、验证和测试。在提高了模型插补精度的同时,解决了当前使用单一插补方法而存在的方法泛化性弱,无法适用不同缺失情况下河道水质监测数据插补的问题,所提出的方法具有强泛化性,可以很好的应用于不同缺失情况下的河道水质监测数据插补,便于不同河道的推广。
1.一种基于元模型的河道水质监测数据插补方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于元模型的河道水质监测数据插补方法,其特征在于,所述步骤s1,具体为根据缺失率以及缺失窗口大小划分不同缺失情况,并按照随机缺失机制,对获取得河道水质监测原始数据进行人工模拟缺失,生成符合不同缺失情况下的数据集。
3.根据权利要求1所述的基于元模型的河道水质监测数据插补方法,其特征在于,所述步骤s2,具体为根据不同缺失情况下的数据集分别构建统计插补模型、时间序列插补模型以及生成式插补模型作为基模型,并利用交叉验证方法对各模型进行训练和验证,包括:
4.根据权利要求3所述的基于元模型的河道水质监测数据插补方法,其特征在于,所述统计插补模型、时间序列插补模型以及生成式插补模型包括:
5.根据权利要求1所述的基于元模型的河道水质监测数据插补方法,其特征在于,所述步骤s3,具体为:
6.根据权利要求5所述的基于元模型的河道水质监测数据插补方法,其特征在于,所述元模型为逻辑回归模型,其特点是能有限结合多个基模型的插补结果,提高模型性能的同时具有较强的解释性以及模型复杂度低的特点。
7.根据权利要求1所述的基于元模型的河道水质监测数据插补方法,其特征在于,所述步骤s4,采用均方根误差rmse和归一化网络稳定性评估nnse对所述基于元模型的河道水质监测数据插补模型进行评价。