本发明属于电力技术领域,涉及电力数据分析,用于配电网场景下的电表数据分析,为一种单相电表相别判断方法。
背景技术:
电力负荷建模、电力网络损耗计算等在内的电网运行数据分析处理,对提高电网自动化水平,有着非常关键的意义,有助于改善供电质量、提高供电可靠性。在此过程中,单相智能电表的相别信息,对于电网运行数据分析处理具有重要价值,可使负荷建模、网损计算等更为精确,可进一步用于负荷平衡性分析与负荷不平衡治理等。基于目前庞大的电表数量,进行人工识别确认明显不现实,因此需要单相电表相别自动判断方法。目前相别判断的方法主要有以下几种:
1.基于信息聚类的判断方法。不同相位的电压在时序上存在差异,通过对单相电表在同一时刻的电压进行采集并进行聚类分析,由此判别电表相别。这种方法简易常用,但准确性还有待提高,另外,由于是基于同时采集的数据进行聚类,对采集设备及其设置有较高要求,否会存在数据收集不同步以致对电表相位判断结果造成影响的情况。
2.基于载波通信的判断方法。这种方法需要集中器与智能电表均安装载波通信模块,集中器向电表发送载波信号,通过电表的响应来判断其所测相位。但这种方法对设备要求程度较高,不易推广。
技术实现要素:
本发明要解决的问题是:电网运行数据分析需要进行电表相别判断,但现有方法在准确性、数据同步性及实用易推广等方面难以满足需求。
本发明的技术方案为:一种单相电表相别判断方法,先根据电表和关口表历史数据建立判别模型,用于判别电表所属的关口表及相别;对电表进行实时判别时,对各电表和关口表采集数据,每天根据建立的判别模型判断电表所属的关口表和相别,然后对多天的结果进行汇总,对各电表每天的判别结果,选择出现天数最多的结果为该电表所属关口电表和相别。
进一步的,以及实时判别时,对于采集的电表和关口表数据使用模拟数据的方法修正电表电压电流和关口表电压电流,包括以下步骤:
1)对于每一块电表随机抽取设定比例的电压、电流数据,并对应电表数据的抽取时间,抽取所有关口表相对应的电流、电压数据;
2)数据处理:将全部抽取的数据按照时间的从小到大排序,得到n组数据组[电表电压,电表电流,关口表电压,关口表电流],设置变量x表示数据组编号,变量x∈[1,n];
3)对数据组使用邻近拟合或线性插值的方法进行处理,得到新的数据集,用于输入判别模型进行判断;或从n组数据组中随机抽取设定比例的数据,分别使用邻近拟合和线性插值的方法进行处理,以抽取数据预测未被抽取数据,得到新的数据集,用于输入判别模型进行判断。
作为优选方式,本发明所述判别模型为:以电表电压为因变量,电表电流、关口表电压、关口表电流为自变量构建模型,由电表和关口表的历史数据构建训练集和测试集,训练集用于训练模型,测试集用于评判模型的好坏;测试时将测试集中电表的电压、电流分别与不同的关口表的a、b、c三相的电压、电流代入模型,得出模型的判别系数,选择决判别系数最大的结果,该结果对应的关口表和相位即是该电表所属的关口表和相位。
与现有技术相区别,本发明对数据集和算法模型结果的应用进行了调整,现有技术均采用多日数据代入模型进行计算,一般采用周数据进行,因为一般认为数据量过少会存在降低准确率,增加偶然性的问题,单日数据的判别结果准确率一般不超过90%;而本发明采用单日数据代入计算,然后综合多个单日结果进行投票制评判得出最后的相别结果,所得结果的准确率并没有延续单日数据的结果的简单叠加,反而大大提高,能够达到97%以上。与此同时针对数据收集存在不同步干扰相别判断结果的情况,本发明还提出了邻近拟合与线性插值相结合的方法,消除干扰因素,使判断结果的正确率得以提高。本发明方法的单日数据计算再进行多数优先判定方法与数据不同步干扰消除方法,能减小对设备的计算压力,提高计算效率,同时还提高了准确率。现场实地测试的结果表明,本发明对不同的数据集相别判断的准确度均在97%以上,对超过50%的数据集判别准确度可达到100%。
附图说明
图1为本发明单相电表相别判断方法流程图。
具体实施方式
本发明提供一种单相电表相别判断方法,先根据电表和关口表历史数据建立判别模型,用于判别电表所属的关口表及相别;对电表进行实时判别时,对各电表和关口表采集数据,每天根据建立的判别模型判断电表所属的关口表和相别,然后对多天的结果进行汇总,对各电表每天的判别结果,选择出现天数最多的结果为该电表所属关口电表和相别。
本发明的具体实施方法分为数据收集、数据清洗、算法模型与结果评价几个方面,具体流程如图1所示。
1.数据收集。采集关口表和用户电表分钟级电流、电压、功率、采集时间四个参数,以及关口表和用户电表的表地址编号。
2.数据清洗。数据清洗针对的对象主要有四个——缺失值、异常值、重复值和无用值,针对不同对象的不同形式,采取相应的方法进行处理,从而得到期望的数据。包含非空清洗、重复值清洗、异常值清洗、无用值清洗、缺失值清洗等。
非空清洗要求字段为非空的情况下,对该字段数据进行校核。如果数据为空,需要进行相应处理,即进行清除;重复清洗要求多业务系统中同类数据统一保存后保证主键唯一性;无用值清洗要求清除业务中不需要使用或无价值的数据字段;异常值清洗包括校核取值错误、格式错误、逻辑错误、数据不一致等,根据具体情况进行清洗与修正;缺失值清洗需确定缺失值范围,按照设定缺失比例和字段重要性分别制定策略,对重要性高缺失率低的缺失值通过计算进行填充或通过经验或业务知识估计,重要性高缺失率高的尝试从其他渠道取数补全或使用其他字段通过计算获取,重要性低缺失率低的不做处理或简单填充,重要性低缺失率高的则删除此字段,重要性及缺失率的高低均根据设定的缺失比例和字段重要性确定。
数据清洗虽然能够减少错误或无价值数据,但由电表和关口表采集数据时,仍然客观存在数据收集不同步以致对电表相位判断结果造成影响的情况,为此在数据处理上采取了使用模拟数据的方法修正电表电压、电流和关口表电压、电流的方法,具体分为以下三个步骤:
1)对于每一块电表随机抽取设定比例的电压、电流数据,并对应电表数据的抽取时间,抽取所有关口表相对应的电流、电压数据;一般按照75%的比例抽取,可根据实际采集的数据量以及硬件计算处理能力进行调整;
2)数据处理:将全部抽取的数据按照时间的从小到大排序,得到n组数据组[电表电压,电表电流,关口表电压,关口表电流],设置变量x表示数据组编号,变量x∈[1,n];
3)对数据组使用邻近拟合或线性插值的方法进行处理,得到新的数据集,用于输入判别模型进行判断;作为改进,还可以将两种处理方法结合,从n组数据组中随机抽取设定比例的数据,分别使用邻近拟合和线性插值的方法进行处理,以抽取数据预测未被抽取数据,得到新的数据集,用于输入判别模型进行判断。
邻近拟合方法具体步骤如下:
(1)变量设置:设变量x为自变量,因变量分别为电表电压、电流,及关口表电压、电流;
(2)对于进行邻近拟合的数据组,再按比例进行抽样,例如按75%抽样,遍历数据组,对每个未被抽样的数据组,选择与其距离最小的k个抽样数据组对应的点;以预测电表电流举例,对未被抽样数据组的电表电流,选择与其距离最小的数据组的电表电流,这里的距离计算是以变量x为x轴,因变量为y轴,计算两点间的距离;
(3)将k个点所对应的因变量的值的均值作为未被抽样的数据组的因变量的预测值,对电表电压,电表电流,关口表电压,关口表电流分别预测,得到未被抽样数据组的预测值;
(4)将抽样数据组和未被抽样数据组的预测值整合形成新的数据集。
线性插值方法具体步骤如下:
(1)对于进行线性插值的数据组,按比例进行抽样,保留抽样数据组的值,将未被抽样数据组的值变为空值;
(2)数据组按时间排序,以变量x为x轴,数据组为y轴,遍历数据组,根据线性插值公式补充空值,线性插值公式如下:
上式中,x0为空值位置的前面非空位置的变量x的值,x1为空值位置的后面非空位置的变量x的值,y0为空值位置的前面非空位置的数据组中的值,y1为空值位置的后面非空位置的数据组中的值,x为空值位置的变量x值;
3)通过上面线性插值补充空值,得到新的数据集。
如果采用邻近拟合和线性插值结合方式处理,设定对抽取75%的数据进行邻近拟合,剩余采用线性插值方式处理,则由邻近拟合处理得到n组数据组中75%数据组的新数据集,由线性插值得到n组数据组中25%数据组的新数据集。将两者结合,得到完整新数据组的集合,用于输入判断模型。
本发明通过以上处理方法,消除了数据采集不同步带来的干扰,提高了判断的准确率。实验验证显示,在某数据集上进行测试时,若不对数据采集不同步带来的干扰进行消除,准确率为95.52%。使用本发明的线性插值方法后,准确率提升为99.25%,邻近拟合具有相似的准确率,进一步结合使用邻近拟合和线性插值方法后,准确率进一步提升为99.63%。
3.算法模型与结果评价。分为以下五个步骤:
(1)对于每块电表,选择电表电压为因变量,电表电流、关口表电压、关口表电流为自变量,对由数据清洗的数据得到数据集,分析变量间的相关性,选择有效指标进行建模,将数据集的数据按照设定的比例随机划分为训练集和测试集,训练集用于训练模型,测试集用于评判模型的好坏。应用spss软件将电流和有功功率分别引入模型,用于计算检验结果值和判断系数δ等计算结果值。
(2)建立模型:使用训练集数据,其样本量为m,从中有放回的随机抽取m个样本形成子样本集,有放回的抽取指抽出来一个再放回去一个,随后再从全部样本里抽样。子样本集有p个特征,该特征包括电表电流、关口表电流、关口表电压,一共抽取t次,则一共有t个子样本集,对每个子样本集选择所有的特征,即p个特征作为分裂特征子集,对这t个子样本集分别构建树,然后对这t个树的结果计算平均值得出最终模型的预测输出,在训练模型的过程中,不断的对模型进行调参,最终通过评价指标选择最优模型,最后使用训练好的最优模型对测试集中的电表电压进行预测,并将电表真实电压和预测电压通过下面的公式计算判别系数δ;
上式中ui为电表真实电压,
(3)每块电表的电压、电流分别与不同的关口表的a相、b相、c相三相的电压、电流建立步骤(2)的模型,并根据步骤(2)中的公式得出多个判别系数值。
(4)比较步骤(3)的判别系数,选择判别系数最大的模型,该模型对应的关口表和相位即是该电表所属的关口表和相位。
(5)对于每块电表每天判断其所属关口表和相位,最终对多天的结果进行汇总,选择天数最多的结果为该电表所属关口表和相位。
在现有技术对电表相别的判断中,一般都是采用一周数据(7天)判断一次,即汇聚7天的电表电压电流和关口表电压电流数据进行计算,以确保数据准确性。这样的计算方式在数据分析层面,虽然汇聚了更多的数据,具有足够的样本量保证判别的准确性,但也相对地带来了数据量增大导致的计算压力变大,计算速度变慢的问题。现有技术一般认为,模型的样本数据量越大,越有利于提高判别结果的准确性。本发明反其道而行之,首先减小单次算法的数据量,将之前7天一次的计算变为每天一次,7天分别进行7次计算,然后对7天的结果进行多数优先认定。理论上来说,单天数据量的模型计算会降低准确性,然而本发明在将7天的结果再汇总进行多数优先认定后,所得准确性反而提高了,如表1所示。
本发明的方案不仅分散了计算任务,减小了主站计算压力和数据承载压力,提高了计算效率,且保持计算时间对等,还提高了学习训练结果的准确率。表1给出的三组不同的数据集在使用一次性计算与分次计算的准确率对比,数据集均取自国家电网用电信息采集平台。
表1一次性计算与分次计算准确率对比
从表中可以看出,多次计算的准确率相较于一次性计算有提升,且都达到了100%的准确率。对于电网的运行而言,对相别判断准确度有很高的要求,因为一次错判都可能导致严重的后果,因此将计算准确率提升有着很大的意义,也证明了本发明方法多次计算相较于一次性计算方法的优越性。
1.一种单相电表相别判断方法,其特征是先根据电表和关口表历史数据建立判别模型,用于判别电表所属的关口表及相别;对电表进行实时判别时,对各电表和关口表采集数据,每天根据建立的判别模型判断电表所属的关口表和相别,然后对多天的结果进行汇总,对各电表每天的判别结果,选择出现天数最多的结果为该电表所属关口电表和相别。
2.根据权利要求1所述的一种单相电表相别判断方法,其特征是在建立判别模型时,以及实时判别时,对于采集的电表和关口表数据使用模拟数据的方法修正电表电压电流和关口表电压电流,包括以下步骤:
1)对于每一块电表随机抽取设定比例的电压、电流数据,并对应电表数据的抽取时间,抽取所有关口表相对应的电流、电压数据;
2)数据处理:将全部抽取的数据按照时间的从小到大排序,得到n组数据组[电表电压,电表电流,关口表电压,关口表电流],设置变量x表示数据组编号,变量x∈[1,n];
3)对数据组使用邻近拟合或线性插值的方法进行处理,得到新的数据集,用于输入判别模型进行判断;或从n组数据组中随机抽取设定比例的数据,分别使用邻近拟合和线性插值的方法进行处理,以抽取数据预测未被抽取数据,得到新的数据集,用于输入判别模型进行判断。
3.根据权利要求2所述的一种单相电表相别判断方法,其特征是邻近拟合方法具体步骤如下:
(1)变量设置:设变量x为自变量,因变量分别为电表电压、电流,及关口表电压、电流;
(2)对于进行邻近拟合的数据,按比例进行抽样,遍历数据组,对每个未被抽样的数据组,选择与其距离最小的k个抽样数据组对应的点;
(3)将k个点所对应的因变量的值的均值作为未被抽样的数据组的因变量的预测值;
(4)将抽样数据组和未被抽样数据组的预测值整合形成新的数据集。
4.根据权利要求2所述的一种单相电表相别判断方法,其特征是线性插值方法具体步骤如下:
(1)对于进行线性插值的数据,按比例进行抽样,保留抽样数据组的值,将未被抽样数据组的值变为空值;
(2)遍历数据组,根据线性插值公式补充空值,线性插值公式如下:
上式中,x0为空值位置的前面非空位置的变量x的值,x1为空值位置的后面非空位置的变量x的值,y0为空值位置的前面非空位置的数据组中的值,y1为空值位置的后面非空位置的数据组中的值,x为空值位置的变量x值;
3)通过线性插值补充空值,得到新的数据集。
5.根据权利要求1-4任一项所述的一种单相电表相别判断方法,其特征是所述判别模型为:以电表电压为因变量,电表电流、关口表电压、关口表电流为自变量构建模型,由电表和关口表的历史数据构建训练集和测试集,训练集用于训练模型,测试集用于评判模型的好坏;测试时将测试集中电表的电压、电流分别与不同的关口表的a、b、c三相的电压、电流代入模型,得出模型的判别系数,选择决判别系数最大的结果,该结果对应的关口表和相位即是该电表所属的关口表和相位。
6.根据权利要求5所述的一种单相电表相别判断方法,其特征是所述判别模型,由电表和关口表的历史数据构建训练集和测试集,设训练集数据样本量为m,从中有放回的随机抽取m个样本形成子样本集,子样本集有p个特征,所述特征包括电表电流、关口表电流和关口表电压,一共抽取t次,则一共有t个子样本集,对每个子样本集选择所有的特征,即p个特征作为分裂特征子集,对这t个子样本集分别构建树,然后对这t个树的结果计算平均值得出最终模型的预测输出,在训练模型的过程中,不断的对模型进行调参,最终通过评价指标选择最优模型,然后使用训练好的最优模型对测试集中的电表电压进行预测,并将电表真实电压和预测电压通过下面的公式计算判别系数δ:
上式中ui为电表真实电压,
7.根据权利要求1-4任一项所述的一种单相电表相别判断方法,其特征是电表和关口表的数据包括电表和关口表的分钟级电流、电压、功率和采集时间四个参数,以及关口表和电表的表地址编号。
8.根据权利要求1-4任一项所述的一种基于回归算法的单相电表相别判断方法,其特征是对采集电表和关口表数据首先进行数据清洗,对缺失值、异常值、重复值和无用值进行非空清洗、重复值清洗、异常值清洗、无用值清洗和缺失值清洗,非空清洗要求字段为非空的情况下,对该字段数据进行校核,如果数据为空,需要进行清除;重复清洗要求多业务系统中同类数据统一保存后保证主键唯一性;无用值清洗要求清除业务中不需要使用或无价值的数据字段;异常值清洗包括校核取值错误、格式错误、逻辑错误、数据不一致等,根据具体情况进行清洗与修正;缺失值清洗需确定缺失值范围,按照预定的缺失比例和字段重要性分别制定策略,对重要性高缺失率低的缺失值通过计算进行填充或通过经验或业务知识估计;重要性高缺失率高的尝试从其他渠道取数补全或使用其他字段通过计算获取;重要性低缺失率低的不做处理或简单填充;重要性低缺失率高的则删除此字段。
技术总结