本发明涉及电力技术领域,尤其涉及一种电网原始输入特征冗余数据剔除方法及系统。
背景技术:
近年来,深度学习作为当前常见的人工智能方法之一,在特征提取、分类判别等方面取得跨越式发展,其对电网这类非线性系统具有非常强的拟合能力。由于电网原始输入特征的冗余度很高,若不加处理将会影响机器学习的训练效果,然而现阶段对电网原始输入特征的选择主要依靠人工来完成,这种方法受个人电网专业知识的限制,即不同的技术人员所选择的电网原始输入特征存在较大的差异性,导致无法有效地剔除冗余特征。
技术实现要素:
本发明的目的在于克服现有技术的不足,本发明提供了一种电网原始输入特征冗余数据剔除方法及系统,排除人工选择方式,利用输入特征间的相关度可有效剔除其中的冗余特征,使得最终数据的稳定性较高。
为了解决上述问题,本发明提出了一种电网原始输入特征冗余数据剔除方法,所述方法包括:
获取电网原始输入特征数据集;
对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集;
基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集;
对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量。
可选的,所述电网原始输入特征数据集包括故障前的稳态特征数据以及故障后的暂态特征数据。
可选的,所述基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集包括:
基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集。
可选的,所述对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量包括:
获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值;
若判断第i个关联因子大于所述预设阈值,则将第i个关联因子所对应的离散特征量进行剔除处理;
判断i<n是否成立;
若i<n成立,则返回获取所述特征关联因子集中的第i 1个关联因子;
若i<n不成立,则完成对所述电网原始输入特征数据集中的冗余特征量剔除处理。
可选的,在判断第i个关联因子是否大于预设阈值之后,还包括:
若判断第i个关联因子小于等于所述预设阈值,则将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,继续判断i<n是否成立。
另外,本发明实施例还提供了一种电网原始输入特征冗余数据剔除系统,所述系统包括:
获取模块,用于获取电网原始输入特征数据集;
处理模块,用于对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集;
计算模块,用于基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集;
剔除模块,用于对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量。
可选的,所述电网原始输入特征数据集包括故障前的稳态特征数据以及故障后的暂态特征数据。
可选的,所述计算模块用于基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集。
可选的,所述剔除模块包括:
第一判断单元,用于获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值;若判断第i个关联因子大于所述预设阈值,则将第i个关联因子所对应的离散特征量进行剔除处理;
第二判断单元,用于判断i<n是否成立;若i<n成立,则返回获取所述特征关联因子集中的第i 1个关联因子;若i<n不成立,则完成对所述电网原始输入特征数据集中的冗余特征量剔除处理。
可选的,所述第一判断单元还用于在判断第i个关联因子小于等于所述预设阈值之后,则将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,继续跳转至所述第二判断单元执行。
在本发明实施例中,通过对电网原始输入特征数据集中所包含的各个特征量进行离散化处理,可降低后续对输入特征间的关联性分析的复杂度,提高工作效率;利用输入特征间的相关度可有效剔除其中的冗余特征,相比于现阶段所采用的人工选择方式,可减少人员负担,同时可避免主观性因素存在,使得最终数据的稳定性较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例公开的一种电网原始输入特征冗余数据剔除方法的流程示意图;
图2是本发明实施例公开的一种电网原始输入特征冗余数据剔除系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了本发明实施例中的一种电网原始输入特征冗余数据剔除方法的流程示意图,所述方法包括如下:
s101、获取电网原始输入特征数据集;
在本发明实施例中,通过电力技术人员从电网运行数据库中随机选择一部分电网原始输入特征值,且该电网原始输入特征值可以是故障前的稳态特征数据,也可以是故障后的暂态特征数据,以此构成电网原始输入特征数据集。其中,故障前和故障后主要是针对支路功率、母线电压以及发电机出力等可能出现的数据波动情况。
s102、对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集;
在本发明实施例中,由于所述电网原始输入特征数据集所包含的支路功率、母线电压以及发电机出力均为连续变量,若直接对这些连续变量进行异常数据的筛除处理,无异于将增加算法的复杂度和空间开销,此处对各个连续变量进行离散化处理的一般过程包括:对所述电网原始输入特征数据集中的每一个特征量按照从小到大的规则进行排序后,将每一个特征量定义为一个离散区间,在不改变原本样本数据大小的情况下,形成所述电网输入特征离散数据集。
s103、基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集;
在本发明实施例中,基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集,其中所述检验统计量x2的计算方式为:
式中,ai为第i区间的特征值,ei为ai的期望值,no为所述电网输入特征离散数据集中的样本总数量,ni为第i区间的样本数量,ci为第i区间的特征值在样本总数量中的所占比例。需要说明的,由于所述电网输入特征离散数据集只是针对所述电网原始输入特征数据集中的每一个特征量进行排序的结果,且以排序后的任意一个特征量作为单独的一个区间,此时无法确定第i区间的特征值是否与相邻区间的特征值存在重复的情况,即ci的取值为不定值,具体视第i区间的特征值在样本总数量中的出现次数而定。
此外,对每两个离散特征量之间的检验统计量进行计算是采用按序交叉计算的方式进行,即先计算第一区间与第二区间之间的检验统计量、接着计算第二区间与第三区间之间的检验统计量、再计算第三区间与第四区间之间的检验统计量,以此类推并按序存储结果,可以保证各个区间的密切关联。
s104、对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量。
具体实施过程包括:
(1)获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值;
在实施过程中,第i个关联因子即为第i个检验统计量,若判断第i个关联因子大于所述预设阈值时,继续执行步骤(2);若判断第i个关联因子小于等于所述预设阈值时,继续执行步骤(3)。其中,所述预设阈值是人为根据统计学知识所获取到的置信水平参数,且已由电力技术人员根据经验知识进行验证。
(2)将第i个关联因子所对应的离散特征量进行剔除处理;
在实施过程中,由于所述特征关联因子集中的每一个关联因子都是按序排列的,且每一个关联因子表示为相邻区间的两个离散特征量的相关性,当第i个关联因子大于所述预设阈值时,通过调用对第i-1个关联因子的判断结果来完成异常数据的剔除处理,再跳转至步骤(4)执行。其中,对异常数据的剔除处理包括:当第i-1个关联因子大于所述预设阈值时,剔除第i个关联因子所对应的两个离散特征量中的最小值;当第i-1个关联因子小于等于所述预设阈值时,剔除第i个关联因子所对应的两个离散特征量中的最大值。
(3)将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,即第i个关联因子所对应的两个离散特征量均为非冗余值,再跳转至步骤(4)执行;
(4)判断i<n是否成立,其判断结果包括:若i<n成立,则返回获取所述特征关联因子集中的第i 1个关联因子,继续对第i 1个关联因子进行剔除判断;若i<n不成立,则完成对所述电网原始输入特征数据集中的冗余特征量剔除处理。其中,n为所述特征关联因子集中所包含的关联因子总数量。
图2示出了本发明实施例中的一种电网原始输入特征冗余数据剔除系统的结构组成示意图,所述系统包括:
获取模块201,用于获取电网原始输入特征数据集;
在本发明实施例中,通过电力技术人员从电网运行数据库中随机选择一部分电网原始输入特征值,且该电网原始输入特征值可以是故障前的稳态特征数据,也可以是故障后的暂态特征数据,以此构成电网原始输入特征数据集。其中,故障前和故障后主要是针对支路功率、母线电压以及发电机出力等可能出现的数据波动情况。
处理模块202,用于对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集;
在本发明实施例中,由于所述电网原始输入特征数据集所包含的支路功率、母线电压以及发电机出力均为连续变量,若直接对这些连续变量进行异常数据的筛除处理,无异于将增加算法的复杂度和空间开销,此处对各个连续变量进行离散化处理的一般过程包括:对所述电网原始输入特征数据集中的每一个特征量按照从小到大的规则进行排序后,将每一个特征量定义为一个离散区间,在不改变原本样本数据大小的情况下,形成所述电网输入特征离散数据集。
计算模块203,用于基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集;
在本发明实施例中,基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集,其中所述检验统计量x2的计算方式为:
式中,ai为第i区间的特征值,ei为ai的期望值,no为所述电网输入特征离散数据集中的样本总数量,ni为第i区间的样本数量,ci为第i区间的特征值在样本总数量中的所占比例。需要说明的,由于所述电网输入特征离散数据集只是针对所述电网原始输入特征数据集中的每一个特征量进行排序的结果,且以排序后的任意一个特征量作为单独的一个区间,此时无法确定第i区间的特征值是否与相邻区间的特征值存在重复的情况,即ci的取值为不定值,具体视第i区间的特征值在样本总数量中的出现次数而定。
此外,对每两个离散特征量之间的检验统计量进行计算是采用按序交叉计算的方式进行,即先计算第一区间与第二区间之间的检验统计量、接着计算第二区间与第三区间之间的检验统计量、再计算第三区间与第四区间之间的检验统计量,以此类推并按序存储结果,可以保证各个区间的密切关联。
剔除模块204,用于对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量;其中,所述剔除模块204包括第一判断单元和第二判断单元。
进一步的,所述第一判断单元的具体实施过程包括如下:
(1)获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值;
在实施过程中,第i个关联因子即为第i个检验统计量,若判断第i个关联因子大于所述预设阈值时,继续执行步骤(2);若判断第i个关联因子小于等于所述预设阈值时,继续执行步骤(3)。其中,所述预设阈值是人为根据统计学知识所获取到的置信水平参数,且已由电力技术人员根据经验知识进行验证。
(2)将第i个关联因子所对应的离散特征量进行剔除处理;
在实施过程中,由于所述特征关联因子集中的每一个关联因子都是按序排列的,且每一个关联因子表示为相邻区间的两个离散特征量的相关性,当第i个关联因子大于所述预设阈值时,通过调用对第i-1个关联因子的判断结果来完成异常数据的剔除处理,再跳转至所述第二判断单元执行。其中,对异常数据的剔除处理包括:当第i-1个关联因子大于所述预设阈值时,剔除第i个关联因子所对应的两个离散特征量中的最小值;当第i-1个关联因子小于等于所述预设阈值时,剔除第i个关联因子所对应的两个离散特征量中的最大值。
(3)将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,即第i个关联因子所对应的两个离散特征量均为非冗余值,再跳转至所述第二判断单元执行。
进一步的,所述第二判断单元用于判断i<n是否成立,其判断结果包括:若i<n成立,则返回获取所述特征关联因子集中的第i 1个关联因子,继续对第i 1个关联因子进行剔除判断;若i<n不成立,则完成对所述电网原始输入特征数据集中的冗余特征量剔除处理。其中,n为所述特征关联因子集中所包含的关联因子总数量。
在本发明实施例中,通过对电网原始输入特征数据集中所包含的各个特征量进行离散化处理,可降低后续对输入特征间的关联性分析的复杂度,提高工作效率;利用输入特征间的相关度可有效剔除其中的冗余特征,相比于现阶段所采用的人工选择方式,可减少人员负担,同时可避免主观性因素存在,使得最终数据的稳定性较高。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。
以上对本发明实施例所提供的一种电网原始输入特征冗余数据剔除方法及系统进行了详细介绍,本文中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
1.一种电网原始输入特征冗余数据剔除方法,其特征在于,所述方法包括:
获取电网原始输入特征数据集;
对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集;
基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集;
对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量。
2.根据权利要求1所述的电网原始输入特征冗余数据剔除方法,其特征在于,所述电网原始输入特征数据集包括故障前的稳态特征数据以及故障后的暂态特征数据。
3.根据权利要求1所述的电网原始输入特征冗余数据剔除方法,其特征在于,所述基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集包括:
基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集。
4.根据权利要求1所述的电网原始输入特征冗余数据剔除方法,其特征在于,所述对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量包括:
获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值;
若判断第i个关联因子大于所述预设阈值,则将第i个关联因子所对应的离散特征量进行剔除处理;
判断i<n是否成立;
若i<n成立,则返回获取所述特征关联因子集中的第i 1个关联因子;
若i<n不成立,则完成对所述电网原始输入特征数据集中的冗余特征量剔除处理。
5.根据权利要求4所述的电网原始输入特征冗余数据剔除方法,其特征在于,在判断第i个关联因子是否大于预设阈值之后,还包括:
若判断第i个关联因子小于等于所述预设阈值,则将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,继续判断i<n是否成立。
6.一种电网原始输入特征冗余数据剔除系统,其特征在于,所述系统包括:
获取模块,用于获取电网原始输入特征数据集;
处理模块,用于对所述电网原始输入特征数据集中的每一个特征量进行离散化处理,并形成电网输入特征离散数据集;
计算模块,用于基于卡方测试法计算所述电网输入特征离散数据集所对应的特征关联因子集;
剔除模块,用于对所述特征关联因子集中的每一个关联因子进行阈值判断,并基于判断结果剔除所述电网原始输入特征数据集中的冗余特征量。
7.根据权利要求6所述的电网原始输入特征冗余数据剔除系统,其特征在于,所述电网原始输入特征数据集包括故障前的稳态特征数据以及故障后的暂态特征数据。
8.根据权利要求6所述的电网原始输入特征冗余数据剔除系统,其特征在于,所述计算模块用于基于卡方测试法计算出所述电网输入特征离散数据集中的每两个离散特征量之间的检验统计量,并形成所述特征关联因子集。
9.根据权利要求6所述的电网原始输入特征冗余数据剔除系统,其特征在于,所述剔除模块包括:
第一判断单元,用于获取所述特征关联因子集中的第i个关联因子,并判断第i个关联因子是否大于预设阈值;若判断第i个关联因子大于所述预设阈值,则将第i个关联因子所对应的离散特征量进行剔除处理;
第二判断单元,用于判断i<n是否成立;若i<n成立,则返回获取所述特征关联因子集中的第i 1个关联因子;若i<n不成立,则完成对所述电网原始输入特征数据集中的冗余特征量剔除处理。
10.根据权利要求9所述的电网原始输入特征冗余数据剔除系统,其特征在于,所述第一判断单元还用于在判断第i个关联因子小于等于所述预设阈值之后,则将第i个关联因子所对应的两个离散特征量加入到电网输入特征训练集中,继续跳转至所述第二判断单元执行。
技术总结