1.本发明涉及一种基于无监督学习的自动筛选有效特征的方法,属于人工智能、数据清洗、数据降维领域。
背景技术:
2.在诸多业务场景中,都存在着工程师根据大量的特征数据进行结果分析和判断的过程,而对于缺乏经验的工程师来说,他们无法判断哪些特征是有用的,哪些是可以忽略的。例如在故障分析中,工程师利用频域的幅值分析机器是否运转异常时,都是根据基频、倍频等频率的幅值是否异常来判断机器是否故障。因此,如何快速为工程师提供精确、有效、直接的特征,对于人工进行数据分析的效率和准确率起到了重要的作用。
3.当工程师面对大量的特征数据时,一般先采用pca算法对数据进行降维,再对数据进行分析。然而pca的降维过程是由维度多的原数据特征生成维度少的新数据特征。由于新数据特征对工程师来说无实际物理意义,这给工程师根据特征进行数据分析的方式造成了很大的困难。
技术实现要素:
4.本发明要解决的技术问题是:提供一种基于无监督学习的自动筛选有效特征的方法,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
5.为了解决上述问题,本发明的技术方案是提供了一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:
6.步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集x,其中样本有m个,维度为n维;
7.步骤2、设定阈值ε,对数据集x进行pca降维,选择尽可能小的主成分数量k;
8.步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行pca降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
9.若t小于k,则原始数据集的这个特征不可被移除;
10.若t等于k,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
11.步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。
12.优选地,所述pca降维过程具体包括:
13.步骤s1、均值归一化,计算出待降维的数据集中所有特征x
j
的均值μ
j
,j=1,2,
…
,n;归一化后的矩阵值
14.步骤s2、计算协方差矩阵∑,
15.步骤s3、计算协方差矩阵∑的特征值s
ii
和特征向量u
i
,由特征向量u
i
构成特征向量矩阵u,通过公式z
i
=u
t
·
x
i
计算出降维压缩后的新特征向量,其中,x
i
是原始特征向量,z
i
是降维后的特征向量;在降维压缩后,通过公式近似地还原原有特征。
16.优选地,通过公式确定阈值ε和主成分数量k,令k=1,然后计算上式比例是否小于ε,如果不小于则令k=2,以此类推,直到找到使得比例小于ε的最小值k。
17.与现有技术相比,本发明的有益效果是:
18.本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。
附图说明
19.图1为一种基于无监督学习的自动筛选有效特征的方法流程图。
具体实施方式
20.为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
21.如图1所示,本发明一种基于无监督学习的自动筛选有效特征的方法包括如下步骤:
22.步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集x,其中样本有m个,维度为n维;
23.步骤2、设定阈值ε,对数据集x进行pca降维,选择尽可能小的主成分数量k;
24.由于pca降维算法并非本发明的创新内容,因此不再赘述,本发明仅列出相关步骤,具体推导过程请参考pca实现原理。
25.i)均值归一化。为了统一每个特征取值在数量级上的差异,需计算出数据集x中所有特征的均值μ
j
(j=1,2,
…
,n),归一化后的矩阵值
26.ii)计算协方差矩阵∑,
27.iii)计算协方差矩阵∑的特征值s
ii
和特征向量u
i
。由特征向量u
i
构成特征向量矩阵u。可通过公式z
i
=u
t
·
x
i
计算出降维压缩后的新特征向量,其中,x
i
是原始特征向量,z
i
是降维后的特征向量。同样地,在降维压缩后,可通过公式近似地还原原有特征。
28.在进行pca降维的过程中,使得平均均方误差与数据集的方差比例尽可能小的情况下,选择尽可能小的主成分数量,即k值。设定阈值ε(以1%为例,意味着原数据集中偏差有99%被保留下来),由于数据样本长度不完全相同,因此需要对小于设定样本长度的样本进行填充处理,通过设置空标记来实现。
29.30.数据集可降维的充要条件是数据集中各个特征之间存在某种数据相关性。由此,令k=1,然后计算上式比例是否小于ε,如果不小于则令k=2,以此类推,直到找到使得比例小于ε的最小值k。
31.步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行pca降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;
32.若t小于k,则原始数据集的这个特征不可被移除;
33.若t等于k,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;
34.步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。且这些特征保留了原数据集的表示含义,有利于将其作为工程师进行数据分析判断的依据。
技术特征:
1.一种基于无监督学习的自动筛选有效特征的方法,其特征在于,包括如下步骤:步骤1、数据集构建:对原始数据集进行频域特征和时域特征的提取,形成特征数据集x,其中样本有m个,维度为n维;步骤2、设定阈值ε,对数据集x进行pca降维,选择尽可能小的主成分数量k;步骤3、依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行pca降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;若t小于k,则原始数据集的这个特征不可被移除;若t等于k,则该特征被移除后不影响原始数据集降维的主成分数量,可得出该特征可被移除,并将其从原数据集中移除,再进行第二个特征的判断;步骤4、自动筛选数据集的有效特征:重复步骤2、3,依次对每个特征进行移除,并通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,最终保留的特征即是筛选出的有效特征。2.如权利要求1所述的一种基于无监督学习的自动筛选有效特征的方法,其特征在于:所述pca降维过程具体包括:步骤s1、均值归一化,计算出待降维的数据集中所有特征x
j
的均值μ
j
,j=1,2,
…
,n;归一化后的矩阵值步骤s2、计算协方差矩阵∑,步骤s3、计算协方差矩阵∑的特征值s
ii
和特征向量u
i
,由特征向量u
i
构成特征向量矩阵u,通过公式z
i
=u
t
·
x
i
计算出降维压缩后的新特征向量,其中,x
i
是原始特征向量,z
i
是降维后的特征向量;在降维压缩后,通过公式近似地还原原有特征。3.如权利要求1所述的一种基于无监督学习的自动筛选有效特征的方法,其特征在于:通过公式确定阈值ε和主成分数量k,令k=1,然后计算上式比例是否小于ε,如果不小于则令k=2,以此类推,直到找到使得比例小于ε的最小值k。
技术总结
本发明公开了一种基于无监督学习的自动筛选有效特征的方法,包括数据集构建;设定阈值ε,对数据集进行PCA降维,选择尽可能小的主成分数量K;依次对原始数据集每个特征进行移除,对移除特征后的原始数据集进行PCA降维,计算使得平均均方误差与数据集的方差比例小于阈值ε时的主成分数量t;通过移除前后主成分数量的对比,判断该特征是否移除,直到循环完所有特征,自动筛选数据集的有效特征。本发明通过对原数据特征进行降维,不生成新特征,即降维的同时保留原特征的实际含义,帮助工程师从大量的数据特征中筛选有效特征,进而有助于人工进行数据分析。人工进行数据分析。人工进行数据分析。
技术研发人员:章艺 王强 符栋梁 俞炅旻 周璞 马佳
受保护的技术使用者:中国船舶重工集团公司第七0四研究所
技术研发日:2020.11.27
技术公布日:2021/3/9
转载请注明原文地址:https://wp.8miu.com/read-64578.html