本发明涉及一种基于数据挖掘的自动化特征选取方法。
背景技术:
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
通常来说,特征工程是一个漫长的手工过程,依赖于某个特定领域的知识、直觉、以及对数据的操作。这个过程可能会非常乏味并且最终获得的特性会被人类的主观性和花在上面的时间所限制。自动特征工程的目标是通过从数据集中创建许多候选特征来帮助数据科学家减轻工作负担。在许多数据分析和建模项目中,数据科学家会收集到成百上千个特征。更糟糕的是,有时特征数目会大于样本数目。这种情况很普遍,但在大多数情况下,并不是所有的变量都是与机器试图理解和建模的内容相关的。所以数据科学家自动化特征选择来选择那些重要的特征,并将它们合并到模型中。
技术实现要素:
本发明的目的在于提供一种基于数据挖掘的自动化特征选取方法,在基于数据挖掘的基础上,进行自动化特征选取,实现自动化特征工程的目的。
为实现上述目的,本发明的技术方案是:一种基于数据挖掘的自动化特征选取方法,包括两个部分:
(1)自动化特征提取:从数据集中自动创建候选特征;
(2)自动化特征选择:从自动创建的候选特征中自动选择最佳特征。
在本发明一实施例中,所述(1)具体实现方式为:
(1.1)输入数据集,并进行数据清洗;
(1.2)对数据集中的数据进行分析,根据数据集中数据包括结构、属性的特征,创建实体和实体集,并创建各实体之间的关联关系;所述实体即表,实体集即表的集合,各实体之间的关联关系即表与表的关联关系;
(1.3)根据表中父节点与对应表中子节点的对应关系,计算子节点的统计信息;
(1.4)针对(1.3)的统计信息,对表中一行/列或多行/列执行操作,形成基元,并基于基元构造新的特征。
在本发明一实施例中,所述(2)具体实现方式为:
(2.1)基于构造的新的特征,通过随机森林对数据集进行扩展,并设定一个特征重要性指标,如:分析特征变量的纯度和精确度的排序,以评估特征重要性;
(2.2)对原数据集特征与特征重要性最大的新的特征进行特征重要性比较,不断迭代比较,并删除原数据集中比特征重要性最大的新的特征的特征重要性低的特征;
(2.3)达到迭代次数限制后,结束。
在本发明一实施例中,所述(1.4)中,对表中一行/列或多行/列执行操作,包括对对表中一行/列或多行/列执行求差、求和、求积。
相较于现有技术,本发明具有以下有益效果:本发明在基于数据挖掘的基础上,进行自动化特征选取,实现自动化特征工程的目的。
附图说明
图1为本发明一种基于数据挖掘的自动化特征选取方法流程示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提供了一种基于数据挖掘的自动化特征选取方法,包括两个部分:
(1)自动化特征提取:从数据集中自动创建候选特征;
(2)自动化特征选择:从自动创建的候选特征中自动选择最佳特征。
在本发明一实施例中,所述(1)具体实现方式为:
(1.1)输入数据集,并进行数据清洗;
(1.2)对数据集中的数据进行分析,根据数据集中数据包括结构、属性的特征,创建实体和实体集,并创建各实体之间的关联关系;所述实体即表,实体集即表的集合,各实体之间的关联关系即表与表的关联关系;
(1.3)根据表中父节点与对应表中子节点的对应关系,计算子节点的统计信息;
(1.4)针对(1.3)的统计信息,对表中一行/列或多行/列执行操作,形成基元,并基于基元构造新的特征。
在本发明一实施例中,所述(2)具体实现方式为:
(2.1)基于构造的新的特征,通过随机森林对数据集进行扩展,并设定一个特征重要性指标,如:分析特征变量的纯度和精确度的排序,以评估特征重要性;
(2.2)对原数据集特征与特征重要性最大的新的特征进行特征重要性比较,不断迭代比较,并删除原数据集中比特征重要性最大的新的特征的特征重要性低的特征;
(2.3)达到迭代次数限制后,结束。
在本发明一实施例中,所述(1.4)中,对表中一行/列或多行/列执行操作,包括对对表中一行/列或多行/列执行求差、求和、求积。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
1.一种基于数据挖掘的自动化特征选取方法,其特征在于,包括两个部分:
(1)自动化特征提取:从数据集中自动创建候选特征;
(2)自动化特征选择:从自动创建的候选特征中自动选择最佳特征。
2.根据权利要求1所述的一种基于数据挖掘的自动化特征选取方法,其特征在于,所述(1)具体实现方式为:
(1.1)输入数据集,并进行数据清洗;
(1.2)对数据集中的数据进行分析,根据数据集中数据包括结构、属性的特征,创建实体和实体集,并创建各实体之间的关联关系;所述实体即表,实体集即表的集合,各实体之间的关联关系即表与表的关联关系;
(1.3)根据表中父节点与对应表中子节点的对应关系,计算子节点的统计信息;
(1.4)针对(1.3)的统计信息,对表中一行/列或多行/列执行操作,形成基元,并基于基元构造新的特征。
3.根据权利要求2所述的一种基于数据挖掘的自动化特征选取方法,其特征在于,所述(2)具体实现方式为:
(2.1)基于构造的新的特征,通过随机森林对数据集进行扩展,并设定一个特征重要性指标;
(2.2)对原数据集特征与特征重要性最大的新的特征进行特征重要性比较,不断迭代比较,并删除原数据集中比特征重要性最大的新的特征的特征重要性低的特征;
(2.3)达到迭代次数限制后,结束。
4.根据权利要求2所述的一种基于数据挖掘的自动化特征选取方法,其特征在于,所述(1.4)中,对表中一行/列或多行/列执行操作,包括对对表中一行/列或多行/列执行求差、求和、求积。
技术总结