本发明涉及一种数据汇聚方法,尤其涉及一种电力客户领域的数据分类方法。
背景技术:
在现行数据分类汇聚的过程中,主要参考相关规范标准通过人工方式进行划分。随着客服中心数字化、智能化建设逐步完善,数据总量日益增长,人工效率远远无法满足工作需求,并且数据涉及多维度,多层次,多业务等领域,因认知程度不同,数据分类过程中会存在分类数据集相交或者跨类关联等问题,在概念上容易存在混淆。特别是在数据模型规范之外的新增数据,在进行分类时无据可依,导致数据分类出错或者出现数据分类滞后影响业务使用的情况,在数据分类过程中只能参考有限的材料,对于划分模糊的数据集无法准确分类,只能通过对话、研讨的方式来确保分类准确性;对于新增的数据集只能通过经验感知进行划分,也无法判断准确性。
技术实现要素:
发明目的:针对上述现有技术的缺点,本发明提供一种能够准确划分数据集类别的数据汇聚方法。
技术方案:本发明的电力客户领域的数据分类方法包括如下步骤:
s1、根据现有数据集,使用脚本,工具等将其处理为算法所需要原始数据内容,形成以编号为标识的原始数据集文件;
s2、使用etl工具采集原始数据集描述信息,传输至数据中台,整理汇总得到表数据描述信息汇总表,通过脚本处理数据集得到算法所需文本集合,以txt文本格式存储至hadoop分布式文件系统节点上,以供后续计算使用;
s3、编写文档预处理代码实现读入文本、单词信息后进行停用词信息初始化;
s4、建立plsa主题模型,创建概率数组并初始化,
s5、用最大期望算法进行迭代计算直到收敛,得到结果后进行收敛检查;
s6、输入测试数据进行算法测试,验证代码及结果集准确性;
s7、加载步骤s2中生成的文本文件进行计算,得到数据分类结果。
步骤s1中的原始数据集文件包括用于记录售电量、用户欠费等营销实时指标数据信息的营销属性表、用于记录用户用电基本信息的客户信息表和用于记录用户基本信息的用户属性表,所述营销实时指标数据信息包括指标值标识、单位编号、指标编码、频度、统计周期等属性和用于识别的字段描述信息。
步骤s4中,通过使用经过预处理的数据表相关描述信息,字段及注释内容形成分析原始文档,辨识文本主题,并根据各自主题通过语义分析获得数据集之间的相似性,根据相似性进行数据分类生成plsa主题模型,其具体步骤为:
以p(dm)的概率从文档集合d中选择一个文档dm;
以p(zk|dm)的概率从主题集合z中选择一个主题zk;
以p(wn|zk)的概率从词集w中选择一个词;
建立关联函数:
上式中,n(dm,wn)为(dm,wn)组合出现的次数,m′代表数据集文档数量,n′代表词汇数量,对关联函数两边取对数,建立最大化对数似然函数,其表达式如下:
步骤s5中,最大期望算法步骤如下:
s5.1:假设已知p(zk|dm)与p(wn|zk),求潜在变量zk的后验概率p(zk|dm,wn)。
s5.2:求关于参数p(zk|dm)和p(wn|zk)的completedata对数似然函数期望的极大值,得到参数p(zk|dm)和p(wn|zk)的最优解,代入s4.1进行迭代循环。
步骤s5.1中,潜在变量zk的后验概率p(zk|dm,wn)的求解步骤如下:
由最大化对数
上式后部分为常量,令:
建立以下目标函数与约束条件:
s.t.
由于只有等式约束,使用拉格朗日乘子法求解上述目标函数:
对p(zk|dm)与p(wn|zk)求驻点,得:
令
故有:
同理,有:
将p(zk|dm)与p(wn|zk)回代expectation,得到潜在变量zk的后验概率为:
步骤s5中,对数似然函数期望的极大值用拉格朗日乘数法求解,其步骤如下:
建立关于主题在文档中出现概率和单词在主题中出现概率的拉格朗日函数
对拉格朗日函数求偏导,得到:
在解出τk,ρi后将其系数转换,更新后的参数值即为代入步骤s4.1的最优解。
有益效果:与现有技术相比,本发明具有如下显著优点:能够快速准确的对现有海量数据完成分类,并按照规则划分层级,实现数据统一管理,准确把握数据现状和增长状态;能够有效的解决业务、应用等新增数据分类模糊甚至错误的问题,提高数据使用准确性。
附图说明
图1为本发明的plsa主题模型示例图;
图2为本发明的plsa主题模型结构图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
首先,根据现有数据集,使用脚本,工具等将其处理为算法所需要原始数据内容,形成以编号为标识的原始数据集文件,原始数据集源自系统的贴源层,根据其记录数据形式,原始数据集文件包括用于记录售电量、用户欠费等营销实时指标数据信息的营销属性表、用于记录用户用电基本信息的客户信息表和用于记录用户基本信息的用户属性表,所述营销实时指标数据信息包括指标值标识、单位编号、指标编码、频度、统计周期等属性和用于识别的字段描述信息。
使用etl工具采集相关表描述信息,传输至数据中台,整理汇总得到表数据描述信息汇总表,通过脚本处理数据集得到算法所需文本集合,以txt文本格式存储至hdfs节点上,以供后续计算使用。
编写文档预处理代码实现读入文本、单词信息后进行停用词信息初始化;
建立plsa主题模型,创建概率数组并初始化;plsa主题模型的生成是通过使用经过预处理的数据表相关描述信息,字段及注释内容形成分析原始文档,辨识文本主题,并根据各自主题通过语义分析获得数据集之间的相似性,根据相似性进行数据分类,其具体步骤为:
以p(dm)的概率从文档集合d中选择一个文档dm;
以p(zk|dm)的概率从主题集合z中选择一个主题zk;
以p(wn|zk)的概率从词集w中选择一个词;
如图1所示,文档d中包含三个主题z,每个主题在文档中出现的概率为p(z|d),每个主题的词集中词出现的概率为p(w|z);
建立关联函数:
上式中,n(dm,wn)为(dm,wn)组合出现的次数,m′代表数据集文档数量,n′代表词汇数量,对关联函数两边取对数,建立最大化对数似然函数,其表达式如下:
s5、用最大期望算法进行迭代计算直到收敛,得到结果后进行收敛检查;最大期望算法步骤如下:
s5.1:假设已知p(zk|dm)与p(wn|zk),求潜在变量zk的后验概率p(zk|dm,wn)。
s5.2:求关于参数p(zk|dm)和p(wn|zk)的completedata对数似然函数期望的极大值,得到参数p(zk|dm)和p(wn|zk)的最优解,代入s4.1进行迭代循环。
步骤s5.1中,潜在变量zk的后验概率p(zk|dm,wn)的求解步骤如下:
由最大化对数
上式后部分为常量,令:
建立以下目标函数与约束条件:
s.t.
由于只有等式约束,使用拉格朗日乘子法求解上述目标函数:
对p(zk|dm)与p(wn|zk)求驻点,得:
令
故有:
同理,有:
将p(zk|dm)与p(wn|zk)回代expectation,得到潜在变量zk的后验概率为:
步骤s5中,对数似然函数期望的极大值用拉格朗日乘数法求解,其步骤如下:
建立关于主题在文档中出现概率和单词在主题中出现概率的拉格朗日函数
对拉格朗日函数求偏导,得到:
在解出τk,ρi后将其系数转换,更新后的参数值即为代入步骤s4.1的最优解。
输入测试数据进行算法测试,验证代码及结果集准确性;
加载前述步骤中对原始数据处理生成的文本文件进行计算,得到数据分类结果,上述计算结果产生的相似数据集文本的集合数据,按照其相似程度划分分类。依据分类结果集合,整理得到溯源文本原始数据文件,使用反向还原成数据表内容,再进行前端规划展示,形成可视化数据目录及数据地图内容。
1.一种电力客户领域的数据分类方法,其特征在于,所述方法包括如下步骤:
s1、根据现有数据集,使用脚本,工具等将其处理为算法所需要原始数据内容,形成以编号为标识的原始数据集文件;
s2、使用etl工具采集原始数据集描述信息,传输至数据中台,整理汇总得到表数据描述信息汇总表,通过脚本处理数据集得到算法所需文本集合,以txt文本格式存储至hadoop分布式文件系统节点上,以供后续计算使用;
s3、编写文档预处理代码实现读入文本、单词信息后进行停用词信息初始化;
s4、建立plsa主题模型,创建概率数组并初始化,
s5、用最大期望算法进行迭代计算直到收敛,得到结果后进行收敛检查;
s6、输入测试数据进行算法测试,验证代码及结果集准确性;
s7、加载步骤s2中生成的文本文件进行计算,得到数据分类结果。
2.根据权利要求1所述的电力客户领域的数据分类方法,其特征在于,所述步骤s1中的原始数据集文件包括用于记录售电量、用户欠费等营销实时指标数据信息的营销属性表、用于记录用户用电基本信息的客户信息表和用于记录用户基本信息的用户属性表,所述营销实时指标数据信息包括指标值标识、单位编号、指标编码、频度、统计周期等属性和用于识别的字段描述信息。
3.根据权利要求1所述的电力客户领域的数据分类方法,其特征在于,所述步骤s4中,通过使用经过预处理的数据表相关描述信息,字段及注释内容形成分析原始文档,辨识文本主题,并根据各自主题通过语义分析获得数据集之间的相似性,根据相似性进行数据分类生成plsa主题模型,其具体步骤为:
以p(dm)的概率从文档集合d中选择一个文档dm;
以p(zk|dm)的概率从主题集合z中选择一个主题zk;
以p(wn|zk)的概率从词集w中选择一个词;
建立关联函数:
上式中,n(dm,wn)为(dm,wn)组合出现的次数,m′代表数据集文档数量,n′代表词汇数量,对关联函数两边取对数,建立最大化对数似然函数,其表达式如下:
4.根据权利要求1所述的电力客户领域的数据分类方法,其特征在于,所述步骤s5中,最大期望算法步骤如下:
s5.1:假设已知p(zk|dm)与p(wn|zk),求潜在变量zk的后验概率p(zk|dm,wn)。
s5.2:求关于参数p(zk|dm)和p(wn|zk)的completedata对数似然函数期望的极大值,得到参数p(zk|dm)和p(wn|zk)的最优解,代入s4.1进行迭代循环。
5.根据权利要求1所述的电力客户领域的数据分类方法,其特征在于,所述步骤s5.1中,潜在变量zk的后验概率p(zk|dm,wn)的求解步骤如下:
由最大化对数
上式后部分为常量,令:
建立以下目标函数与约束条件:
由于只有等式约束,使用拉格朗日乘子法求解上述目标函数:
对p(zk|dm)与p(wn|zk)求驻点,得:
令
故有:
同理,有:
将p(zk|dm)与p(wn|zk)回代expectation,得到潜在变量zk的后验概率为:
6.根据权利要求1所述的电力客户领域的数据分类方法,其特征在于,所述步骤s5中,对数似然函数期望的极大值用拉格朗日乘数法求解,其步骤如下:
建立关于主题在文档中出现概率和单词在主题中出现概率的拉格朗日函数
对拉格朗日函数求偏导,得到:
在解出τk,ρi后将其系数转换,更新后的参数值即为代入步骤s4.1的最优解。
技术总结