本发明涉及计算机技术领域,尤其涉及一种数据处理的方法和装置。
背景技术:
在企业信息化管理中,数据处理和挖掘成为必不可少的环节,例如工商管理部门需要从海量个体工商户的数据中,挖掘和寻找出转型升级的优质个体工商户,以响应国家工商总局提出的促进优质个体工商户向规范的企业和公司方向发展的指导意见,以实现优化经济结构的目标。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
在现有个体工商户的数据挖掘的方案中,数据挖掘和分析局限于分析工商管理部门现有的个体工商户的登记数据,并且登记数据的格式也是固定的(例如:excel表格),由于个体工商户的发展和规模变化较快,数年后的数据与登记数据通常有较大差异,存在利用工商管理部门现有的登记数据进行数据分析和挖掘优质个体工商户的准确率偏低的问题,同时为了获得更新的数据,需要人工对个体工商户的数据进行采集和更新,提高了人力资源成本。
技术实现要素:
有鉴于此,本发明实施例提供一种数据处理的方法和装置,能够通过从多个数据源采集待挖掘用户的用户数据,基于用户数据的唯一标识,利用数据分析模型确定用户的关联数据,并利用数据分类模型计算各个用户的分数值,从而根据分数值选取目标用户,提高了挖掘目标用户的准确率和工作效率,降低了整合用户数据所消耗的人力资源成本。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理的方法,其特征在于,包括:从多个不同类别的数据源采集待挖掘用户的用户数据;聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合;利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据;根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户。
可选地,所述数据处理的方法,其特征在于,
所述用户数据至少还包括所述待挖掘用户对应的行业类别、金融数据、税务数据、耗能数据。
可选地,所述数据处理的方法,其特征在于,
从多个不同类别的数据源采集待挖掘用户的用户数据,包括:
在采集所述用户数据时,所述不同类别的数据源为加密文件;其中,所述数据源包括:所述唯一标识归属的数据源、所述金融数据归属的数据源、所述税务数据归属的数据源、所述耗能数据归属的数据源、所述行业类别归属的数据源。
可选地,所述数据处理的方法,其特征在于,
聚合所述用户数据,将所述用户数据处理为同类别的用户数据集合,包括:
解密并读取采集到的来自不同类别的数据源的所述用户数据,对所述用户数据进行去除异常数据或者去重操作,生成同类别的所述用户数据集合。
可选地,所述数据处理的方法,其特征在于,
所述数据分布模型包括:集中趋势分析模型、离中趋势分析模型、统计分析模型中的任意一种或多种。
可选地,所述数据处理的方法,其特征在于,
所述数据分析模型包括:方差分析模型、相关性分析模型、回归分析模型、因子分析模型中的任意一种或多种。
可选地,所述数据处理的方法,其特征在于,
利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;还包括:
将所述特征数据划分为多个子数据集合,并分别存储所述子数据集合。
可选地,所述数据处理的方法,其特征在于,
根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户,包括:所述利用分类器模型为随机森林模型;利用所述随机森林模型,计算所述特征数据或所述子数据集合对应的所述待挖掘用户的分数值;当所述分数值大于设定阈值时,将所述分数值对应的所述待挖掘用户确定为所述目标用户。
可选地,所述数据处理的方法,其特征在于,
利用可视化模块,从多个维度展示所述目标用户的所述特征数据。
为实现上述目的,根据本发明实施例的第二方面,提供了一种数据处理的装置,其特征在于,包括:数据采集模块、数据分析模块和确定目标用户模块;其中,
所述数据采集模块,用于从多个不同类别的数据源采集待挖掘用户的用户数据;聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合;
所述数据分析模块,用于利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据;
所述确定目标用户模块,用于根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户。
可选地,所述数据处理的装置,其特征在于,
所述用户数据至少还包括所述待挖掘用户对应的行业类别、金融数据、税务数据、耗能数据。
可选地,所述数据处理的装置,其特征在于,
从多个不同类别的数据源采集待挖掘用户的用户数据,包括:
在采集所述用户数据时,所述不同类别的数据源为加密文件;其中,所述数据源包括:所述唯一标识归属的数据源、所述金融数据归属的数据源、所述税务数据归属的数据源、所述耗能数据归属的数据源、所述行业类别归属的数据源。
可选地,所述数据处理的装置,其特征在于,
聚合所述用户数据,将所述用户数据处理为同类别的用户数据集合,包括:解密并读取采集到的来自不同类别的数据源的所述用户数据,对所述用户数据进行去除异常数据或者去重操作,生成同类别的所述用户数据集合。
可选地,所述数据处理的装置,其特征在于,
所述数据分布模型包括:集中趋势分析模型、离中趋势分析模型、统计分析模型中的任意一种或多种。
可选地,所述数据处理的装置,其特征在于,
所述数据分析模型包括:方差分析模型、相关性分析模型、回归分析模型、因子分析模型中的任意一种或多种。
可选地,所述数据处理的装置,其特征在于,
利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;还包括:
将所述特征数据划分为多个子数据集合,并分别存储所述子数据集合。
可选地,所述数据处理的装置,其特征在于,
根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户,包括:所述利用分类器模型为随机森林模型;利用所述随机森林模型,计算所述特征数据或所述子数据集合对应的所述待挖掘用户的分数值;当所述分数值大于设定阈值时,将所述分数值对应的所述待挖掘用户确定为所述目标用户。
可选地,所述数据处理的装置,其特征在于,
利用可视化模块,从多个维度展示所述目标用户的所述特征数据。
为实现上述目的,根据本发明实施例的第三方面,提供了一种数据处理的电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述数据处理的方法中任一所述的方法。
为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述数据处理的方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:能够通过从多个数据源采集待挖掘用户的用户数据,基于用户数据的唯一标识,利用数据分析模型确定用户的关联数据,并利用数据分类模型计算各个用户的分数值,从而根据分数值选取目标用户,降低了整合用户数据的人力资源成本,提高了挖掘目标用户的准确率和工作效率;降低了整合用户数据所消耗的人力资源成本。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明一实施例提供的一种数据处理的方法的流程示意图;
图2是本发明一实施例提供的一种数据采集的流程示意图;
图3是本发明一个实施例提供的一种数据挖掘的流程示意图;
图4是本发明一个实施例提供的一种数据处理的装置的结构示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本发明实施例提供了一种数据处理的方法,该方法可以包括以下步骤:
步骤s101:从多个不同类别的数据源采集待挖掘用户的用户数据;聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合。
具体地,在本发明一个实施例中,待挖掘用户以个体工商户为例,目标数据为优质个体工商户(即作为转企业的候选个体工商户),进一步地,从多个不同类别的数据源采集各个个体工商户的用户数据;其中,不同类别的数据源可以为数据源的格式不同,例如数据源的格式包括excel文件、数据库文件、文本文件等;也可以为数据库的类型不同,例如:关系型数据库的数据源、非关系型数据库的数据源等;进一步地,用户数据包括用于区别各个待挖掘用户(例如:个体工商户)的唯一标识,还包括从各个数据源获取的用户数据,即:所述用户数据至少还包括所述待挖掘用户对应的行业类别、金融数据、税务数据、耗能数据。可以理解的是,用户数据还可以包括其他与用户数据相关的数据;其中数据源可以来自于工商管理机构、银行、税务部门、能源部门等,从而利用多维度的用户数据评估待挖掘用户,即,所述数据源包括:所述唯一标识归属的数据源(例如:来自于工商管理部门)、所述金融数据归属的数据源(例如:来自于银行)、所述税务数据归属的数据源(例如:来自于税务部门)、所述耗能数据归属的数据源(例如:来自于能源部门的供电部门等)、所述行业类别(餐饮行业、零售行业等)归属的数据源(例如:来自于工商管理部门);图2示出了上述描述的用户数据的示例,即采集个体工商户的用户数据的多个数据源;其中,可以通过des对称加密算法对各个数据源文件进行加密,并利用diffie-hellman密钥交换算法在采集用户数据时交换密钥,即,在采集所述用户数据时,所述不同类别的数据源为加密文件。
进一步地,聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合;具体地,将多个数据源(格式包括excel文件、数据库文件、文本文件等)聚合为一个格式(例如:数据库文件格式),即将不同格式的数据文件聚合处理为一个格式的数据文件;进一步地,解密(例如:des算法,对应于加密所使用的算法)并读取采集到的来自不同类别的数据源的所述用户数据;包括:对所述用户数据进行去除异常数据或者去重操作,生成同类别的所述用户数据集合。可以理解的是,在从不同格式数据源获取数据时,可能存在异常值(例如:空值等)数据、重复数据等,因此所述用户数据进行去除异常数据或者去重操作;在数据聚合步骤中可以使用mahalanobisdistance(马氏距离)算法模型,基于用户的唯一标识(例如:统一社会信用代码)确定得到的数据的缺失值、异常值,其中,马氏距离算法模型是度量学习中一种常用的距离指标,同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据之间的相似度指标;同时可以处理高维线性分布的数据中各维度间的非独立同分布的问题;进一步地,根据处理之后的用户数据生成用户数据集合。
步骤s102:利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据。
具体地,利用数据分布模型判断用户数据集合(例如:数据库)中包含的数据的数据分布(例如:正态分布、泊松分布、指数分布等);又,所述数据分布模型包括:集中趋势分析模型、离中趋势分析模型、统计分析模型中的任意一种或多种。其中,集中趋势分析模型(centraltendencyanalysis)用于寻找反应事物特征的数据集合的代表值或中心值;离中趋势分析模型(dispersiontendencyanalysis)中离中趋势又称“差异量数”、“标志变动度”等,用于确定在数据中各个数值之间的差距和离散程度;统计分析模型(distributionanalysis)为数据分布分析,通常为统计学中通过质量某特性值的分布状况来发现问题的一种方法。通过上述模型中的一种或多种计算所述用户数据集合中的所述用户数据的数据分布。
进一步地,根据所述数据分布选择数据分析模型;其中,所述数据分析模型包括:方差分析模型、相关性分析模型、回归分析模型、因子分析模型中的任意一种或多种。其中,方差分析模型(anovaanalysis)用于两个及两个以上样本均数差别的显著性检验;相关性分析模型(correlation)用于研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法;回归分析模型(regressionanalysis)用于确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法;因子分析模型(factoranalysis)用于从变量群中提取共性因子等;例如:当数据分布为正态分布时,可以确定的数据分析模型为方差分析模型、相关性分析模型、回归分析模型等,即,所述数据分析模型包括:方差分析模型、相关性分析模型、回归分析模型、因子分析模型中的任意一种或多种。
进一步地,利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据;具体地,利用数据分析模型,根据用户唯一标识(例如:统一社会信用卡代码,责任人的身份证号等),确定用户的特征数据,即基于特征数据计算和挖掘目标客户;例如:根据统一社会信用卡代码(用户唯一标识)确定待挖掘用户的特征数据为:归属地区,行业类别、资产数值、纳税数值、用电量数据等;这些特征数据来源于行业类别、金融数据、税务数据、耗能数据等数据源;在确定特征数据之后,形成一个用唯一标识区分待挖掘用户、并且包含了对应的各个特征数据的数据集合;优选地,将所述特征数据划分为多个子数据集合,并分别存储所述子数据集合;通过该方法可以将一个较大的数据集合划分为多个子集,并将子数据集合存储于分布式数据库中,通过分库分表提高了数据访问的效率和数据的健壮性和安全性。
步骤s103:根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户。
具体地,根据步骤s102的描述,生成了待挖掘用户的特征数据;进一步地,基于特征数据,利用分类器模型,计算并获取目标用户(例如:目标用户为优质个体工商户)。其中:所述利用分类器模型为随机森林模型;优选地,所述分类器模型为基于分类回归树构建的随机森林模型;随机森林(randomforest模型)是以决策树为基础的一种更高级的算法。像决策树一样,随机森林即可以用于回归也可以用于分类;分类与回归树(classificationandregressiontree)是决策树的一种,通常用于处理分类和回归问题;优选地,在训练所述随机森林模型时,利用评估指标对所述随机森林模型进行评估;例如:使用预测能力指标woe/iv、roc/auc、gini系数、稳定性指标psi等作为评估指标评估随机森林模型;其中:woe(weightofevidence)为证据权重,表示自变量取某个值的时候对违约比例的一种影响,iv(informationvalue)为信息价值,是衡量自变量对目标变量影响的指标之一;roc(receiveroperatingcharacteristic)曲线指接受者操作特征曲线;auc(areaundercurve)指曲线下的面积;gini系数用于评价特征分类的标准;psi(populationstabilityindex)为稳定性指标,用于衡量测试样本及模型开发样本评分的的分布差异;通过上述多个评估指标的评估,有助于提高随机森林模型计算分数值的准确率。
进一步地,利用所述随机森林模型,计算所述特征数据或所述子数据集合对应的所述待挖掘用户的分数值;当所述分数值大于设定阈值时,将所述分数值对应的所述待挖掘用户确定为所述目标用户;具体地,从特征数据中选择用于计算所述待挖掘用户的分数值的特征因子,其中,特征因子可以为:用户信用评级,年纳税额,资产数值,月用电量等;基于特征因子,利用随机森林模型,计算各个待挖掘用户的分数值;并将分数值大于设定阈值(例如:86分)的作为目标用户;设定阈值可以通过分数值和排名和目标用户的名额数来确定;也可以利用数学预测模型根据特征数据通过预测来确定。
优选地,在确定目标用户(优质个体工商户)之后,利用可视化模块,从多个维度展示所述目标用户的所述特征数据。例如:在一个页面的图中通过地图展示各地区优质个体工商户的分布以及数量,通过柱形图展示优质个体工商户数量在一个地区的排名,通过环形图展现优质个体工商户行业分布情况。
如图3所示,本发明实施例提供了一种数据处理的方法,该方法可以包括以下步骤:
步骤s301:数据采集:从多个不同类别的数据源采集待挖掘用户的用户数据;聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合。
具体地,从不同类别的数据源(例如:如图3所示的excel表格数据、mysql数据、文本数据)采集用户数据,关于用户数据和聚合处理用户数据为同类别用户数据集合的具体描述与步骤s101的描述一致,在此不再赘述。
步骤s302:数据分析:利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据。
具体地,根据步骤s301所采集并聚合处理的用户数据,经过数据分析得到用于数据挖掘的用户的特征数据;关于利用数据分析模型获取特征数据的描述与步骤s102的描述一致,在此不再赘述。
步骤s303:数据存储:将所述特征数据划分为多个子数据集合,并分别存储所述子数据集合。
具体地,将特征数据的数据进行分库分表处理,以利于数据访问的效率,以及数据的安全;关于将所述特征数据划分为多个子数据集合,并分别存储所述子数据集合的描述与步骤s102的描述一致,在此不再赘述。
如图4所示,本发明实施例提供了一种数据处理的装置400,包括:数据采集模块401、数据分析模块402和确定目标用户模块403;其中,
所述数据采集模块401,用于从多个不同类别的数据源采集待挖掘用户的用户数据;聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合;
所述数据分析模块402,用于利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据;
所述确定目标用户模块403,用于根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户。
可选地,所述数据采集模块401,包括:所述用户数据至少还包括所述待挖掘用户对应的行业类别、金融数据、税务数据、耗能数据。
可选地,所述数据采集模块401,还用于在采集所述用户数据时,所述不同类别的数据源为加密文件;其中,所述数据源包括:所述唯一标识归属的数据源、所述金融数据归属的数据源、所述税务数据归属的数据源、所述耗能数据归属的数据源、所述行业类别归属的数据源。
可选地,所述数据采集模块401,还用于聚合所述用户数据,将所述用户数据处理为同类别的用户数据集合,包括:解密并读取采集到的来自不同类别的数据源的所述用户数据,对所述用户数据进行去除异常数据或者去重操作,生成同类别的所述用户数据集合。
可选地,所述数据分析模块402,包括:所述数据分布模型包括:集中趋势分析模型、离中趋势分析模型、统计分析模型中的任意一种或多种。
可选地,所述数据分析模块402,包括:所述数据分析模型包括:方差分析模型、相关性分析模型、回归分析模型、因子分析模型中的任意一种或多种。
可选地,所述数据分析模块402,还用于将所述特征数据划分为多个子数据集合,并分别存储所述子数据集合。
可选地,所述确定目标用户模块403,还用于根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户,包括:所述利用分类器模型为随机森林模型;利用所述随机森林模型,计算所述特征数据或所述子数据集合对应的所述待挖掘用户的分数值;当所述分数值大于设定阈值时,将所述分数值对应的所述待挖掘用户确定为所述目标用户。
可选地,所述确定目标用户模块403,还用于利用可视化模块,从多个维度展示所述目标用户的所述特征数据。
本发明实施例还提供了一种数据处理的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例提供的方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的方法。
图5示出了可以应用本发明实施例的数据处理的方法或数据处理的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用,例如电子商城客户端应用、网页浏览器应用、搜索类应用、即时通信工具和邮箱客户端等。
终端设备501、502、503可以是具有显示屏并且支持各种客户端应用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所使用的客户端应用提供支持的后台管理服务器。后台管理服务器可以对接收到的待挖掘用户的用户数据进行分析和处理,并将挖掘到的目标用户的数据集合展示于终端设备。
需要说明的是,本发明实施例所提供的数据处理的方法一般由终端设备501、502、503执行,相应地,数据处理的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括包括:数据采集模块、数据分析模块和确定目标用户模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据采集模块还可以被描述为“从多个不同类别的数据源采集待挖掘用户的用户数据,并将所述用户数据处理为同类别用户数据集合的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:从多个不同类别的数据源采集待挖掘用户的用户数据;聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合;利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据;根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户。
由此可见,能够通过从多个数据源采集待挖掘用户的用户数据,基于用户数据的唯一标识,利用数据分析模型确定用户的关联数据,并利用数据分类模型计算各个用户的分数值,从而根据分数值选取目标用户,降低了人工处理用户数据的人力资源成本,提高了挖掘目标用户的准确率和工作效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
1.一种数据处理方法,其特征在于,包括:
从多个不同类别的数据源采集待挖掘用户的用户数据;聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合;
利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据;
根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户。
2.根据权利要求1所述的方法,其特征在于,
所述用户数据至少还包括所述待挖掘用户对应的行业类别、金融数据、税务数据、耗能数据。
3.根据权利要求1或2所述的方法,其特征在于,
从多个不同类别的数据源采集待挖掘用户的用户数据,包括:
在采集所述用户数据时,所述不同类别的数据源为加密文件;其中,所述数据源包括:所述唯一标识归属的数据源、所述金融数据归属的数据源、所述税务数据归属的数据源、所述耗能数据归属的数据源、所述行业类别归属的数据源。
4.根据权利要求1所述的方法,其特征在于,
聚合所述用户数据,将所述用户数据处理为同类别的用户数据集合,包括:
解密并读取采集到的来自不同类别的数据源的所述用户数据,对所述用户数据进行去除异常数据或者去重操作,生成同类别的所述用户数据集合。
5.根据权利要求1所述的方法,其特征在于,
所述数据分布模型包括:集中趋势分析模型、离中趋势分析模型、统计分析模型中的任意一种或多种。
6.根据权利要求1所述的方法,其特征在于,
所述数据分析模型包括:方差分析模型、相关性分析模型、回归分析模型、因子分析模型中的任意一种或多种。
7.根据权利要求1所述的方法,其特征在于,
利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;还包括:
将所述特征数据划分为多个子数据集合,并分别存储所述子数据集合。
8.根据权利要求1-7任一所述的方法,其特征在于,
根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户,包括:
所述利用分类器模型为随机森林模型;利用所述随机森林模型,计算所述特征数据或所述子数据集合对应的所述待挖掘用户的分数值;当所述分数值大于设定阈值时,将所述分数值对应的所述待挖掘用户确定为所述目标用户。
9.根据权利要求1所述的方法,其特征在于,
利用可视化模块,从多个维度展示所述目标用户的所述特征数据。
10.一种数据处理的装置,其特征在于,包括:数据采集模块、数据分析模块和确定目标用户模块;其中,
所述数据采集模块,用于从多个不同类别的数据源采集待挖掘用户的用户数据;聚合所述用户数据,并将所述用户数据处理为同类别用户数据集合;
所述数据分析模块,用于利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布,根据所述数据分布选择数据分析模型;利用所述数据分析模型,从所述用户数据集合中确定关联于用户唯一标识的特征数据;其中,所述用户唯一标识包含于所述用户数据;
所述确定目标用户模块,用于根据所述特征数据,利用分类器模型,确定所述特征数据对应的待挖掘用户是否为目标用户。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
技术总结