本申请涉及互联网技术领域,更具体地说,涉及一种信息处理方法、系统、设备及计算机可读存储介质。
背景技术:
企业的行业标签是一个重要字段,借助企业的行业标签可以对企业有一个快速认识,而全国已有企业达千万级别,并且每天有不少企业孵化,如何快速对企业按行业分类是个重要问题。现有技术中对企业的行业进行分类时,只考虑企业的经营范围描述或企业的名称数据等,并且主要采用人工统计分析方法对企业的行业进行分类,需要消耗大量的人力物力,工作量繁重,工作效率极低,而其分类结果准确性也偏低,可信度不高。
综上所述,如何提高企业行业识别的效率及准确性是目前本领域技术人员亟待解决的问题。
技术实现要素:
本申请的目的是提供一种信息处理方法,其能在一定程度上解决如何提高企业行业识别的效率及准确性的技术问题。本申请还提供了一种信息处理系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种信息处理方法,包括:
获取待分析企业的多维度数据信息,所述多维度数据信息包括两个及两个以上维度的数据信息;
对所述多维度数据信息进行特征提取,得到多维度向量信息;
基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集;
基于所述概率集确定所述待分析企业的目标类别。
优选的,所述对所述多维度数据信息进行特征提取,得到多维度向量信息,包括:
基于自然语言处理方法和文本特征提取方法对所述多维度数据信息进行特征提取,得到所述多维度向量信息。
优选的,所述多维度数据信息包括:企业单位名称、企业经营范围信息、企业直接监管单位信息、企业主域名网站信息、搜索引擎推荐信息。
优选的,所述基于自然语言处理方法和文本特征提取方法对所述多维度数据信息进行特征提取,得到所述多维度向量信息,包括:
基于tfidf算法对所述企业单位名称、所述企业直接监管单位信息、所述搜索引擎推荐信息进行特征提取,得到相应的维度向量信息;
基于word2vec模型对所述企业经营范围信息进行特征提取,得到相应的维度向量信息;
基于词向量方法对所述企业主域名网站信息进行特征提取,得到相应的维度向量信息;
将所有的所述维度向量信息作为所述多维度向量信息。
优选的,所述基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集,包括:
基于支持向量机分类方法对所述企业单位名称、所述搜索引擎推荐信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;
基于knn方法对所述企业直接监管单位信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;
基于textcnn深度学习模型对所述企业经营范围信息、所述企业主域名网站信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;
将所有的所述概率值作为所述概率集。
优选的,所述基于所述概率集确定所述待分析企业的目标类别,包括:
基于xgboost分类器对所述概率集进行处理,得到所述目标类别。
优选的,所述基于xgboost分类器对所述概率集进行处理,得到所述目标类别,包括:
将所述概率集中的各个所述概率值进行拼接,得到拼接概率;
基于所述xgboost分类器对所述拼接概率进行处理,得到所述目标类别。
一种信息处理系统,包括:
第一获取模块,用于获取待分析企业的多维度数据信息,所述多维度数据信息包括两个及两个以上维度的数据信息;
第一提取模块,用于对所述多维度数据信息进行特征提取,得到多维度向量信息;
第一确定模块,用于基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集;
第二确定模块,用于基于所述概率集确定所述待分析企业的目标类别。
一种信息处理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一所述信息处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述信息处理方法的步骤。
本申请提供的一种信息处理方法,获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息;对多维度数据信息进行特征提取,得到多维度向量信息;基于多维度向量信息确定待分析企业属于各个企业类别的概率集;基于概率集确定待分析企业的目标类别。本申请中,获取的是待分析企业的多维度数据信息,相当于获取待分析企业在多个维度下的数据信息,可以为后续进行企业类别识别时提供较多的信息,与根据单一的数据信息来对企业进行类别识别的现有技术相比,可以提高企业类别识别的准确性,并且全程无需人工参与,效率高。本申请提供的一种信息处理系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种信息处理方法的第一流程图;
图2为本申请中多维度向量信息的确定流程图;
图3为cbow模型的结构示意图;
图4为skip-gram模型的结构示意图;
图5为本实施例中概率集的确定流程图;
图6为本申请实施例提供的一种信息处理系统的结构示意图;
图7为本申请实施例提供的一种信息处理设备的结构示意图;
图8为本申请实施例提供的一种信息处理设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种信息处理方法的第一流程图。
本申请实施例提供的一种信息处理方法,可以包括以下步骤:
步骤s101:获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息。
实际应用中,可以先获取待分析企业的多维度数据信息,多维度数据信息也即待分析企业在多个维度下的数据信息,多维度数据信息一般包括两个及两个以上维度的数据信息,其类型可以根据实际需要确定。
步骤s102:对多维度数据信息进行特征提取,得到多维度向量信息。
实际应用中,因为获取的多维度数据信息的类型较多且表示方式多样,为了便于后续对多维度数据信息进行处理,可以先对多维度数据信息进行特征提取,得到多维度向量信息,也即可以将多维度数据信息转换为相应的向量信息,后续根据多维度向量信息来确定待分析企业的类别,提高本申请提供的信息处理方法的效率。
步骤s103:基于多维度向量信息确定待分析企业属于各个企业类别的概率集。
实际应用中,因为多维度向量信息中的每个维度向量信息均可以用来表征待分析企业属于各个企业类别的概率,所以再对多维度数据信息进行特征提取,得到多维度向量信息之后,可以基于多维度向量信息确定待分析企业属于各个企业类别的概率集,概率集中包括多个表征待分析企业属于各个企业类别的概率值,概率集的确定方式可以根据实际需要确定。
步骤s104:基于概率集确定待分析企业的目标类别。
实际应用中,因为概率集中包括多个表征待分析企业属于各个企业类别的概率值,而待分析企业一般只有一个或几个类别标签,所以在基于多维度向量信息确定待分析企业属于各个企业类别的概率集之后,还需基于概率集确定待分析企业的目标类别。
本申请提供的一种信息处理方法,获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息;对多维度数据信息进行特征提取,得到多维度向量信息;基于多维度向量信息确定待分析企业属于各个企业类别的概率集;基于概率集确定待分析企业的目标类别。本申请中,获取的是待分析企业的多维度数据信息,相当于获取待分析企业在多个维度下的数据信息,可以为后续进行企业类别识别时提供较多的信息,与根据单一的数据信息来对企业进行类别识别的现有技术相比,可以提高企业类别识别的准确性,并且全程无需人工参与,效率高。
本申请实施例提供的一种信息处理方法中,为了便于得到多维度向量信息,在对多维度数据信息进行特征提取,得到多维度向量信息的过程中,可以基于自然语言处理方法和文本特征提取方法对多维度数据信息进行特征提取,得到多维度向量信息。具体的自然语言处理方法和文本特征提取方法及特征提取的维度等可以根据实际需要确定,比如特征提取的维度可以为200维等,本申请在此不做具体限定。
本申请实施例提供的一种信息处理方法中,多维度数据信息可以包括:企业单位名称、企业经营范围信息、企业直接监管单位信息、企业主域名网站信息、搜索引擎推荐信息等。企业直接监管单位信息也即直接监管企业的单位信息;搜索引擎推荐信息也即在搜索引擎中检索企业时出现的推荐信息。
请参阅图2,图2为本申请中多维度向量信息的确定流程图。
本申请实施例提供的一种信息处理方法中,基于自然语言处理方法和文本特征提取方法对多维度数据信息进行特征提取,得到多维度向量信息的过程,可以包括以下步骤:
步骤s201:基于tfidf算法对企业单位名称、企业直接监管单位信息、搜索引擎推荐信息进行特征提取,得到相应的维度向量信息。
实际应用中,对于企业单位名称、企业直接监管单位信息和搜索引擎推荐信息,可以直接基于tfidf(termfrequency-inversedocumentfrequency,词频-逆文件频率)算法进行特征提取,快速得到相应的维度向量信息。
应当指出,tfidf是一种用于信息检索与数据挖掘的常用加权技术,tf是词频(termfrequency),idf是逆文档频率指数(inversedocumentfrequency),tfidf的主要思想是:如果某个词或短语在一篇文章中出现的频率tf高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别分类能力,适合用来分类,具体计算公式如下:词频(tf)=某个词在文章中出现的次数;逆文档频率(idf)=log(语料库的文档总数/包含该词的文档总数 1);tfidf=tf*idf。
步骤s202:基于word2vec模型对企业经营范围信息进行特征提取,得到相应的维度向量信息。
实际应用中,对于企业经营范围信息,可以基于word2vec(wordtovector)模型进行特征提取,快速得到相应的维度向量信息。
应当指出,word2vec,是一群用来产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新构建语言学之此文本,网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的,训练完之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神将网络之隐藏层。word2vec模型可以具体为cbow模型或skip-gram模型等,cbow模型的结构可以参阅图3,skip-gram模型的结构可以参阅图4。
步骤s203:基于词向量方法对企业主域名网站信息进行特征提取,得到相应的维度向量信息。
实际应用中,对于企业主域名网站信息,可以直接基于词向量方法,比如腾讯中文词向量及与训练模型进行特征提取,得到相应的维度向量信息。具体的,可以基于词向量方法,对企业主域名网站信息中的title(网站标题)、description(内容摘要)、keywords(关键词)数据进行特征提取,得到相应的维度向量信息。
步骤s204:将所有的维度向量信息作为多维度向量信息。
实际应用中,在得到各个维度向量信息之后,便可以将所有的维度向量信息作为多维度向量信息。
请参阅图5,图5为本实施例中概率集的确定流程图。
本申请实施例提供的一种信息处理方法中,基于多维度向量信息确定待分析企业属于各个企业类别的概率集的过程,可以包括以下步骤:
步骤s301:基于支持向量机分类方法对企业单位名称、搜索引擎推荐信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值。
实际应用中,对于企业单位名称、搜索引擎推荐信息对应的维度向量信息,可以直接基于支持向量机分类方法进行企业类别概率计算,快速得到相应的待分析企业属于各个企业类别的概率值。
应当指出,支持向量机(supportvectormachine,svm)是由瓦普尼克等在1995年提出的一类机器学习方法。svm作为一种经典的统计学习算法,以结构最小化理论、核空间理论脱颖而出。它是在统计学习理论基础上发展起来的一种通用学习机器,其关键的思想是利用核函数把一个复杂的分类任务通过核函数映射使之转化成一个在高维特征空间中构造线性分类超平面的问题。支持向量机由于其优秀的学习性能,在分类问题中得到了广泛应用。
本申请中,假设企业单位名称或搜索引擎推荐信息经过tfidf处理后对应的向量维度信息为:p1=(x1,x2,…,xn),xn表示选取前n个权重较大词作为特征。将p1作为支持向量机分类器的输入,则模型输出为:y1=(o1,o2,…,om),om表示该数据属于第m个类别的概率。
步骤s302:基于knn方法对企业直接监管单位信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值。
实际应用中,对于企业直接监管单位信息对应的维度向量信息,可以直接基于knn方法进行企业类别概率计算,快速得到相应的待分析企业属于各个企业类别的概率值。
应当指出,k最近邻(knn,k-nearestneighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓k最近邻,就是k个最近的邻居的意思,说是每个样本都可以用它最接近的k个临近值来代表。核心思想是:如果一个样本在特种空间中的k个最近邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本特性。
步骤s303:基于textcnn深度学习模型对企业经营范围信息、企业主域名网站信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值。
实际应用中,对于企业经营范围信息、企业主域名网站信息对应的维度向量信息,可以直接基于textcnn深度学习模型进行企业类别概率计算,快速得到相应的待分析企业属于各个企业类别的概率值。
应当指出,textcnn是在2014年提出的,是将卷积神经网络cnn(convolutionalneuralnetworks,卷积神经网络)应用到文本分类任务,利用多个不同大小的卷积核来提取句子中的关键信息,从而能够更好的捕捉局部相关性。
步骤s304:将所有的概率值作为概率集。
实际应用中,在得到各个概率值之后,便可以将所有的概率值集合起来作为概率集。
本申请实施例提供的一种信息处理方法中,基于概率集确定待分析企业的目标类别的过程,可以具体为:基于xgboost(extremegradientboosting,极端梯度提升)分类器对概率集进行处理,得到目标类别。
实际应用中,基于xgboost分类器对概率集进行处理,得到目标类别的过程中,可以将概率集中的各个概率值进行拼接,得到拼接概率;基于xgboost分类器对拼接概率进行处理,得到目标类别。xgboost是陈天奇等人开发的一个开源机器学习项目,高效地实现了gbdt(gradientboostingdecisiontree)算法并进行了算法和工程上的许多改进,被广泛应用在kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩,xgboost本质上还是一个gbdt,xgboos是一个树集成模型,它将k(树的个数)个树的结果进行求和,作为最终的预测值。
请参阅图6,图6为本申请实施例提供的一种信息处理系统的结构示意图。
本申请实施例提供的一种信息处理系统,可以包括:
第一获取模块101,用于获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息;
第一提取模块102,用于对多维度数据信息进行特征提取,得到多维度向量信息;
第一确定模块103,用于基于多维度向量信息确定待分析企业属于各个企业类别的概率集;
第二确定模块104,用于基于概率集确定待分析企业的目标类别。
本申请实施例提供的一种信息处理系统,第一提取模块可以包括:
第一提取子模块,用于基于自然语言处理方法和文本特征提取方法对多维度数据信息进行特征提取,得到多维度向量信息。
本申请实施例提供的一种信息处理系统,多维度数据信息可以包括:企业单位名称、企业经营范围信息、企业直接监管单位信息、企业主域名网站信息、搜索引擎推荐信息。
本申请实施例提供的一种信息处理系统,第一提取子模块可以包括:
第一提取单元,用于基于tfidf算法对企业单位名称、企业直接监管单位信息、搜索引擎推荐信息进行特征提取,得到相应的维度向量信息;
第二提取单元,用于基于word2vec模型对企业经营范围信息进行特征提取,得到相应的维度向量信息;
第三提取单元,用于基于词向量方法对企业主域名网站信息进行特征提取,得到相应的维度向量信息;
第一设置单元,用于将所有的维度向量信息作为多维度向量信息。
本申请实施例提供的一种信息处理系统,第一确定模块可以包括:
第一确定单元,用于基于支持向量机分类方法对企业单位名称、搜索引擎推荐信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;
第二确定单元,用于基于knn方法对企业直接监管单位信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;
第三确定单元,用于基于textcnn深度学习模型对企业经营范围信息、企业主域名网站信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;
第二设置单元,用于将所有的概率值作为概率集。
本申请实施例提供的一种信息处理系统,第二确定模块可以包括:
第一处理子模块,用于基于xgboost分类器对概率集进行处理,得到目标类别。
本申请实施例提供的一种信息处理系统,第一处理子模块可以包括:
第一拼接单元,用于将概率集中的各个概率值进行拼接,得到拼接概率;
第一拼接单元,用于基于xgboost分类器对拼接概率进行处理,得到目标类别。
本申请还提供了一种信息处理设备及计算机可读存储介质,其均具有本申请实施例提供的一种信息处理方法具有的对应效果。请参阅图7,图7为本申请实施例提供的一种信息处理设备的结构示意图。
本申请实施例提供的一种信息处理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:
获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息;
对多维度数据信息进行特征提取,得到多维度向量信息;
基于多维度向量信息确定待分析企业属于各个企业类别的概率集;
基于概率集确定待分析企业的目标类别。
本申请实施例提供的一种信息处理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于自然语言处理方法和文本特征提取方法对多维度数据信息进行特征提取,得到多维度向量信息。
本申请实施例提供的一种信息处理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:多维度数据信息包括:企业单位名称、企业经营范围信息、企业直接监管单位信息、企业主域名网站信息、搜索引擎推荐信息。
本申请实施例提供的一种信息处理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于tfidf算法对企业单位名称、企业直接监管单位信息、搜索引擎推荐信息进行特征提取,得到相应的维度向量信息;基于word2vec模型对企业经营范围信息进行特征提取,得到相应的维度向量信息;基于词向量方法对企业主域名网站信息进行特征提取,得到相应的维度向量信息;将所有的维度向量信息作为多维度向量信息。
本申请实施例提供的一种信息处理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于支持向量机分类方法对企业单位名称、搜索引擎推荐信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;基于knn方法对企业直接监管单位信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;基于textcnn深度学习模型对企业经营范围信息、企业主域名网站信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;将所有的概率值作为概率集。
本申请实施例提供的一种信息处理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于xgboost分类器对概率集进行处理,得到目标类别。
本申请实施例提供的一种信息处理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:将概率集中的各个概率值进行拼接,得到拼接概率;基于xgboost分类器对拼接概率进行处理,得到目标类别。
请参阅图8,本申请实施例提供的另一种信息处理设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现信息处理设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(hml)、通用串行总线(usb)、高清多媒体接口(hdmi)、无线连接:无线保真技术(wifi)、蓝牙通信技术、低功耗蓝牙通信技术、基于ieee802.11s的通信技术。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息;
对多维度数据信息进行特征提取,得到多维度向量信息;
基于多维度向量信息确定待分析企业属于各个企业类别的概率集;
基于概率集确定待分析企业的目标类别。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于自然语言处理方法和文本特征提取方法对多维度数据信息进行特征提取,得到多维度向量信息。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:多维度数据信息包括:企业单位名称、企业经营范围信息、企业直接监管单位信息、企业主域名网站信息、搜索引擎推荐信息。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于tfidf算法对企业单位名称、企业直接监管单位信息、搜索引擎推荐信息进行特征提取,得到相应的维度向量信息;基于word2vec模型对企业经营范围信息进行特征提取,得到相应的维度向量信息;基于词向量方法对企业主域名网站信息进行特征提取,得到相应的维度向量信息;将所有的维度向量信息作为多维度向量信息。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于支持向量机分类方法对企业单位名称、搜索引擎推荐信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;基于knn方法对企业直接监管单位信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;基于textcnn深度学习模型对企业经营范围信息、企业主域名网站信息对应的维度向量信息进行企业类别概率计算,得到相应的待分析企业属于各个企业类别的概率值;将所有的概率值作为概率集。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于xgboost分类器对概率集进行处理,得到目标类别。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:将概率集中的各个概率值进行拼接,得到拼接概率;基于xgboost分类器对拼接概率进行处理,得到目标类别。
本申请所涉及的计算机可读存储介质包括随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
本申请实施例提供的信息处理系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的信息处理方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
1.一种信息处理方法,其特征在于,包括:
获取待分析企业的多维度数据信息,所述多维度数据信息包括两个及两个以上维度的数据信息;
对所述多维度数据信息进行特征提取,得到多维度向量信息;
基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集;
基于所述概率集确定所述待分析企业的目标类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述多维度数据信息进行特征提取,得到多维度向量信息,包括:
基于自然语言处理方法和文本特征提取方法对所述多维度数据信息进行特征提取,得到所述多维度向量信息。
3.根据权利要求1所述的方法,其特征在于,所述多维度数据信息包括:企业单位名称、企业经营范围信息、企业直接监管单位信息、企业主域名网站信息、搜索引擎推荐信息。
4.根据权利要求3所述的方法,其特征在于,所述基于自然语言处理方法和文本特征提取方法对所述多维度数据信息进行特征提取,得到所述多维度向量信息,包括:
基于tfidf算法对所述企业单位名称、所述企业直接监管单位信息、所述搜索引擎推荐信息进行特征提取,得到相应的维度向量信息;
基于word2vec模型对所述企业经营范围信息进行特征提取,得到相应的维度向量信息;
基于词向量方法对所述企业主域名网站信息进行特征提取,得到相应的维度向量信息;
将所有的所述维度向量信息作为所述多维度向量信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集,包括:
基于支持向量机分类方法对所述企业单位名称、所述搜索引擎推荐信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;
基于knn方法对所述企业直接监管单位信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;
基于textcnn深度学习模型对所述企业经营范围信息、所述企业主域名网站信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;
将所有的所述概率值作为所述概率集。
6.根据权利要求5所述的方法,其特征在于,所述基于所述概率集确定所述待分析企业的目标类别,包括:
基于xgboost分类器对所述概率集进行处理,得到所述目标类别。
7.根据权利要求6所述的方法,其特征在于,所述基于xgboost分类器对所述概率集进行处理,得到所述目标类别,包括:
将所述概率集中的各个所述概率值进行拼接,得到拼接概率;
基于所述xgboost分类器对所述拼接概率进行处理,得到所述目标类别。
8.一种信息处理系统,其特征在于,包括:
第一获取模块,用于获取待分析企业的多维度数据信息,所述多维度数据信息包括两个及两个以上维度的数据信息;
第一提取模块,用于对所述多维度数据信息进行特征提取,得到多维度向量信息;
第一确定模块,用于基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集;
第二确定模块,用于基于所述概率集确定所述待分析企业的目标类别。
9.一种信息处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述信息处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述信息处理方法的步骤。
技术总结