本申请涉及互联网技术领域,尤其涉及一种企业画像的构建方法。
背景技术:
随着大数据时代的来临,企业画像的概念应运而生。企业画像描述的是多维度企业信息数据,企业画像,既有利于企业对自身的状况有更清晰更全面地了解,又有利于政府决策部门将企业按照行业、地区等进行汇总、分析,从而便于了解行业现状,分析区域经济形势,进而采取相应措施推动经济发展。因此,企业画像的构建尤为重要。然而,现有方法所构建的企业画像只能反映企业自身的基本信息,有时仅凭基本信息并不能够顺利找到目标企业。基于此,目前急需一种企业画像的构建方法,来解决上述问题。
技术实现要素:
本申请的目的是针对以上问题,提供一种企业画像的构建方法。
本申请提供一种企业画像的构建方法,所述方法包括:
获取与企业画像相关的数据;
对所述与企业画像相关的数据进行预处理,获取预处理后的数据;
根据企业画像标签策略表对所述预处理后的数据进行分类处理;
将分类处理后的数据存储至相应的企业信息数据库;
从各个所述企业信息数据库中获取亲族关系身份识别数据;所述亲族关系身份识别数据包括企业法定代表人、投资人、财务负责人以及办税人的身份信息数据;
根据亲族关系身份识别数据,获取相关的亲族企业的基础信息数据,并建立企业亲族关系数据库;
根据所述企业亲族关系数据库中的数据以及各个所述企业信息数据库中的数据,构建企业画像。
优选的,所述与企业画像相关的数据包括:单位基本信息、股权结构、上市信息、国高信息、从业人员情况、单位财务情况、知识产权、单位科研活动以及获政府资助情况。
优选的,对所述与企业画像相关的数据进行预处理,获取预处理后的数据,具体包括:
对所述与企业画像相关的数据进行去重处理,得到去重处理后的数据;
对所述去重处理后的数据进行剔除处理,剔除所述去重处理后的数据中数据格式不正确或编码不规范的数据,得到合规数据;
根据企业画像标签策略表对所述合规数据进行筛选,得到预处理后的数据。
优选的,所述企业画像标签策略表包括个七个企业画像维度,分别为行业维度、时间维度、所属产业维度、高层次人才数维度、营收规模维度、纳税规模维度、政策扶持维度。
优选的,所述身份信息数据包括姓名、性别、年龄、学历、证件类型以及证件号码。
优选的,根据亲族关系身份识别数据,获取相关的亲族企业的基础信息数据,并建立企业亲族关系数据库,具体包括:
从相关的企业信息数据库中提取企业位置信息;
根据企业位置信息限定亲族关系企业的检索范围;
在所述检索范围内查找相关的亲族企业,并获取相关的亲族企业的基础信息数据;
根据所述亲族企业的基础信息数据建立企业亲族关系数据库。
优选的,所述亲族企业的基础信息数据包括:企业名称、企业类型、企业成立年限以及企业存续状态。
优选的,根据所述企业亲族关系数据库中的数据以及各个所述企业信息数据库中的数据,构建企业画像,具体包括:
根据预设的企业画像模型,从所述企业亲族关系数据库中提取相适配的数据,并对该数据进行处理,得到关系图谱数据;
根据预设的企业画像模型,逐一从各个所述企业信息数据库中提取相适配的数据,并对该数据进行处理,得到相应的企业自身数据;
根据所述关系图谱数据和企业自身数据,构建企业画像。
优选的,所述企业画像模型包括如下模块:关系图谱模块、产业链模块、全生命周期服务模块、关键指标模块、趋势发展模块、资金申报信息模块、企业服务档案模块、企业详情模块、企业诉求模块、政策匹配模块以及知识产权匹配模块。
优选的,所述企业画像可在pc端和手机端进行展示。
与现有技术相比,本申请的有益效果:该企业画像的构建方法除了可以反映企业自身的基本信息以外,还可以反映与企业有亲族关系的企业,形成亲族关系图谱,人际脉络一目了然,解决了现有技术中仅凭基本信息不能够顺利找到目标企业的问题。
附图说明
图1为本申请实施例提供的企业画像的构建方法的流程示意图;
图2为图1中步骤s200具体实施的流程示意图;
图3为图1中步骤s600具体实施的流程示意图;
图4为图1中步骤s700具体实施的流程示意图;
图5为本申请实施例提供的企业画像模型的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本申请的技术方案,下面结合附图对本申请进行详细描述,本部分的描述仅是示范性和解释性,不应对本申请的保护范围有任何的限制作用。
请参考图1,本实施例提供一种企业画像的构建方法,可以应用于提供企业画像的服务器或者云平台上。如图1所示,本发明实施例所提供的企业画像的构建方法包括:
s100、获取与企业画像相关的数据。
与企业画像相关的数据的获取方式多种多样,比如可通过一些进行的业务来获取,具体地,可通过企业资金申报、政府业务受理、政府审批拨款、系统对接等业务来获取;还比如可通过一些信息平台来获取,例如企业信用信息平台;还可以将通过业务获取的数据与通过企业信用信息平台所获取的数据进行对比,以获取更为可靠的数据。
优选的,所述与企业画像相关的数据包括:单位基本信息、股权结构、上市信息、国高信息、从业人员情况、单位财务情况、知识产权、单位科研活动以及获政府资助情况。
单位基本信息包括企业英文全称、是否注销、注销日期、公司账号、挂点领导、挂点干部、企业规模、营业执照发证日期、营业执照代码、执照有效期、工商机关编码、工商企业状态编码、组织机构代码(统一社会信用代码)、纳税人状态代码、国税登记证号、主管税务分局代码、单位地址、联系电话、单位网址、电子邮箱、传真、企业qq、所在区域、所述街道、注册日期、核准日期、登记机关、迁入时间、注册地址、注册资金、注册资金货币种类、其中外资比例、营业期限、营业期限终止日期、单位信用等级、企业类型代码、注册类型、单位资质、所属行业、经营范围、经营模式、行业编码、主营行业、主营产品、产品(服务)所属高新技术领域、行业情况、企业简介/单位简介及发展规划、企业基本情况、基本账户开户银行、支行、行别编码、银行账户、银行信用等级、办公所在区、生产所在区、占地面积、建筑面积、办公面积、生产用房面积、海外营销机构数/海外营销机构数、海外营销机构人数、海外研发机构数、全年用电量、全年用水量、最近获证时间、证书号、产业分类、所属产业、首次获证时间、等级、经济类型、开通网上招工、开通网上招工时间、主管税务人员代码映射到政府人员、推报地市、推报单位、唯一码、邮编、总机构工商局内码、总机构营业执照注册号、分支机构、分支机构标记、机构类型代码、年检日期、企业内码、实缴资本、实缴资本币种、行政区划、社会荣誉、专业资质、公司视频、入会时间、代工品牌、技术水平(国际先进、国内先进、省内先进、普通水平)、主要生产工艺、自主品牌、在建项目、经济数据、科研能力等。
股权结构包括主要股东名称、出资额、出资方式、所占比例、股东信息-姓名、股东信息-出资比例、股东信息-认缴出资、股东信息-货币类型等。
上市信息包括是否上市、上市类型、证券交易市场、上市时间、股票代码/股票代码等。
国高信息包括首次获得国家高新技术企业时间、当前国家高新技术企业证书编号、首次获得深圳市高新技术企业时间、当前深圳市高新技术企业证书编号等。
从业人员情况包括法定代表人姓名、法定代表人联系电话、法定代表人学历、法定代表人人证件类型、法定代表人证件号码、法定代表人职务、董事长姓名、董事长电话、总经理姓名、总经理电话、单位负责人姓名、单位负责人移动电话、企业主要负责人基本情况、单位联系人姓名、单位联系人联系电话、单位联系人学历、单位联系人身份证号码、单位联系人电子邮箱、单位联系人传真、从业人员总数、其中女职工数、留学归国人员数、参加社保人数、新增高校毕业生、外籍专家人数、研发技术人员数量、博士学历以上人员数量、企业人员总体结构-博士及以上人数占比、硕士学历人员数量、企业人员总体结构-硕士人数占比、本科学历人员数量、企业人员总体结构-本科人数占比、本科以下学历人员数量、高级职称、中级职称、初级职称、行政管理人数、市场营销人数、研发设计人数、加工制造人数、主要人员-姓名、主要人员-职位等。
单位财务情况包括年度总产值、工业总产值、高新技术产品产值、营业收入、主营业务收入、高新技术产品(服务)收入、节能环保产业收入、出口总额、高新技术产品出口额、企业增加值、高新技术产品增加值、应付工资和福利、固定资产折旧、应缴税费总额、企业所得税、个人所得税、增值税、营业税、其他税费、实际优惠税费总额、所得税优惠、研发加计扣除所得税减免额、国家需要重点扶持的高新技术企业所得税减免、技术转让所得税减免、增值税优惠、营业税优惠、其他优惠、税收额、总资产、净利润、负债总额、固定资产总额、完成固定资产投资额、科研投入总额、工业投资额、工业技术改造投资额、员工培训年投入费用、年末净资产、一般资产、所有者权益合计、销售总额、总利润、主营收入、主营产品产量等。
知识产权包括拥有专利数、发明专利数、集成电路布图设计登记数、发明专利数、外观设计专利数、pct国际专利申请量、累计发明专利授权数、累计发明公布数、累计集成电路布图设计登记证书数、发明授权数、外观设计授权数、累计发表论文数、累计出版科技著作数、累计拥有软件著作权数、累计重点实验室、工程中心等创新平台数量(国家级/省级/市级)、累计拥有ic布图版权数、累计拥有注册商标数、累计参编技术标准数(国际/国家/行业)、累计发现植物新品种数、累计获取新药(医药、农药、兽药)证书数、累计科技奖项(国家级/省级/市级)、累计重点实验室数量(国家级/省级/市级)、累计工程中心数量(国家级/省级/市级)、累计项目数量(国家级/省级/市级)。
单位科研活动包括上年科研经费全年投入总额、前年科研经费全年投入总额、科研经费全年投入总额增长率、上年科研支出占全年总收入的比例、前年科研支出占全年总收入的比例、科研支出占全年总收入的比例增长率、上年科研人员数、上年院士数、上年千人计划人数、上年万人计划人数、上年珠江人才计划人数、上年孔雀计划人数、上年副高及以上人数、上年博士人数、上年硕士人数等。
获政府资助情况包括国家、省、市、区的资助项目项目名称、项目级别、项目类别、资助部门、资助金额、资助时间、是否获得配套扶持、扶持金额、扶持时间、国家项目数量、累计获得国家资助经费金额、省级项目数量、累计获得省级资助经费金额、市级项目数量、累计获得市级资助经费金额等。
需要说明的是,以上只是对所述与企业画像相关的数据进行的列举说明,所述与企业画像相关的数据包含但不应限于上述所列举数据。
s200、对所述与企业画像相关的数据进行预处理,获取预处理后的数据。
请进一步参考图2,优选的,步骤s200具体包括:
s201、对所述与企业画像相关的数据进行去重处理,得到去重处理后的数据。通过不同获取方式获取的与企业画像相关的数据中,往往会存在重复性的数据,因此为减少后面步骤中对数据进行处理的时间,提高数据处理的效率,首先将重复性的数据进行去重处理。
s202、对所述去重处理后的数据进行剔除处理,剔除所述去重处理后的数据中数据格式不正确或编码不规范的数据,得到合规数据。去重处理后的数据与原始数据相比,只是剔除了重复的成分,难免还存在一些数据格式非法、不正确或者是编码不规范的数据,这些数据的存在将会影响后面步骤中的数据处理,因此需要剔除以规范数据,得到合规数据,提高数据质量。
s203、根据企业画像标签策略表对所述合规数据进行筛选,得到预处理后的数据。
优选的,所述企业画像标签策略表包括个七个企业画像维度,分别为行业维度、时间维度、所属产业维度、高层次人才数维度、营收规模维度、纳税规模维度、政策扶持维度。
s300、根据企业画像标签策略表对所述预处理后的数据进行分类处理。
具体地,首先从是否为国高、税收、人员结构、产值、规模、知识产权、研发投入等方面对所述预处理后的数据进行分析,然后按照行业维度、时间维度、所属产业维度、高层次人才数维度、营收规模维度、纳税规模维度、政策扶持维度来对所述预处理后的数据进行分类。此外,还可以进一步分析其政策申报情况、产值增长率、关键指标、税收增长率、资金使用情况等方面的内容;当企业的各方面数据良好并且发展势头良好时,该企业可以被标记并归类至企业培育库中,政府将对其重点扶持;当企业的发展势头不良时,该企业可以被标记并归类至企业预警库中,政府将对其重点监测。
s400、将分类处理后的数据存储至相应的企业信息数据库。
企业画像系统一般包含多个企业信息数据库,在构建企业画像之前,一般会首先预设企业画像模型,多个企业信息数据库会依据预设的企业画像模型来建立,此步骤将分类处理后的数据存储至事先建立好的相对应的企业信息数据库内。有关预设的企业画像模型将在步骤s700中进行详细接收,故此处不再赘述。
s500、从各个所述企业信息数据库中获取亲族关系身份识别数据;所述亲族关系身份识别数据包括企业法定代表人、投资人、财务负责人以及办税人的身份信息数据。
优选的,所述身份信息数据包括姓名、性别、年龄、学历、证件类型以及证件号码。
s600、根据亲族关系身份识别数据,获取相关的亲族企业的基础信息数据,并建立企业亲族关系数据库。
请进一步参考图3,优选的,步骤s600具体包括:
s601、从相关的企业信息数据库中提取企业位置信息。
s602、根据企业位置信息限定亲族关系企业的检索范围。一般地,将检索范围设置为市级,即当前企业所处地理位置所归属市级的全市范围。
s603、在所述检索范围内查找相关的亲族企业,并获取相关的亲族企业的基础信息数据。
优选的,所述亲族企业的基础信息数据包括:企业名称、企业类型、企业成立年限以及企业存续状态。
s604、根据所述亲族企业的基础信息数据建立企业亲族关系数据库。
s700、根据所述企业亲族关系数据库中的数据以及各个所述企业信息数据库中的数据,构建企业画像。
请进一步参考图4,优选的,步骤s700具体包括:
s701、根据预设的企业画像模型,从所述企业亲族关系数据库中提取相适配的数据,并对该数据进行处理,得到关系图谱数据。
s702、根据预设的企业画像模型,逐一从各个所述企业信息数据库中提取相适配的数据,并对该数据进行处理,得到相应的企业自身数据。
请参考图5,优选的,所述企业画像模型包括如下模块:关系图谱模块、产业链模块、全生命周期服务模块、关键指标模块、趋势发展模块、资金申报信息模块、企业服务档案模块、企业详情模块、企业诉求模块、政策匹配模块以及知识产权匹配模块。
此步骤所述的相应的企业自身数据指的是与除关系图谱模块以外的模块相匹配的数据。
s703、根据所述关系图谱数据和企业自身数据,构建企业画像。
优选的,所述企业画像可在pc端和手机端进行展示。
具体地,可设置查询端口适配模块,包括与pc端适配的模块以及与手机端适配的模块,使得采用本申请提供的方法构建的企业画像不仅能够在pc端良好展示,而且方便用户在手机端进行观看。
构建完成的企业画像的具体呈现方式可以为表格、柱状图、曲线图等,呈现内容与图2中的企业画像模型一一对应,具体地:
1)关系图谱模块
该模块用于梳理企业与其他企业之间、企业与股东之间、股东与其他公司之间错综复杂的关系,形成企业的关系图谱,可以用发散型关系图谱的方式进行呈现。
2)产业链模块
该模块是根据企业的产品与企业产品供应商、企业客户的关联关系,形成企业的上下游产业链关系,具体呈现形式为产业链图谱,用户在使用时,可通过输入企业关键字、企业名称、统一信用代码或者企业法人等方式来获取。
3)全生命周期服务模块
该模块用于展示企业全生命周期发服务项目,可以以表格的形式进行呈现,用户在使用时通过输入企业关键字、企业名称、统一信用代码或者企业法人高管等方式,可查询匹配到该企业的服务项目,包括已经服务的项目、目前企业需要的服务等。
4)关键指标模块
该模块包括六个关键指标,分别为:社会诚信、经营、成长、纳税风险、异常和经济贡献。社会诚信指标是对企业诚信方面信息的客观评价;经营指标是通过出口销售额变化等多项数据,综合反映企业在一定时间内的经营状况;成长指标是通过整合人力资源增长率、高新技术资格认定等多项数据来综合反映企业在一定时间内的生存能力和发展速度;纳税风险指标通过企业信息完善程度、交易真实性等方面,给企业存在的潜在涉税风险贴上“标签”;异常指标反映的是企业在经营过程中所出现的异常情况;经济贡献指标反映了企业在一定经济区域内或一定行业范围内,对经济发展走势的影响。
5)趋势发展模块
该模块通过对接国税、统计局等相关系统,获取企业近5年的经营数据,通过数据清洗、数据分析,形成企业税收发展趋势、企业产值及增长率、企业进出口额报表等,可以以柱状图的形式呈现。该模块支持通过近5年的经营数据进行趋势预测,预测该企业近1年的发展情况。
6)资金申报信息模块
该模块通过对接资金申报系统,获取企业资金申报数据进行分析,形成企业近5年获得拨款金额、政策申报数量图表。支持用户根据政策类型、申报时间查询该企业申报政策记录,并支持查看申报详情。
7)企业服务档案模块
该模块通过对接业务系统,获取政府、街道办、社区等为企业服务的数据并进行归档,形成企业服务档案,可以以表格的形式呈现,具体可包括服务标题、服务时间、政府反馈等。
8)企业详情模块
该模块主要用于展示企业工商信息、风险信息、经营信息、知识产品、上市信息,舆情信息以及企业的家族图谱,透析企业的投资,被投资,经营关系。用户在使用时通过输入企业关键字、企业名称、统一社会信用代码或者企业法人高管等方式,即可快速查询。
9)企业诉求模块
该模块通过对接企业诉求上报系统,获取企业诉求信息,并将企业诉求按照类别、时间、状态等进行分类归档统计分析等,最终以饼状图进行呈现。
10)政策匹配模块
该模块通过对接企业政策匹配信息,对企业匹配的政策分类统计,包括匹配政策、已申报的政策、可申报政策等。
11)知识产权匹配模块
该模块以表格的形式进行呈现;用户在使用时通过对企业、专利、以及专家名称的搜索,查询专利相关信息。还可以通过关键词匹配到相关专利及企业,通过知识产权和著作权的产出挖掘企业的创新力。
优选的,企业画像最终呈现还可以包含衣服企业坐落地图,能够精准定位企业的地理位置,并显示详细信息。当查找企业时,只需要一个纳税人识别号或其他关键信息,就可以在城市地图上快速显示企业的地理位置,展现企业的经营、发展情况。不仅如此,这幅地图还支持多种搜索方式,能够直观展现不同行业、规模企业的分布情况,方便税务人员了解产业链上下游企业的地理布局,及时发现一些位置不合理或运营成本异常的企业。
本申请实施例提供的企业画像的构建方法,除了可以反映企业自身的基本信息以外,还可以反映与企业有亲族关系的企业,形成亲族关系图谱,人际脉络一目了然,解决了现有技术中仅凭基本信息不能够顺利找到目标企业的问题。通过该方法构建的企业画像在所对应的企业画像平台上可以清晰完整呈现企业亲族关系图谱,利用一定范围内企业法定代表人、投资方、财务负责人和办税人的身份信息,把同一法定代表人、共同出资方及雇佣同一财务负责人或办税人等有一定关联关系的企业放到一个界面中,理顺了关系,企业关系网尽收眼底,不管是找企业还是找人,都不再困难。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。以上所述仅是本申请的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其他场合的,均应视为本申请的保护范围。
1.一种企业画像的构建方法,其特征在于,所述方法包括:
获取与企业画像相关的数据;
对所述与企业画像相关的数据进行预处理,获取预处理后的数据;
根据企业画像标签策略表对所述预处理后的数据进行分类处理;
将分类处理后的数据存储至相应的企业信息数据库;
从各个所述企业信息数据库中获取亲族关系身份识别数据;所述亲族关系身份识别数据包括企业法定代表人、投资人、财务负责人以及办税人的身份信息数据;
根据亲族关系身份识别数据,获取相关的亲族企业的基础信息数据,并建立企业亲族关系数据库;
根据所述企业亲族关系数据库中的数据以及各个所述企业信息数据库中的数据,构建企业画像。
2.根据权利要求1所述的企业画像的构建方法,其特征在于,所述与企业画像相关的数据包括:单位基本信息、股权结构、上市信息、国高信息、从业人员情况、单位财务情况、知识产权、单位科研活动以及获政府资助情况。
3.根据权利要求1所述的企业画像的构建方法,其特征在于,对所述与企业画像相关的数据进行预处理,获取预处理后的数据,具体包括:
对所述与企业画像相关的数据进行去重处理,得到去重处理后的数据;
对所述去重处理后的数据进行剔除处理,剔除所述去重处理后的数据中数据格式不正确或编码不规范的数据,得到合规数据;
根据企业画像标签策略表对所述合规数据进行筛选,得到预处理后的数据。
4.根据权利要求1所述的企业画像的构建方法,其特征在于,所述企业画像标签策略表包括个七个企业画像维度,分别为行业维度、时间维度、所属产业维度、高层次人才数维度、营收规模维度、纳税规模维度、政策扶持维度。
5.根据权利要求1所述的企业画像的构建方法,其特征在于,所述身份信息数据包括姓名、性别、年龄、学历、证件类型以及证件号码。
6.根据权利要求1所述的企业画像的构建方法,其特征在于,根据亲族关系身份识别数据,获取相关的亲族企业的基础信息数据,并建立企业亲族关系数据库,具体包括:
从相关的企业信息数据库中提取企业位置信息;
根据企业位置信息限定亲族关系企业的检索范围;
在所述检索范围内查找相关的亲族企业,并获取相关的亲族企业的基础信息数据;
根据所述亲族企业的基础信息数据建立企业亲族关系数据库。
7.根据权利要求6所述的企业画像的构建方法,其特征在于,所述亲族企业的基础信息数据包括:企业名称、企业类型、企业成立年限以及企业存续状态。
8.根据权利要求1所述的企业画像的构建方法,其特征在于,根据所述企业亲族关系数据库中的数据以及各个所述企业信息数据库中的数据,构建企业画像,具体包括:
根据预设的企业画像模型,从所述企业亲族关系数据库中提取相适配的数据,并对该数据进行处理,得到关系图谱数据;
根据预设的企业画像模型,逐一从各个所述企业信息数据库中提取相适配的数据,并对该数据进行处理,得到相应的企业自身数据;
根据所述关系图谱数据和企业自身数据,构建企业画像。
9.根据权利要求8所述的企业画像的构建方法,其特征在于,所述企业画像模型包括如下模块:关系图谱模块、产业链模块、全生命周期服务模块、关键指标模块、趋势发展模块、资金申报信息模块、企业服务档案模块、企业详情模块、企业诉求模块、政策匹配模块以及知识产权匹配模块。
10.根据权利要求1所述的企业画像的构建方法,其特征在于,所述企业画像可在pc端和手机端进行展示。
技术总结