本发明涉及构建画像,具体而言,尤其涉及一种基于标签的船员画像构建方法。
背景技术:
1、互联网时代,互联网已经成为人们生活中不可或缺的重要组成部分,它是人们获取信息的重要途径。然而,随着人们在网络中留下的数据越来越多,这些指数增长的海量数据蕴藏着大量有价值的用户信息,这使得用户画像成为了研究热点。
2、用户画像的概念最早起源于交互设计领域,普遍认为是由“交互设计之父”cooper提出来的,其本质是根据用户数据提取用户需求。用户画像技术如今已被应用于各个领域,并发挥着越来越重要的作用,通过分析用户在平台上的浏览记录、购买记录、查询记录等数据,为用户构建画像,在原有的推荐系统中加入用户画像技术提取的用户特征,大大提高了个性化商品推送的精准度,不仅提高了客单率,对增加用户粘性也起到了重要作用。但当前航海行业发展迅速,船员这一群体缺少用户画像构建方法。
3、有鉴于此,本发明提供了一种基于标签的船员画像构建方法。
技术实现思路
1、根据上述提出的不足,而提供一种基于标签的船员画像构建方法。本发明主要利用获取n个船员数据组,船员数据组与船员一一对应,n为整数且n≥2;对船员数据组进行预处理,根据预处理后的船员数据组得到船员标签组;根据船员标签组生成对应的船员的画像;将n个预处理后的船员数据组进行聚类得到聚类结果;根据聚类结果生成n个船员的群体画像,以实现对船员的个人画像以及群体画像的刻画,对船公司以及船员招聘领域带来帮助。
2、本发明采用的技术手段如下:
3、本发明提供了一种基于标签的船员画像构建方法,包括:
4、获取n个船员数据组,所述船员数据组与所述船员一一对应,n为整数且n≥2;
5、对所述船员数据组进行预处理,根据预处理后的所述船员数据组得到船员标签组;
6、根据所述船员标签组生成对应的船员的画像;
7、将n个预处理后的所述船员数据组进行聚类得到聚类结果;
8、根据所述聚类结果生成n个所述船员的群体画像。
9、优选地,所述对所述船员数据组进行预处理,包括:
10、对所述船员数据组进行清洗,包括:对所述船员数据组中的缺失值进行填充、对所述船员数据组中的异常值进行修正和对所述船员数据组中的重复值进行删除;
11、将清洗后的所述船员数据组的数据转化为同一数据类型;
12、采用预训练的word2vec模型将转化后的所述船员数据组的数据转化为词向量。
13、优选地,所述根据预处理后的所述船员数据组得到船员标签组,包括:
14、所述船员数据组包括:静态数据、动态数据和求职意向数据,所述静态数据包括姓名、性别、年龄、籍贯、毕业院校、专业和外语水平;所述动态数据包括持有证书、证书等级、航海经历起止时间、服务公司、岗位职务、船舶类型、船舶名称、船舶总吨、船舶路线、工作经历次数;所述求职意向数据包括应聘职务、月薪要求、航线要求、总吨要求、船型要求、合同期限;
15、将所述姓名转化为姓名标签、将所述性别转化为性别+性别值标签、将所述年龄转化为年龄+年龄值标签、将所述籍贯转化为籍贯标签、将所述毕业院校转化为毕业院校标签、将所述专业转化为专业标签、将所述外语水平转化为外语水平+外语水平值标签,将所述姓名标签、所述性别+性别值标签、所述年龄+年龄值标签、所述籍贯标签、所述毕业院校标签、所述专业标签和所述外语水平+外语水平值标签划分为基础标签;
16、统计所述船员数据组中所述持有证书的总数,生成持有证书+证书总数值标签;统计所述船员数据组中所述船舶路线的总数,生成船舶路线+路线总数值标签;统计所述船员数据组中所述工作经历次数的总数,生成工作经历次数+工作经历总数值标签;将所述持有证书+证书总数值标签、所述船舶路线+路线总数值标签和所述工作经历次数+工作经历总数值标签划分为统计标签;
17、将所述船员数据组输入船员能力等级预测模型,得到综合预测值,根据所述综合预测值生成船员职业能力等级标签,将所述船员职业能力等级标签划分为预测标签;
18、所述基础标签、所述统计标签和预测标签构成所述船员标签组。
19、优选地,所述将所述船员数据组输入船员能力等级预测模型,得到综合预测值,包括:
20、从所述船员数据组随机选取80%的数据作为训练集,剩下的20%的数据划分为测试集;
21、将所述训练集输入所述船员能力等级预测模型,得到训练后的所述船员能力等级预测模型;
22、将所述测试集输入训练后的所述船员能力等级预测模型,得到所述综合预测值。
23、优选地,所述将所述测试集输入训练后的所述船员能力等级预测模型,得到所述综合预测值,包括:
24、所述船员能力等级预测模型包括随机森林模型和梯度提升模型,将测试集随机划分为5个子集,所述随机森林模型和所述梯度提升模型根据5个所述子集进行5次测试得到新训练集和新测试集,包括:
25、在一次所述测试中,以1个所述子集作为子测试集,剩下4个所述子集作为子训练集,将所述子测试集和所述子训练集输入所述随机森林模型得到随机森林预测结果,将所述子测试集和所述子训练集输入所述梯度提升模型得到梯度提升预测结果;
26、每次所述测试采用的所述子训练集不同,在5次所述测试后,计算5个所述随机森林预测结果的均值、5个所述梯度提升预测结果的均值;
27、将5个所述随机森林预测结果的均值和5个所述梯度提升预测结果的均值作拼接为新测试集,将5个所述随机森林预测结果和5个所述梯度提升预测结果拼接为新训练集;
28、将所述新训练集和所述新测试集输入逻辑回归算法得到所述综合预测值。
29、优选地,所述将n个预处理后的所述船员数据组进行聚类得到聚类结果,包括:
30、s1:根据n个预处理后的所述船员数据组确定k个质心;
31、s2:n个预处理后的所述船员数据组包括多个所述词向量,将所述词向量作为样本点,分别计算所述样本点至k个所述质心的距离,将所述样本点分配至与其所述距离最小的所述质心对应的簇;
32、s3:计算每个所述簇的质心值;
33、若所述质心值与所述簇的所述质心相同,结束,生成所述聚类结果;若所述质心值与所述簇的所述质心不同,返回步骤s2。
34、优选地,所述根据n个预处理后的所述船员数据组确定k个质心,包括:
35、s11:在n个预处理后的所述船员数据组中,随机选择一个所述样本点作为初始质心;
36、s12:从n个预处理后的所述船员数据组中,剔除所述初始质心对应的所述样本点,计算剔除后的n个预处理后的所述船员数据组中,每个所述样本点到所述初始质心的欧式距离,根据所述欧式距离计算n个预处理后的所述船员数据组中,每个所述样本点选为所述质心的概率;
37、s13:采用轮盘法,根据n个预处理后的所述船员数据组中,每个所述样本点选为所述质心的概率选出新质心;
38、重复步骤s13,直至选出k-1个所述新质心,k-1个所述新质心和所述初始质心构成k个所述质心。
39、优选地,所述根据所述欧式距离计算n个预处理后的所述船员数据组中,每个所述样本点选为所述质心的概率,按照以下方式计算:
40、
41、其中,p(xi)为第i个所述样本点选为所述质心的概率,d(xi)为第i个所述样本点到所述初始质心的欧式距离,x为n个预处理后的所述船员数据组的集合。
42、较现有技术相比,本发明具有以下优点:
43、本发明提供的基于标签的船员画像构建方法,使用船员能力等级预测模型对船员数据进行深层次的挖掘预测,结合基础标签和统计标签,对船员画像的丰富度进行扩充,能更好的展示船员个人情况;使用聚类算法对船员进行聚类分析,能更好的服务于船公司及船员招聘方对船员情况的了解,构建出更全面的船员画像。
1.一种基于标签的船员画像构建方法,其特征在于,包括:
2.根据权利要求1所述的基于标签的船员画像构建方法,其特征在于,所述对所述船员数据组进行预处理,包括:
3.根据权利要求1所述的基于标签的船员画像构建方法,其特征在于,所述根据预处理后的所述船员数据组得到船员标签组,包括:
4.根据权利要求3所述的基于标签的船员画像构建方法,其特征在于,所述将所述船员数据组输入船员能力等级预测模型,得到综合预测值,包括:
5.根据权利要求4所述的基于标签的船员画像构建方法,其特征在于,所述将所述测试集输入训练后的所述船员能力等级预测模型,得到所述综合预测值,包括:
6.根据权利要求2所述的基于标签的船员画像构建方法,其特征在于,所述将n个预处理后的所述船员数据组进行聚类得到聚类结果,包括:
7.根据权利要求6所述的基于标签的船员画像构建方法,其特征在于,所述根据n个预处理后的所述船员数据组确定k个质心,包括:
8.根据权利要求7所述的基于标签的船员画像构建方法,其特征在于,所述根据所述欧式距离计算n个预处理后的所述船员数据组中,每个所述样本点选为所述质心的概率,按照以下方式计算: