一种基于大数据的个性化新闻推荐方法及装置与流程

    专利2022-07-08  77


    本发明涉及机器学习、深度学习、自然语言处理、大数据技术领域,特别涉及一种基于大数据的个性化新闻推荐方法及装置。



    背景技术:

    近年来,互联网的迅猛发展给用户带来了海量的信息,导致了用户在面对海量信息时无法快速有效的获取对自己最有用的信息,使得用户对信息的使用效率大大降低,而个性化推荐系统就是解决该问题的一个有力工具。以新闻资讯产业为例,为了提升用户的阅读体验,提高用户的留存时长,常常利用个性化推荐算法为用户自动推荐最感兴趣的新闻,极大提升用户体验。个性化新闻推荐系统需要利用用户的行为数据,通过分析大量用户行为日志,给用户推荐最可能阅读的新闻,为用户提供个性化服务,以此来提高新闻资讯产品的点击率和转化率。



    技术实现要素:

    为了解决上述问题,本发明提出一种基于大数据的个性化新闻推荐方法,如图1,具体包括以下步骤:

    获取历史数据,对数据集进行预处理操作;

    将历史数据中浏览数和点赞数超过平均值3倍的天数删除,对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1:16;

    对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;

    根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;

    根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。

    进一步的,对数据集进行预处理,具体包括以下步骤:

    对异常数据进行清洗,包括删除一秒钟内浏览新闻数超过20的用户,删除一个月内每天在同一时间在多个平台同时登录账号的用户,删除浏览次数大于用户数的新闻;

    为每一个字段的缺失值生成一个满足正态分布的随机向量来作为特征隐向量,并让该特征隐向量加上一个0到1的随机数作为扰动因子。

    进一步的,根据特征的重要性对特征进行选择包括:

    使用lightgbm训练模型训练得到每个特征的重要性,得到特征重要性集合w′=(w′1,w′2,...,w′i,...,w′n),其中,w′i表示第i个特征的重要性;

    使用embedding attention dense神经网络训练模型对特征的重要性训练,一共训练至少m次;

    结合lightgbm训练模型训练的重要性和embedding attention dense神经网络训练模型,获取最终的重要性得分。

    进一步的,特征k最终的重要性得分表示为:

    其中,wij表示第i轮中第j个特征的重要性。

    进一步的,利用结合lightgbm训练模型训练的重要性和embedding attention dense神经网络训练模型当前的auc值对特征k最终的重要性得分进行加权,加权后的特征k最终的重要性得分表示为:

    其中,wk表示加权后的特征k最终的重要性得分,auci表示第i轮模型的auc值。

    进一步的,根据选择的特征建立深度学习模型并进行模型融合操作具体包括:

    把用户时序特征构造成一个维度为(8,11)的二维向量,其中8是指时序特征的天数,11是指时序特征的个数,后面接入双向的lstm层来提取特征的时序信息,得到时序特征;

    为离散型特征随机初始化特征嵌入矩阵,通过embedding层得到特征向量,然后分别用长度为2、3、4的卷积核做卷积和池化操作,再把得到的结果拼接起来得到离散特征;

    将特征取值个数超过10000的作为连续特征,把时序特征、离散特征和连续特征拼接起来输入到3层的dnn模型中,每一层的神经元个数分别为256、128、64,在该神经网络中的输出层得到点击率。

    本发明还提出一种基于大数据的个性化新闻推荐系统,所述系统包括特征获取模块、特征预处理模块、特征工程构建模块、特征选择模块、特征融合模块,其中:

    特征获取模块,用于从获取的原始数据中获取用户或者新闻的特征;

    特征预处理模块,用于对特征进行预处理,包括对异常数据进行清洗并在清洗后的数据中加入扰动;

    特征工程构建模块,用于根据原始数据构建用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;

    特征选择模块,用于根据lightgbm训练模型和embedding attention dense神经网络训练模型分别获取特征的重要性,并根据获取的重要性计算特征最终的重要性,并选择该最终重要性最大的前50%的特征作为选择的特征;

    特征融合模块,用于根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。

    本发明可以对海量特征进行有效地特征选择,在保证效果的前提下,能减小特征维度,加快模型的训练时间,提高效率,同时降低对内存的要求。

    附图说明

    图1为本发明实施例一提供一种基于大数据的个性化新闻推荐方法的流程图;

    图2为本发明实施例一提供一种基于大数据的个性化新闻推荐方法的特征选择模型图;

    图3为本发明实施例一提供一种基于大数据的个性化新闻推荐方法的模型融合流程图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

    本发明提出一种基于大数据的个性化新闻推荐方法,如图1,具体包括以下步骤:

    获取历史数据,对数据集进行预处理操作;

    将历史数据中浏览数和点赞数超过平均值3倍的天数删除,对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1:16;

    对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;

    根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;

    根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。

    实施例1

    获取用户的历史数据,并对获取的数据集进行以下处理:

    对异常数据进行清洗,删除一秒钟内浏览新闻数超过20的用户,删除一个月内每天在同一时间在多个平台同时登录账号的用户,删除浏览次数大于用户数的新闻;

    为每一个字段的缺失值生成一个满足正太分布的随机向量来作为ctr模型的特征隐向量,并让该特征隐向量加上一个0到1的随机数作为扰动因子。

    根据数据集划分训练集、验证集和测试集操作,具体如下:选取最近一年的数据,统计数据中用户和新闻每天浏览数和点赞数的分布,删除浏览数和点赞数超过平均值3倍的天数,再对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1∶16,最后选择前10个月的数据作为训练集,后2个月的数据作为验证集,线上实时数据作为测试集。

    对数据构建特征工程操作,具体如下:

    将用户的年龄、性别、职业、学历、家乡、用户等级的onehot特征作为用户属性特征;

    将用户最近7、30、60、120天内对某个类别的新闻的浏览、点赞、评论、收藏、转发、举报数,用户对某个类别的新闻的停留时长的最大值、最小值、均值、中位数、总和作为用户的用户行为特征;

    将新闻的类别、来源的onehot特征,新闻浏览数、点赞数、评论数、收藏数、转发数、举报数作为新闻属性特征;

    将用户所处地理位置、天气、用户所用的产品设备、产品版本号的onehot特征作为上下文特征;

    新闻标题输入到xlnet模型来提取新闻标题的语义向量,再用cnn模型对语义向量卷积池化来自动提取特征,最后输入到全连接层来提取高阶特征,得到新闻标题的语义特征。

    对特征进行特征选择操作,如图2,具体如包括:

    使用lightgbm训练模型,获取训练后的特征重要性,得到特征重要性集合w′=(w′1,w′2,...,w′i,...,w′n),其中,w′i表示第i个特征的重要性;

    使用embedding attention dense神经网络训练模型,一共训练m(m=10)轮,获取每一轮网络attention层的特征权重作为特征的重要性,即第i轮的特征重要性集合wi=(wi1,w′i2,...,wij,...,win),其中,wij表示第i轮中第j个特征的重要性;

    计算每一个特征的特征重要性,其中第k个特征的特征重要性最后保留特征重要性最高的50%的特征。

    作为一种优选的实施方式,本发明对第k个特征的特征重要性进行进一步加权处理,保证筛选的重要性能够更加清晰反映用户行为,利用结合lightgbm训练模型训练的重要性和embedding attention dense神经网络训练模型当前的auc值对特征k最终的重要性得分进行加权,加权后的特征k最终的重要性得分表示为:

    其中,wk表示加权后的特征k最终的重要性得分,auci表示第i轮模型的auc值。

    在进行计算特征的重要性后,可以根据特征的类别对特征进行加权,本实施例中包括用户属性特征、用户时序特征、新闻属性特征、上下文属性特征、新闻标题语义特征,将这些特征分别作为一个类别,每个类别下面有更小的特征,针对被选择的某个类别中的特征,随机生成一组和为1的特征权重,分别随机赋值给每个特征,增加随机性。

    根据特征建立深度学习模型并进行模型融合操作,如图3,具体包括:

    把用户时序特征构造成一个维度为(8,11)的二维向量,其中8是指时序特征的天数,11是指时序特征的个数,后面接入双向的lstm层来提取特征的时序信息;

    为离散型特征随机初始化特征嵌入矩阵,通过embedding层得到特征向量,然后分别用长度为2、3、4的卷积核做卷积和池化操作,再把得到的结果拼接起来;

    将得到的特征信息和连续型特征拼接起来,输入到3层的dnn模型中,每一层的神经元个数分别为256、128、64,最后再输入给输出层得到最终的结果。

    通过构建的模型,给用户推荐最可能点击的新闻操作,即使用训练后获得的最终模型,预测用户对新闻的点击率,最终保留点击率大于0.75的新闻作为推荐给用户的新闻,点击率越大,推荐位置越靠前。

    实施例2

    本实施例提出一种基于大数据的个性化新闻推荐系统,所述系统包括特征获取模块、特征预处理模块、特征工程构建模块、特征选择模块、特征融合模块,其中:

    特征获取模块,用于从获取的原始数据中获取用户或者新闻的特征;

    特征预处理模块,用于对特征进行预处理,包括对异常数据进行清洗并在清洗后的数据中加入扰动;

    特征工程构建模块,用于根据原始数据构建用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;

    特征选择模块,用于根据lightgbm训练模型和embedding attention dense神经网络训练模型分别获取特征的重要性,并根据获取的重要性计算特征最终的重要性,并选择该最终重要性最大的前50%的特征作为选择的特征;

    特征融合模块,用于根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。

    在上述系统的基础上,特征选择模块根据特征的重要性对特征进行选择包括:

    使用lightgbm训练模型训练得到每个特征的重要性,得到特征重要性集合w′=(w′1,w′2,...,w′i,...,w′n),其中,w′i表示第i个特征的重要性;

    使用embedding attention dense神经网络训练模型对特征的重要性训练,一共训练至少m次;

    结合lightgbm训练模型训练的重要性和embedding attention dense神经网络训练模型,获取最终的重要性得分。

    尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。


    技术特征:

    1.一种基于大数据的个性化新闻推荐方法,其特征在于,包括以下步骤:

    获取历史数据,对数据集进行预处理操作;

    将历史数据中浏览数和点赞数超过平均值3倍的天数删除,对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1:16;

    对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;

    根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;

    根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。

    2.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,对数据集进行预处理,具体包括以下步骤:

    对异常数据进行清洗,包括删除一秒钟内浏览新闻数超过20的用户,删除一个月内每天在同一时间在多个平台同时登录账号的用户,删除浏览次数大于用户数的新闻;

    为每一个字段的缺失值生成一个满足正态分布的随机向量来作为特征隐向量,并让该特征隐向量加上一个0到1的随机数作为扰动因子。

    3.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,用户属性特征至少包括用户的年龄、性别、职业、学历、家乡、用户等级的one-hot特征;用户时序特征用户至少包括最近1、2、3、7、15、30、60、120天内对某个类别的新闻的浏览、点赞、评论、收藏、转发、举报数和停留时长的最大值、最小值、均值、中位数、总和;新闻属性特征至少包括新闻的类别、来源的one-hot特征,以及新闻浏览数、点赞数、评论数、收藏数、转发数、举报数;上下文属性特征至少包括户所处地理位置、天气、用户所用的产品设备、产品版本号的one-hot特征;新闻标题语义特征为将新闻标题输入到xlnet模型来提取新闻标题的语义向量,用cnn模型对语义向量卷积池化来自动提取特征,并输入到全连接层来提取的高阶特征。

    4.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,根据特征的重要性对特征进行选择包括:

    使用lightgbm训练模型训练得到每个特征的重要性,得到特征重要性集合w′=(w′1,w′2,...,w′i,...,w′n),其中,w′i表示第i个特征的重要性;

    使用embedding attention dense神经网络训练模型对特征的重要性训练,一共训练至少m次;

    结合lightgbm训练模型训练的重要性和embedding attention dense神经网络训练模型,获取最终的重要性得分。

    5.根据权利要求4所述的一种基于大数据的个性化新闻推荐方法,其特征在于,特征k最终的重要性得分表示为:

    其中,wij表示第i轮中第j个特征的重要性。

    6.根据权利要求5所述的一种基于大数据的个性化新闻推荐方法,其特征在于,利用结合lightgbm训练模型训练的重要性和embedding attention dense神经网络训练模型当前的auc值对特征k最终的重要性得分进行加权,加权后的特征k最终的重要性得分表示为:

    其中,wk表示加权后的特征k最终的重要性得分,auci表示第i轮模型的auc值。

    7.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,根据选择的特征建立深度学习模型并进行模型融合操作具体包括:

    把用户时序特征构造成一个维度为(8,11)的二维向量,其中8是指时序特征的天数,11是指时序特征的个数,后面接入双向的lstm层来提取特征的时序信息,得到时序特征;

    为离散型特征随机初始化特征嵌入矩阵,通过embedding层得到特征向量,然后分别用长度为2、3、4的卷积核做卷积和池化操作,再把得到的结果拼接起来得到离散特征;

    将特征取值个数超过10000的作为连续特征,把时序特征、离散特征和连续特征拼接起来输入到3层的dnn模型中,每一层的神经元个数分别为256、128、64,在该神经网络中的输出层得到点击率。

    8.一种基于大数据的个性化新闻推荐系统,其特征在于,所述系统包括特征获取模块、特征预处理模块、特征工程构建模块、特征选择模块、特征融合模块,其中:

    特征获取模块,用于从获取的原始数据中获取用户或者新闻的特征;

    特征预处理模块,用于对特征进行预处理,包括对异常数据进行清洗并在清洗后的数据中加入扰动;

    特征工程构建模块,用于根据原始数据构建用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;

    特征选择模块,用于根据lightgbm训练模型和embedding attention dense神经网络训练模型分别获取特征的重要性,并根据获取的重要性计算特征最终的重要性,并选择该最终重要性最大的前50%的特征作为选择的特征;

    特征融合模块,用于根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。

    技术总结
    本发明涉及自然语言处理,特别涉及一种基于大数据的个性化新闻推荐方法及系统,所述方法包括获取历史数据,对数据集进行预处理操作,并进行预处理;对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户;本发明可以对海量特征进行有效地特征选择,在保证效果的前提下,能减小特征维度,加快模型的训练时间,提高效率,同时降低对内存的要求。

    技术研发人员:王进;张浩;于新龙;杨小姜;刘彬;孙开伟
    受保护的技术使用者:重庆邮电大学
    技术研发日:2020.11.28
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21369.html

    最新回复(0)