推荐模型的训练方法、预测选择概率的方法及装置与流程

    专利2022-07-08  121


    本申请涉及人工智能领域,并且更具体地,涉及一种推荐模型的训练方法、预测选择概率的方法及装置。



    背景技术:

    选择率预测是指预测用户在特定环境下对某个商品的选择概率。例如,应用商店、在线广告等应用的推荐系统中,选择率预测起到关键作用;通过选择率预测可以实现最大化企业的收益和提升用户满意度,推荐系统需同时考虑用户对商品的选择率和商品竞价,其中,选择率为推荐系统根据用户历史行为预测得到,而商品竞价代表该商品被选择/下载后系统的收益。例如,可以通过构建一个函数,该函数可以根据预测的用户选择率和商品竞价计算得到一个函数值,推荐系统按照该函数值对商品进行降序排列。

    在推荐系统中,推荐模型可以基于用户-商品交互信息(即用户隐式反馈数据)学习模型参数得到的。然而,用户隐式反馈数据受到了推荐对象(例如,推荐商品)展示位置的影响,例如,推荐商品处于推荐排序中的第一位的选择率与推荐商品处于推荐排序中的第五位的选择率不同。换而言之,用户选择某个推荐商品源于两方面因素,一方面是由于用户喜欢推荐商品;另一方面是由于推荐商品被推荐到了更容易被关注的位置。即用于训练模型参数的用户隐式反馈数据不能真实反映用户的兴趣爱好,用户隐式反馈数据中存在由于位置信息引入的偏差,即用户隐式反馈数据受到推荐位置的影响。因此,若直接基于用户隐式反馈数据训练模型参数,则得到的选择率预测模型的准确性较低。

    因此,如何提高推荐模型的准确性成为一个亟需解决的问题。



    技术实现要素:

    本申请提供一种推荐模型的训练方法、预测选择概率的方法以及装置,能够消除位置信息对推荐的影响,提高推荐模型的准确性。

    第一方面,提供了一种推荐模型的训练方法,包括:获取训练样本,所述训练样本包括样本用户行为日志,样本推荐对象的位置信息以及样本标签,所述样本标签用于表示用户是否选择所述样本推荐对象;通过以所述样本用户行为日志与所述样本推荐对象的位置信息为输入数据,以所述样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练,以得到训练后的推荐模型,其中,所述位置偏置模型用于预测目标推荐对象在不同位置时,用户关注到所述目标推荐对象的概率,所述推荐模型用于在所述用户关注到所述目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率。

    应理解,上述用户选择目标推荐的概率可以是指用户点击目标对象的概率,比如,可以是指用户下载目标对象的概率,或者,用户浏览目标对象的概率;用户选择目标对象的概率还可以是指用户对目标对象进行用户操作的概率。

    其中,推荐对象可以是终端设备的应用市场中的推荐应用程序;或者,在浏览器中推荐对象可以是推荐网址或者可以是推荐新闻。在本申请的实施例中,推荐对象可以是推荐系统为用户进行推荐的信息,对于推荐对象的具体实现方式本申请不作任何限定。

    在本申请实施例中,可以根据位置偏置模型预测在不同位置用户关注到目标推荐对象的概率,根据推荐模型预测在目标推荐对象已经被看到的情况下,用户选择目标推荐对象的概率,即用户根据自身兴趣爱好选择目标推荐对象的概率;通过以样本用户行为日志与样本推荐对象的位置信息为输入数据,以样本标签为目标输出值对位置偏置模型与推荐模型进行联合训练,从而消除位置信息对推荐模型的影响,得到基于用户兴趣爱好的推荐模型,从而提高推荐模型的准确性。

    在一种可能的实现方式中,所述联合训练是指基于所述样本标签与联合预测选择概率之间的差值训练所述位置偏置模型与所述推荐模型的模型参数,其中,所述联合预测选择概率是根据所述位置偏置模型与所述推荐模型的输出数据得到的。

    在本申请实施例中,可以通过位置偏置模型与推荐模型的输出数据拟合训练样本中的样本标签;通过样本标签与联合预测选择概率之间的差值联合训练位置偏置模型与用户真实推荐模型的参数,从而能够消除位置信息对推荐模型的影响,得到基于用户兴趣爱好的推荐模型。

    在一种可能的实现方式中,可以通过对位置偏置模型的输出数据与推荐模型的输出数据进行相乘得的所述联合预测选择概率。

    在另一种可能的实现方式中,可以通过对位置偏置模型的输出数据与推荐模型的输出数据进行加权处理得到所述联合预测选择概率。

    可选地,联合训练可以是多任务学习,多个训练数据采用共享表示同时学习多个子任务模型。多任务学习的基本假设是多个任务之间具有相关性,因此能够利用任务之间的相关性互相促进。

    可选地,位置偏置模型与推荐模型的模型参数可以是基于样本标签与联合预测选择概率之间的差值通过反向传播算法多次迭代得到的。

    在一种可能的实现方式中,训练方法还包括:将所述样本推荐对象的位置信息输入至所述位置偏置模型得到所述用户关注到所述目标推荐对象的概率;将所述样本用户行为日志输入至所述推荐模型得到所述用户选择所述目标推荐对象的概率;基于所述用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐对象的概率相乘得到所述联合预测选择概率。

    在本申请的实施例中,可以向位置偏置模型中输入样本推荐对象位置信息得到预测的用户关注到所述目标推荐对象的概率;向推荐模型中输入样本用户行为日志得到预测的用户选择所述目标推荐对象的概率,将预测的用户关注到所述目标推荐对象的概率与预测的用户选择所述目标推荐对象的概率进行拟合,得到联合预测选择概率,进而能够通过样本标签与联合预测选择概率之间的差值不断训练位置偏置模型与推荐模型的模型参数。

    在一种可能的实现方式中,所述样本用户行为日志包括样本用户画像信息、所述样本推荐对象的特征信息以及样本上下文信息中的一项或者多项。

    可选地,用户画像信息又可以称人群画像,是指根据用户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。比如,用户画像信息可以包括用户下载历史信息、用户的兴趣爱好信息等。

    可选地,推荐对象的特征信息可以是指推荐对象的类别,或者可以是指推荐对象的标识,比如推荐对象的id等。

    可选地,样本上下文信息可以包括历史下载时间信息,或者历史下载地点信息等。

    在一种可能的实现方式中,所述样本推荐对象的位置信息是指所述样本推荐对象在不同种类的历史推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的历史推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的历史推荐对象中的推荐位置信息。

    可选地,样本推荐对象的位置信息可以是指样本推荐对象在不同种类的推荐对象中的推荐位置信息,即推荐排序中可以包括多种不同种类的对象,也就是说,位置信息可以是对象x位于多种不同种类推荐对象中的推荐位置信息。

    可选地,上述样本推荐对象的位置信息是指样本推荐对象在同种类的推荐对象中的推荐位置信息,也就是说,推荐对象x的位置信息可以是推荐对象x在所属类别的推荐对象中的推荐位置。

    可选地,上述样本推荐对象的位置信息是指样本推荐对象在不同榜单的推荐对象中的推荐位置信息。

    例如,不同榜单可以是指用户使用评分榜单、今日榜单、本周榜单、附近榜单、同城榜单、全国排行榜等。

    第二方面,提供了一种预测选择概率的方法,包括:获取待处理用户的用户特征信息、上下文信息以及推荐对象候选集合;将所述用户特征信息、所述上下文信息以及所述推荐对象候选集合输入至预先训练的推荐模型,得到所述待处理用户选择所述推荐对象候选集合中的候选推荐对象的概率,所述预先训练的推荐模型用于在用户关注到目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率;根据所述概率得到所述候选推荐对象的推荐结果,其中,所述预先训练的推荐模型的模型参数是通过以样本用户行为日志与样本推荐对象位置信息为输入数据,以样本标签为目标输出值对位置偏置模型和所述推荐模型进行联合训练得到的,所述位置偏置模型用于预测所述目标推荐对象在不同位置所述用户关注到所述目标推荐对象的概率,所述样本标签用于表示用户是否选择所述样本推荐对象;。

    在本申请的实施例中,可以通过向预先训练的推荐模型中输入待处理用户的用户特征信息、当前上下文信息以及推荐对象候选集合,预测待处理用户选择推荐对象候选集合中的候选推荐对象的概率;其中,预先训练的推荐模型可以用于在线预测用户根据自身兴趣爱好选择推荐对象的概率,通过预先训练的推荐模型可以避免了将位置偏置信息作为普通特征训练推荐模型所带来的预测阶段缺少输入的位置信息的问题,即可以解决遍历所有位置带来的计算复杂问题与选定默认位置造成的预测不稳定问题。本申请中预先训练的推荐模型是通过训练数据联合训练位置偏置模型与推荐模型,从而消除位置信息对推荐模型的影响,得到基于用户兴趣爱好用户的推荐模型,从而提高预测选择概率的准确性。

    在一种可能的实现方式中,上下文信息可以包括当前下载时间信息,或者,当前下载地点信息。

    可选地,可以根据推荐对象候选集合中的候选推荐对象的预测真实选择概率对候选推荐对象进行排序,得到候选推荐对象的推荐结果。

    可选地,推荐对象候选集合中可以包括候选推荐对象的特征信息。

    例如,候选推荐对象的特征信息可以是指候选推荐对象的类别,或者可以是指候选推荐对象的标识,比如商品的id等。

    在一种可能的实现方式中,所述联合训练是指基于包含位置信息的样本真实标签与联合预测选择概率之间的差值训练所述位置偏置模型与所述推荐模型的参数,其中,所述联合预测选择概率是根据所述位置偏置模型与所述推荐模型的输出数据相乘得到的。

    在本申请实施例中,可以通过位置偏置模型与推荐模型的输出数据进行相乘,从而拟合训练数据中的包含位置信息的预测选择概率;通过样本真实标签与联合预测选择概率之间的差值联合训练位置偏置模型与推荐模型,从而能够消除位置信息对推荐效果的影响,得到基于用户兴趣爱好预测用户选择概率的模型。

    可选地,联合训练可以是多任务学习,多个训练数据采用共享表示同时学习多个子任务模型。多任务学习的基本假设是多个任务之间具有相关性,因此能够利用任务之间的相关性互相促进。

    可选地,位置偏置模型与推荐模型的参数可以是基于包含位置信息的样本真实标签与包含位置信息的预测选择概率之间的差值通过反向传播算法多次迭代得到的。

    可选地,所述联合预测选择概率是根据用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐对象的概率相乘得到的,其中,所述用户关注到所述目标推荐对象的概率是根据所述样本推荐对象的位置信息与所述位置偏置模型得到的,所述用户选择所述目标推荐对象的概率是根据所述样本用户行为与所述推荐模型得到的。

    所述样本用户行为日志包括样本用户画像信息、所述样本推荐对象的特征信息以及样本上下文信息中的一项或者多项。

    可选地,用户画像信息又可以称人群画像,是指根据用户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。比如,用户画像信息可以包括用户下载历史信息、用户的兴趣爱好信息等。

    可选地,推荐对象的特征信息可以是指商品的类别,或者可以是指商品的标识,比如商品的id等。

    可选地,样本上下文信息可以包括历史下载时间信息,或者历史下载地点信息等。

    可选地,所述样本推荐对象的位置信息是指所述样本推荐对象在不同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的推荐对象中的推荐位置信息。

    第三方面,提供一种推荐模型的训练装置,包括用于实现第一方面以及第一方面中的任意一种实现方式中的训练方法的模块/单元。

    第四方面,提供一种预测选择概率的装置,包括用于实现第二方面以及第二方面中的任意一种实现方式中的方法的模块/单元。

    第五方面,提供一种推荐模型的训练装置,包括输入输出接口、处理器和存储器。该处理器用于控制输入输出接口收发信息,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该训练装置执行上述第一方面以及第一方面中的任意一种实现方式中的训练方法。

    可选地,上述训练装置可以是终端设备/服务器,也可以是终端设备/服务器内的芯片。

    可选地,上述存储器可以位于处理器内部,例如,可以是处理器中的高速缓冲存储器(cache)。上述存储器还可以位于处理器外部,从而独立于处理器,例如,训练装置的内部存储器(memory)。

    第六方面,提供一种预测选择概率的装置,包括输入输出接口、处理器和存储器。该处理器用于控制输入输出接口收发信息,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得装置执行上述第二方面以及第二方面中的任意一种实现方式中的方法。

    可选地,上述装置可以是终端设备/服务器,也可以是终端设备/服务器内的芯片。

    可选地,上述存储器可以位于处理器内部,例如,可以是处理器中的高速缓冲存储器(cache)。上述存储器还可以位于处理器外部,从而独立于处理器,例如,装置的内部存储器(memory)。

    第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述各方面中的方法。

    需要说明的是,上述计算机程序代码可以全部或者部分存储在第一存储介质上,其中,第一存储介质可以与处理器封装在一起的,也可以与处理器单独封装,本申请实施例对此不作具体限定。

    第八方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述各方面中的方法。

    附图说明

    图1是本申请实施例提供的推荐系统的示意图;

    图2是本申请实施例提供的系统架构的结构示意图;

    图3是本申请实施例提供的一种芯片的硬件结构的示意图;

    图4是本申请实施例提供的一种系统架构的示意图;

    图5是本申请实施例提供的推荐模型的训练方法的示意性流程图;

    图6是本申请实施例提供的注意到位置信息的选择概率预测框架的示意图;

    图7是本申请实施例提供的训练后的推荐模型的在线预测阶段的示意图;

    图8是本申请实施例提供的预测选择概率的方法的示意性流程图;

    图9是本申请实施例提供的应用市场中推荐对象的示意图;

    图10是本申请实施例提供的推荐模型的训练装置的示意性框图;

    图11是本申请实施例提供的预测选择概率的装置的示意性框图;

    图12是本申请实施例提供的推荐模型的训练装置的示意性框图;

    图13是本申请实施例提供的预测选择概率的装置的示意性框图。

    具体实施方式

    下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

    首先对本申请实施例中涉及的概念进行简单的说明。

    1、点击概率(click-throughrate,ctr)

    点击概率又可以称为点击率,是指网站或者应用程序上推荐信息(例如,推荐商品)被点击次数和曝光次数之比,点击率通常是推荐系统中衡量推荐系统的重要指标。

    2、个性化推荐系统

    个性化推荐系统是指根据用户的历史数据,利用机器学习算法进行分析,并以此对新请求进行预测,给出个性化的推荐结果的系统。

    3、离线训练(offlinetraining)

    离线训练是指在个性化推荐系统中,根据用户的历史数据,对推荐模型参数按照机器学习的算法进行迭代更新直至达到设定要求的模块。

    4、在线预测(onlineinference)

    在线预测是指基于离线训练好的模型,根据用户、商品和上下文的特征预测该用户在当前上下文环境下对推荐商品的喜好程度,预测用户选择推荐商品的概率。

    例如,图1是本申请实施例提供的推荐系统的示意图。如图1所示,当一个用户进入系统,会触发一个推荐的请求,推荐系统会将该请求及其相关信息输入到预测模型,然后预测用户对系统内的商品的选择率。进一步,根据预测的选择率或基于该选择率的某个函数将商品降序排列,即推荐系统可以按顺序将商品展示在不同的位置作为对用户的推荐结果。用户浏览不同的处于位置的商品并发生用户行为,如浏览、选择以及下载等。同时,用户的实际行为会存入日志中作为训练数据,通过离线训练模块不断更新预测模型的参数,提高模型的预测效果。

    例如,用户打开智能终端(例如,手机)中的应用市场即可触发应用市场中的推荐系统。应用市场的推荐系统会根据用户的历史行为日志,例如,用户的历史下载记录、用户选择记录,应用市场的自身特征,比如时间、地点等环境特征信息,预测用户下载推荐的各个候选应用程序(application,app)的概率。根据计算的结果,应用市场的推荐系统可以按照预测的概率值大小降序展示候选app,从而提高候选app的下载概率。

    示例性地,可以将预测的用户选择率较高的app展示在靠前的推荐位置,将预测的用户选择率较低的app展示在靠后的推荐位置。

    上述离线训练中的推荐模型以及在线预测模型可以是神经网络模型,下面对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

    5、神经网络

    神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:

    其中,s=1、2、……n,n为大于1的自然数,ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activationfunctions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。

    6、深度神经网络

    深度神经网络(deepneuralnetwork,dnn),也称多层神经网络,可以理解为具有多层隐含层的神经网络。按照不同层的位置对dnn进行划分,dnn内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i 1层的任意一个神经元相连。

    虽然dnn看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,w是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于dnn层数多,系数w和偏移向量的数量也比较多。这些参数在dnn中的定义如下所述:以系数w为例:假设在一个三层的dnn中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数w所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。

    综上,第l-1层的第k个神经元到第l层的第j个神经元的系数定义为

    需要注意的是,输入层是没有w参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量w形成的权重矩阵)。

    7、损失函数

    在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(lossfunction)或目标函数(objectivefunction),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

    8、反向传播算法

    神经网络可以采用误差反向传播(backpropagation,bp)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。

    图2示出了本申请实施例提供的一种系统架构100。

    在图2中,数据采集设备160用于采集训练数据。针对本申请实施例的推荐模型的训练方法来说,可以通过训练样本对推荐模型进行进一步训练,即数据采集设备160采集的训练数据可以是训练样本。

    例如,在本申请的实施例中,训练样本可以包括样本用户行为日志,样本推荐对象的位置信息以及样本标签,样本标签可以用于表示用户是否选择样本推荐对象。

    在采集到训练数据之后,数据采集设备160将这些训练数据存入数据库130,训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

    下面对训练设备120基于训练数据得到目标模型/规则101进行描述,训练设备120对输入的原始图像进行处理,将输出的图像与原始图像进行对比,直到训练设备120输出的图像与原始图像的差值小于一定的阈值,从而完成目标模型/规则101的训练。

    例如,在本申请的实施例中,训练设备120可以根据训练样本对位置偏置模型和推荐模型进行联合训练,比如,可以通过以样本用户行为日志与样本推荐对象的位置信息为输入数据,以样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练;进而得到训练后的推荐模型,即训练后的推荐模型可以是目标模型/规则101。

    上述目标模型/规则101能够用于在用户关注到所述目标推荐对象的情况下,预测用户选择目标推荐对象的概率。本申请实施例中的目标模型/规则101具体可以为深度神经网络、逻辑回归模型等。

    需要说明的是,在实际的应用中,所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集,也有可能是从其他设备接收得到的。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。

    根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中,如应用于图2所示的执行设备110,所述执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmentedreality,ar)/虚拟现实(virtualreality,vr),车载终端等,还可以是服务器,或者,云端等。在图2中,执行设备110配置输入/输出(input/output,i/o)接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向i/o接口112输入数据,所述输入数据在本申请实施例中可以包括:客户设备输入的训练样本。

    预处理模块113和预处理模块114用于根据i/o接口112接收到的输入数据进行预处理,在本申请实施例中,也可以没有预处理模块113和预处理模块114(也可以只有其中的一个预处理模块),而直接采用计算模块111对输入数据进行处理。

    在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理过程中,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统150中。

    最后,i/o接口112将处理结果,比如,得到的训练后的推荐模型可以用于推荐系统在线预测待处理用户选择推荐对象候选集合中的候选推荐对象的概率,根据待处理用户选择候选推荐对象的概率可以得到候选推荐对象的推荐结果返回给客户设备140,从而提供给用户。

    例如,在本申请的实施例中,上述推荐结果可以是根据待处理用户选择候选推荐对象的概率得到的候选推荐对象的推荐排序。

    值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则101,该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。

    在图2中所示情况下,在一种情况下,用户可以手动给定输入数据,该手动给定可以通过i/o接口112提供的界面进行操作。

    另一种情况下,客户设备140可以自动地向i/o接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入i/o接口212的输入数据及输出i/o接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由i/o接口112直接将如图所示输入i/o接口112的输入数据及输出i/o接口112的输出结果,作为新的样本数据存入数据库130。

    值得注意的是,图2仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图2中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。

    示例性地,本申请中的推荐模型可以是全卷积网络(fullyconvolutionalnetwork,fcn)。

    示例性地,本申请实施例中的推荐模型还可以是逻辑回归模型(logisticregression),逻辑回归模型是一种用于解决分类问题的机器学习方法,可以用于估计某种事物的可能性。

    例如,推荐模型可以是深度因子分解机模型(deepfactorizationmachines,dfm),或者,推荐模型可以是深宽模型(wide&deep)。

    图3是本申请实施例提供的一种芯片的硬件结构,该芯片包括神经网络处理器200。该芯片可以被设置在如图2所示的执行设备110中,用以完成计算模块111的计算工作。该芯片也可以被设置在如图2所示的训练设备120中,用以完成训练设备120的训练工作并输出目标模型/规则101。

    神经网络处理器200(neural-networkprocessingunit,npu)作为协处理器挂载到主中央处理器(centralprocessingunit,cpu)上,由主cpu分配任务。npu200的核心部分为运算电路203,控制器204控制运算电路203提取存储器(权重存储器或输入存储器)中的数据并进行运算。

    在一些实现中,运算电路203内部包括多个处理单元(processengine,pe)。在一些实现中,运算电路203是二维脉动阵列。运算电路203还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路203是通用的矩阵处理器。

    举例来说,假设有输入矩阵a,权重矩阵b,输出矩阵c。运算电路203从权重存储器202中取矩阵b相应的数据,并缓存在运算电路203中每一个pe上。运算电路203从输入存储器201中取矩阵a数据与矩阵b进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器208(accumulator)中。

    向量计算单元207可以对运算电路203的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。

    例如,向量计算单元207可以用于神经网络中非卷积/非fc层的网络计算,如池化(pooling),批归一化(batchnormalization),局部响应归一化(localresponsenormalization)等。

    在一些实现种,向量计算单元能207将经处理的输出的向量存储到统一存储器206。例如,向量计算单元207可以将非线性函数应用到运算电路203的输出,例如,累加值的向量,用以生成激活值。在一些实现中,向量计算单元207生成归一化的值、合并值,或二者均有。

    在一些实现中,处理过的输出的向量能够用作到运算电路203的激活输入,例如用于在神经网络中的后续层中的使用。

    统一存储器206可以用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器205(directmemoryaccesscontroller,dmac)将外部存储器中的输入数据存入至输入存储器201和/或统一存储器206、将外部存储器中的权重数据存入权重存储器202,以及将统一存储器206中的数据存入外部存储器。

    总线接口单元(businterfaceunit,biu)210,用于通过总线实现主cpu、dmac和取指存储器209之间进行交互。

    与控制器204连接的取指存储器209(instructionfetchbuffer),用于存储控制器204使用的指令。

    控制器204,用于调用取指存储器209中缓存的指令,实现控制该运算加速器的工作过程。

    一般地,统一存储器206,输入存储器201,权重存储器202以及取指存储器209均可以为片上(on-chip)存储器,外部存储器为该npu外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(doubledataratesynchronousdynamicrandomaccessmemory,ddrsdram)、高带宽存储器(highbandwidthmemory,hbm)或其他可读可写的存储器。

    需要说明的是,上述图2所示的卷积神经网络中各层的运算可以由运算电路203或向量计算单元207执行。

    目前,为了消除位置信息对于推荐模型的影响,通常可以采用对训练数据加权处理的方法或者采用将位置信息作为特征进行建模的方法。其中,采用对训练数据进行加权处理的方法由于权重值是固定不变的,因此不会考虑基于用户或者不同种类的商品动态调整权重值,从而导致预测的用户真实选择概率不准确;采用将位置信息作为特征进行建模的方法可以是指在训练过程中将位置信息作为特征进行训练模型参数,但是,将位置信息作为特征进行训练模型参数时,面临着预测选择概率时无法获取输入的位置特征的问题,能够解决该问题的方案有两个,分别是遍历所有位置和选定默认位置。其中,遍历所有位置时存在时间复杂度高,不符合推荐系统低时延的需求;选定默认位置可以解决遍历所有位置存在的时间复杂度高的问题,但是对于不同选定默认位置又会对推荐排序产生影响,从而影响推荐商品的推荐效果。

    有鉴于此,本申请提供了一种推荐模型的训练方法、预测选择概率的方法以及装置,在本申请的实施例中可以通过以所述样本用户行为日志与所述样本推荐对象位置信息为输入数据,以所述样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练,以得到训练后的推荐模型,其中,位置偏置模型用于预测在不同位置用户关注到推荐对象的概率,进一步可以在用户在关注到推荐对象的情况下,预测用户根据自身兴趣爱好选择推荐对象的概率,从而能够消除位置信息对于推荐模型的影响,提高推荐模型的准确性。

    图4是应用本申请实施例的推荐模型的训练方法以及预测选择概率的方法的系统架构。该系统架构300可以包括本地设备320、本地设备330以及执行设备310和数据存储系统350,其中,本地设备320和本地设备330通过通信网络与执行设备310连接。

    执行设备310可以由一个或多个服务器实现。可选的,执行设备310可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备310可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备310可以使用数据存储系统350中的数据,或者调用数据存储系统350中的程序代码来实现本申请实施例的推荐模型的训练方法以及预测选择概率的方法。

    示例性地,数据存储系统350可以部署于本地设备320或者本地设备330中,例如,数据存储系统350可以用于存储用户的行为日志。

    需要说明的是,上述执行设备310也可以称为云端设备,此时执行设备310可以部署在云端。

    具体地,执行设备310可以执行以下过程:获取训练样本,所述训练样本包括样本用户行为日志,样本推荐对象的位置信息以及样本标签;通过以所述样本用户行为日志与所述样本推荐对象的位置信息为输入数据,以所述样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练,以得到训练后的推荐模型,其中,所述位置偏置模型用于预测目标推荐对象在不同位置时,用户关注到所述目标推荐对象的概率,所述推荐模型用于在所述用户关注到所述目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率。

    通过上述过程执行设备310能够通过训练得到用户真实率推荐模型,通过该推荐模型可以消除推荐位置对用户的影响,预测用户根据自身兴趣爱好选择所述推荐对象的概率。

    在一种可能的实现方式中,上述执行设备310训练方法可以是在云端执行的离线的训练方法。

    用户可以操作各自的用户设备(例如,本地设备320和本地设备330)后可以将操作日志存储至数据存储系统350中,执行设备310可以调用数据存储系统350中的数据进行完成推荐模型的训练过程。其中,每个本地设备可以表示任何计算设备,例如,个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

    每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备310进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。

    在一种实现方式中,本地设备320、本地设备730可以从执行设备310获取到预先训练的推荐模型的相关参数,将推荐模型在本地设备320、本地设备330上,利用该推荐模型进行用户对推荐对象的选择概率进行预测。

    在另一种实现中,执行设备310上可以直接部署预先训练的推荐模型,执行设备310通过从本地设备320和本地设备330获取待处理用户的用户行为日志,并根据预先训练的推荐模型得到该处理用户的选择所述推荐对象候选集合中的候选推荐对象的概率。

    示例性地,数据存储系统350可以是部署在本地设备320或者本地设备330中,用于存储本地设备的用户行为日志。

    示例性地,数据存储系统350可以独立于本地设备320或本地设备330,单独部署在存储设备上,存储设备可以与本地设备进行交互,获取本地设备中用户的行为日志,并存入存储设备中。

    下面先结合图5对本申请实施例的推荐模型的训练方法进行详细的介绍。图5所示的方法400包括步骤410至420,下面分别对步骤410至420进行详细的描述。

    步骤410、获取训练样本,所述训练样本包括样本用户行为日志,样本推荐对象位置的信息以及样本标签,所述样本标签用于表示用户是否选择所述样本推荐对象。

    其中,训练样本可以是在如图4所示的数据存储系统350中获取的数据。

    可选地,样本用户行为日志可以包括用户的用户画像信息、推荐对象(例如,推荐商品)的特征信息以及样本上下文信息中的一项或者多项。

    例如,用户画像信息又可以称人群画像,是指根据用户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。比如,用户画像信息可以包括用户下载历史信息、用户的兴趣爱好信息等。

    例如,推荐对象的特征信息可以是指推荐对象的类别,或者可以是指推荐对象的标识,比如历史推荐对象的id等。

    例如,样本上下文信息可以是指样本用户的历史下载时间信息,或者历史下载地点信息等。

    示例性地,一个训练样本数据中可以包括上下文信息(例如,时间),位置信息,用户信息和商品信息。

    例如,早上十点用户a在位置1选择/未选择商品x,其中,位置1可以是指推荐商品在推荐排序中的位置信息,样本标签可以是指选择商品x用1表示,未选择商品x用0表示;或者,样本标签还可以用其他数值标志选择/未选择商品x。

    在一种可能的实现方式中,样本推荐对象的位置信息是指所述样本推荐对象在不同种类的历史推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的历史推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的历史推荐对象中的推荐位置信息。

    例如,推荐排序中包括位置1-商品x(类别a)、位置2-商品y(类别b)、位置3-商品z(类别c);比如,位置1-第一app(类别:购物)、位置2-第二app(类别:视频播放器)、位置3-第三app(类别:浏览器)。

    在一种可能的实现方式中,上述样本推荐的位置信息是指基于同种类的推荐商品中的推荐位置信息;也就是说,商品x的位置信息可以是商品x在所属类别的商品中的推荐位置。

    例如,推荐排序中包括位置1-第一app(类别:购物)、位置2-第二app(类别:购物)、位置3-第三app(类别:购物)。

    在一种可能的实现方式中,上述样本推荐对象的位置信息是指基于不同榜单的推荐商品中的推荐位置信息。

    例如,不同榜单可以是指用户使用评分榜单、今日榜单、本周榜单、附近榜单、同城榜单、全国排行榜等。

    步骤420、通过以所述样本用户行为日志与所述样本推荐对象的位置信息为输入数据,以所述样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练,以得到训练后的推荐模型,其中,所述位置偏置模型用于预测目标推荐对象在不同位置时,用户关注到所述目标推荐对象的概率,所述推荐模型用于在所述用户关注到所述目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率。

    应理解,上述用户选择目标推荐的概率可以是指用户点击目标对象的概率,比如,可以是指用户下载目标对象的概率,或者,用户浏览目标对象的概率;用户选择目标对象的概率还可以是指用户对目标对象进行用户操作的概率。

    其中,推荐对象可以是终端设备的应用市场中的推荐应用程序;或者,在浏览器中推荐对象可以是推荐网址或者可以是推荐新闻。在本申请的实施例中,推荐对象可以是推荐系统为用户进行推荐的信息,对于推荐对象的具体实现方式本申请不作任何限定。

    需要说明的是,上述联合训练可以是多任务学习,多个训练数据采用共享表示同时学习多个子任务模型。多任务学习的基本假设是多个任务之间具有相关性,因此能够利用任务之间的相关性互相促进。

    例如,在本申请中获取样本标签受两方面的因素影响,即用户是否喜欢推荐商品与推荐商品是否被推荐到容易关注的位置,也就是说,样本标签是指在用户看到推荐对象的情况下,用户基于自身兴趣爱好选择/未选择推荐对象。即可以将用户选择推荐对象的概率看作是用户在关注到推荐对象的条件下,基于自身的兴趣爱好选择推荐对象的概率。

    可选地,上述联合训练可以是指基于包含位置信息的样本真实标签与联合预测选择概率之间的差值训练位置偏置模型与用户真实推荐模型的参数,其中,联合预测选择概率是通过位置偏置模型与推荐模型的输出数据相乘得到的。例如,可以通过样本标签与联合预测选择概率之间的差值通过反向传播算法多次迭代得到位置偏置模型与推荐模型的模型参数,联合预测选择概率可以是通过位置偏置模型与推荐模型的输出数据得到的。

    应理解,在本申请的实施例中样本标签可以是指包含位置信息的用户选择样本对象的标签,联合预测选择概率可以是指包含位置信息的预测用户选择样本对象的概率,比如,联合预测选择概率可以用于表示用户关注到推荐对象并且根据自身兴趣爱好选择推荐对象的概率。

    示例性地,可以将样本推荐对象的位置信息输入位置偏置模型,得到所述用户关注到所述目标推荐对象的概率;将样本用户行为日志输入推荐模型,得到所述用户选择所述目标推荐对象的概率;基于所述用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐商品的概率相乘得到所述联合预测选择概率。

    其中,上述用户关注到所述目标推荐对象的概率可以是预测的不同位置的选择概率可以表示用户在该位置关注到推荐商品的概率,不同位置用户关注到推荐商品的概率可以不同。用户选择所述目标推荐对象的概率可以是指用户真实的选择概率,即用户基于自身兴趣爱好选择推荐对象的概率。预测的不同位置的选择概率与预测的用户真实选择概率相乘的结果即得到联合预测选择概率,联合预测选择概率可以用于表示用户关注到推荐对象并且根据自身兴趣爱好选择推荐对象的概率。

    需要说明的是,训练样本中的包含的样本标签依赖于两个条件:条件一、推荐商品被用户看到的概率;条件二、在推荐商品已经被用户看到的情况下,用户选择推荐商品的概率。

    例如,用户选择推荐商品依赖于两个条件:

    p(y=1|x,pos)=p(seen|x,pos)p(y=1|x,pos,seen);

    假设推荐商品被看到的概率仅与展示该商品的位置相关;当推荐商品已经被用户看到,推荐商品被选择的概率与位置无关,即:

    p(y=1|x,pos)=p(seen|pos)p(y=1|x,seen);

    其中,p(y=1│x,pos)表示用户选择推荐商品的概率,x表示用户行为日志,pos表示位置信息;p(seen│pos)表示用户在不同位置关注到推荐商品的概率;p(y=1│x,seen)表示当推荐商品已经被用户看到,推荐商品被选择的概率,即当推荐商品被用户看到的情况下,用户基于自身兴趣爱好选择推荐商品的概率。

    在本申请实施例中,可以根据位置偏置模型预测在不同位置用户关注到目标推荐对象的概率,根据推荐模型预测在目标推荐对象已经被看到的情况下,用户选择目标推荐对象的概率,即用户根据自身兴趣爱好选择目标推荐对象的概率;通过以样本用户行为日志与样本推荐对象位置信息为输入数据,以样本标签为目标输出值对位置偏置模型与推荐模型进行联合训练,从而消除位置信息对推荐模型的影响,得到基于用户兴趣爱好的推荐模型,从而提高推荐模型的准确性。

    图6是本申请实施例提供的注意位置信息的选择率(又称为选择概率)预测框架。如图6所示,选择率预测框架500中包括位置偏置拟合模块501、用户真实选择率拟合模块502、带位置偏置的用户选择率拟合模块503。其中,在选择率预测框架500中可以通过位置偏置拟合模块501和用户真实选择率拟合模块502分别拟合位置偏置和用户真实选择率,对获取的用户行为数据进行准确的建模,从而消除位置偏置的影响,最终得到准确的用户真实选择率拟合模块503。

    需要说明的是,位置偏置拟合模块501可以对应于图5中所述的位置偏置模型,用户真实选择率拟合模块502可以对应于图5中所述的推荐模型。例如,位置偏置拟合模块501可以用于预测目标推荐对象在不同位置时,用户关注到目标推荐对象的概率,用户真实选择率拟合模块502可以用于在用户关注到所述目标推荐对象的情况下,预测用户选择目标推荐对象的概率,即用户真实选择率。

    如图6所示的框架500中的输入包括普通特征与位置偏置信息,其中,普通特征可以包括用户特征、商品特征与环境特征,输出可以分为中间输出和最终输出。比如,模块501和模块502的输出可以看作为中间输出,模块503的输出可以看作为最终输出。

    应理解,位置偏置拟合模块501可以是上述图4所示的位置偏置模型,用户真实选择率拟合模块502可以是上述图4所示的推荐模型。

    具体地,模块501输出的是基于位置信息的选择率,模块502的输出的是用户真实选择率,模块503输出的是框架500对于带偏置的用户选择行为的预测概率。模块503输出的预测值越高,则可以认为在该条件下的预测选择概率越高,反之则可以认为在该条件下的预测选择概率越低。

    应理解,上述联合预测选择概率可以是指模块503输出的带偏置的用户选择行为的预测概率。

    下面对框架500中的各个模块进行详细的描述。

    位置偏置拟合模块501可以用于预测在不同位置用户关注到推荐对象(例如,推荐商品)的概率。

    例如,模块501以位置偏置信息作为输入,输出预测该位置偏置条件下,商品被选择的概率。

    其中,位置偏置信息可以是指位置信息,比如,该推荐商品在推荐排序中的位置信息。

    例如,位置偏置可以是指该推荐商品在不同种类的推荐商品中的推荐位置信息,或者,位置偏置可以是指该推荐商品在同种类的推荐商品中的推荐位置信息,或者,位置偏执可以是指该推荐商品在不同榜单中的推荐位置信息。

    用户真实选择率拟合模块502用于预测用户根据自身兴趣爱好选择推荐对象(例如,推荐商品)的概率,即用户真实选择率拟合模块502可以用于在用户关注到推荐对象的情况下,预测用户根据自身兴趣爱好选择推荐对象的概率。

    例如,模块502可以上述普通特征,即可以通过用户特征、商品特征以及环境特征预测用户的真实选择率。带位置偏置的用户选择率拟合模块503用于通过接收位置偏置拟合模块501与用户真实选择率拟合模块502的输出数据,将输出数据进行相乘得到带位置偏置的用户选择率。

    示例性地,预测选择率框架500可以分为两个阶段,分别为离线训练阶段和线上预测阶段。下面分别对离线训练阶段与线上预测阶段进行详细的描述。

    离线训练阶段:

    带位置偏置的用户选择率拟合模块503通过获取模块501与模块502的输出数据,计算待位置偏执的用户选择率,通过以下等式拟合用户行为数据:

    其中,θps表示模块501的参数,θpctr表示模块502的参数,n为训练样本的数量,bctri表示根据第i个训练样本模块503的输出数据,probseeni表示根据第i个训练样本模块501的输出数据,pctri表示根据第i个训练样本模块502的输出数据,yi为第i个训练样本的用户行为的标签(正例为1,负例为0),l表示损失函数,即logloss。

    示例性地,可以通过采样梯度下降方法或者链式法则更新参数:

    其中,k表示更新模型参数的迭代次数,η表示更新模型参数的学习率。

    待模型参数更新收敛后,可以得到位置偏置选择率预测模块501以及用户真实选择率模块502。

    示例性地,根据输入的位置偏置信息的复杂程度,上述模块501可以采用线性模型,或者,也可以采用深度模型。

    示例性地,上述模块502可以如逻辑回归模型,或者可以采用深度神经网络模型。

    在本申请的实施例中,可以通过向预先训练的推荐模型中输入待处理用户的用户行为日志以及推荐对象候选集合,预测待处理用户选择推荐对象候选集合中的候选推荐对象的概率;其中,预先训练的推荐模型可以用于在线预测用户根据自身兴趣爱好选择推荐商品的概率,通过预先训练的推荐模型可以避免了将位置偏置信息作为普通特征训练推荐模型所带来的预测阶段缺少输入的位置信息的问题,即可以解决遍历所有位置带来的计算复杂问题与选定默认位置造成的预测不稳定问题。本申请中预先训练的推荐模型是通过训练数据联合训练位置偏置模型与推荐模型,从而消除位置信息对推荐模型的影响,得到基于用户兴趣爱好用户的推荐模型,从而提高预测选择概率的准确性。

    线上预测阶段:

    如图7中所示,进行线上预测时可以只需要部署模块502,推荐系统构建基于用户特征、商品特征以及上下文信息等普通特征的输入向量,无需输入位置特征,通过模块502可以预测用户的真实选择率,即用户基于自身兴趣爱好选择推荐商品的概率。

    图8是本申请实施例提供的预测选择概率的方法的示意性流程图。图8所示的方法600包括步骤610至630,下面分别对步骤610至630进行详细的描述。

    步骤610、获取待处理用户的用户特征信息、上下文信息及推荐对象候选集合。

    其中,用户行为日志可以是在如图4所示的数据存储系统350中获取的数据。

    可选地,推荐对象候选集合可以包括候选推荐对象的特征信息。

    例如,候选推荐对象的特征信息可以是指候选推荐对象的类别,或者可以是指候选推荐对象的标识,比如商品的id等。

    可选地,用户行为日志可以包括用户的用户画像信息以及上下文信息。例如,用户画像信息又可以称人群画像,是指根据用户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。比如,用户画像信息可以包括用户下载历史信息、用户的兴趣爱好信息等。

    例如,上下文信息可以是包括当前下载时间信息,或者,当前下载地点信息等。

    示例性地,一个训练样本数据中可以包括上下文信息(例如,时间),位置信息,用户信息和商品信息,例如,早上十点用户b在位置2选择/未选择商品x,其中,位置2可以是指推荐商品在推荐排序中的位置信息,选择可以用1表示,未选择可以用0表示。

    步骤620、将所述用户特征信息、所述上下文信息以及所述推荐对象候选集合输入至预先训练的推荐模型,得到所述待处理用户选择所述推荐对象候选集合中的候选推荐对象的概率,所述预先训练的推荐模型用于在用户关注到目标推荐商品的情况下,预测所述用户选择所述目标推荐对象的概率,所述样本标签用于表示用户是否选择所述样本推荐对象。

    其中,预先训练的推荐模型可以是如图6或图7所示的用户真实选择率拟合模块502;推荐模型的训练方法可以采用如图5所示的训练方法以及图7所示的离线训练阶段的方法,此处不再赘述。

    上述预训训练的推荐模型的模型参数是通过以样本用户行为日志与样本推荐对象的位置信息为输入数据,以样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练得到的,所述位置偏置模型用于预测所述目标推荐对象在不同位置时,所述用户关注到所述目标推荐对象的概率。

    可选地,联合训练可以是指基于样本标签与联合预测选择概率之间的差值训练位置偏置模型与推荐模型的模型参数,其中,联合预测选择概率是根据位置偏置模型与推荐模型的输出数据得到的。

    示例性地,可以获取训练样本,训练样本可以包括样本用户行为日志,样本推荐对象位置信息以及样本标签;将所述样本推荐对象位置信息输入至所述位置偏置模型得到所述用户关注到所述目标推荐对象的概率;将所述样本用户行为日志输入至所述推荐模型得到所述用户选择所述目标推荐商品的概率;基于所述用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐商品的概率相乘得到所述联合预测选择概率。

    步骤603、根据所述待处理用户选择所述候选推荐对象的概率得到所述候选推荐对象的推荐结果。

    可选地,可以根据预测的用户选择推荐对象候选集合中的任意一个候选推荐对象的概率对候选推荐对象进行排序,从而得到候选推荐对象的推荐结果。

    例如,可以按照得到的预测的选择概率按照降序对候选推荐对象进行排序,比如,候选推荐对象可以是候选推荐app。

    如图9所示,图9示出了应用市场中的“推荐”页,该页面上可以有多个榜单,比如,榜单可以包括精品应用于精品游戏。以精品应用为例,应用市场的推荐系统根据用户、候选集商品和上下文特征预测用户对候选集商品的选择概率,并以此概率将候选商品降序排列,将最可能被下载的应用排在最靠前的位置。

    示例性地,在精品应用中推荐结果可以是app5位于精品游戏中的推荐位置一、app6位于精品游戏中的推荐位置二、app7位于精品游戏中的推荐位置三、app8位于精品游戏中的推荐位置四。当用户看到应用市场的推荐结果之后,可以根据自身的兴趣爱好,选择浏览、选择或者下载等操作,用户的操作执行后会被存入用户行为日志中。

    例如,图9所示的应用市场可以通过用户行为日志作为训练数据训练推荐模型。

    应理解,上述举例说明是为了帮助本领域技术人员理解本申请实施例,而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。

    上文结合图1至图9,详细描述了本申请实施例推荐模型的训练方法以及预测选择概率的方法,下面将结合图10至图13,详细描述本申请的装置实施例。

    应理解,本申请实施例中的训练装置可以执行前述本申请实施例的推荐模型的训练方法,预测选择概率的装置可以执行前述本申请实施例的预测选择概率的方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。

    图10是本申请实施例提供的推荐模型的训练装置的示意性框图。应理解,训练装置700可以执行图5所示的推荐模型的训练方法。该训练装置700包括:获取单元710和处理单元720。

    其中,所述获取单元710用于获取训练样本,所述训练样本包括样本用户行为日志,样本推荐对象的位置信息以及样本标签,所述样本标签用于表示用户是否选择所述样本推荐对象;所述处理单元720,用于通过以所述样本用户行为日志与所述样本推荐对象的位置信息为输入数据,以所述样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练,以得到训练后的推荐模型,其中,所述位置偏置模型用于预测目标推荐对象在不同位置时,用户关注到所述目标推荐对象的概率,所述推荐模型用于在所述用户关注到所述目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率。

    可选地,作为一个实施例,所述联合训练是指基于所述样本标签与联合预测选择概率之间的差值训练所述位置偏置模型与所述推荐模型的模型参数,其中,所述联合预测选择概率是根据所述位置偏置模型与所述推荐模型的输出数据得到的。

    可选地,作为一个实施例,所述处理单元720还用于所述样本推荐对象的位置信息输入至所述位置偏置模型得到所述用户关注到所述目标推荐对象的概率;将所述样本用户行为日志输入至所述推荐模型得到所述用户选择所述目标推荐商品的概率;基于所述用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐商品的概率相乘得到所述联合预测选择概率。

    可选地,作为一个实施例,所述样本用户行为日志包括所述样本用户画像信息、所述样本推荐对象的特征信息以及样本上下文信息中的一项或者多项。

    可选地,作为一个实施例,所述样本推荐对象的位置信息是指所述样本推荐对象在不同种类的历史推荐商品中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的历史推荐商品中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的历史推荐商品中的推荐位置信息。

    图11是本申请实施例提供的预测选择概率的装置的示意性框图。应理解,装置800可以执行图8所示的预测选择概率的方法。该训练装置800包括:获取单元810和处理单元820。

    其中,所述获取单元810,用于获取待处理用户的用户特征信息、上下文信息以及推荐商品候选集合;所述处理单元820,用于将所述用户特征信息、所述上下文信息以及推荐对象候选集合输入至预先训练的推荐模型,得到所述待处理用户选择所述推荐对象候选集合中的候选推荐对象的概率,所述预先训练的推荐模型用于在用户关注到目标推荐商品的情况下,预测所述用户选择所述目标推荐对象的概率;根据所述待处理用户选择所述候选推荐对象的概率得到所述候选推荐对象的推荐结果,其中,所述预先训练的推荐模型的模型参数是通过以样本用户行为日志与样本推荐对象位置信息为输入数据,以样本标签为目标输出值对位置偏置模型和所述推荐模型进行联合训练得到的,所述位置偏置模型用于预测所述目标推荐对象在不同位置时,所述用户关注到所述目标推荐对象的概率,所述样本标签用于表示用户是否选择所述样本推荐对象。

    可选地,可以根据预测的用户选择推荐对象候选集合中的任意一个候选推荐对象的概率对候选推荐对象进行排序,从而得到候选推荐对象的推荐结果。

    可选地,作为一个实施例,所述联合训练是指基于所述样本标签与联合预测选择概率之间的差值训练所述位置偏置模型与所述推荐模型的模型参数,其中,所述联合预测选择概率是根据所述位置偏置模型与推荐模型的输出数据得到的。

    可选地,作为一个实施例,所述联合预测选择概率是根据用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐对象的概率相乘得到的,其中,所述用户关注到所述目标推荐对象的概率是根据所述样本推荐对象的位置信息与所述位置偏置模型得到的,所述用户选择所述目标推荐对象的概率是根据所述样本用户行为与所述推荐模型得到的。

    可选地,作为一个实施例,所述样本用户行为日志包括样本用户画像信息、所述样本推荐对象的特征信息以及样本上下文信息中的一项或者多项。

    可选地,作为一个实施例,所述样本推荐对象的位置信息是指所述样本推荐对象在不同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的推荐对象中的推荐位置信息。

    需要说明的是,上述训练装置700以及装置800以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。

    例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(applicationspecificintegratedcircuit,asic)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

    因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

    图12是本申请实施例提供的推荐模型的训练装置的硬件结构示意图。图12所示的训练装置900(该训练装置900具体可以是一种计算机设备)包括存储器901、处理器902、通信接口903以及总线904。其中,存储器901、处理器902、通信接口903通过总线904实现彼此之间的通信连接。

    存储器901可以是只读存储器(readonlymemory,rom),静态存储设备,动态存储设备或者随机存取存储器(randomaccessmemory,ram)。存储器901可以存储程序,当存储器901中存储的程序被处理器902执行时,处理器902用于执行本申请实施例的推荐模型的训练方法的各个步骤,例如,执行图5所示的各个步骤。

    应理解,本申请实施例所示的训练装置可以是服务器,例如,可以是云端的服务器,或者,也可以是配置于云端的服务器中的芯片。

    处理器902可以采用通用的中央处理器(centralprocessingunit,cpu),微处理器,应用专用集成电路(applicationspecificintegratedcircuit,asic),图形处理器(graphicsprocessingunit,gpu)或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的推荐模型的训练方法。

    处理器902还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的推荐模型的训练方法的各个步骤可以通过处理器902中的硬件的集成逻辑电路或者软件形式的指令完成。

    上述处理器902还可以是通用处理器、数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器901,处理器902读取存储器901中的信息,结合其硬件完成本申请实施中图10所示的训练装置中包括的单元所需执行的功能,或者,执行本申请方法实施例的图5所示的推荐模型的训练方法。

    通信接口903使用例如但不限于收发器一类的收发装置,来实现训练装置900与其他设备或通信网络之间的通信。

    总线904可包括在训练装置900各个部件(例如,存储器901、处理器902、通信接口903)之间传送信息的通路。

    图13是本申请实施例提供的预测选择概率的装置的硬件结构示意图。图13所示的装置1000(该装置1000具体可以是一种计算机设备)包括存储器1001、处理器1002、通信接口1003以及总线1004。其中,存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。

    存储器1001可以是只读存储器(readonlymemory,rom),静态存储设备,动态存储设备或者随机存取存储器(randomaccessmemory,ram)。存储器1001可以存储程序,当存储器1001中存储的程序被处理器1002执行时,处理器1002用于执行本申请实施例的预测选择概率的方法的各个步骤,例如,执行图8所示的各个步骤。

    应理解,本申请实施例所示的装置可以是智能终端,或者,也可以是配置于智能终端中的芯片。

    处理器1002可以采用通用的中央处理器(centralprocessingunit,cpu),微处理器,应用专用集成电路(applicationspecificintegratedcircuit,asic),图形处理器(graphicsprocessingunit,gpu)或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的预测选择概率的方法。

    处理器1002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的预测选择概率的方法的各个步骤可以通过处理器1002中的硬件的集成逻辑电路或者软件形式的指令完成。

    上述处理器1002还可以是通用处理器、数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1001,处理器1002读取存储器1001中的信息,结合其硬件完成本申请实施中图11所示的装置中包括的单元所需执行的功能,或者,执行本申请方法实施例的图8所示的预测选择概率的方法。

    通信接口1003使用例如但不限于收发器一类的收发装置,来实现装置1000与其他设备或通信网络之间的通信。

    总线1004可包括在装置1000各个部件(例如,存储器1001、处理器1002、通信接口1003)之间传送信息的通路。

    应注意,尽管上述训练装置900和装置1000仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,训练装置900和装置1000还可以包括实现正常运行所必须的其他器件。同时,根据具体需要本领域的技术人员应当理解,上述训练装置900和装置1000还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,上述训练装置900和装置1000也可仅仅包括实现本申请实施例所必须的器件,而不必包括图12或图13中所示的全部器件。

    还应理解,本申请实施例中,该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。处理器的一部分还可以包括非易失性随机存取存储器。例如,处理器还可以存储设备类型的信息。

    应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

    应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

    本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

    所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

    在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

    所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

    另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

    所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

    以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。


    技术特征:

    1.一种推荐模型的训练方法,其特征在于,包括:

    获取训练样本,所述训练样本包括样本用户行为日志,样本推荐对象的位置信息以及样本标签,所述样本标签用于表示用户是否选择所述样本推荐对象;

    通过以所述样本用户行为日志与所述样本推荐对象的位置信息为输入数据,以所述样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练,得到训练后的推荐模型,其中,所述位置偏置模型用于预测目标推荐对象在不同位置时,用户关注到所述目标推荐对象的概率,所述推荐模型用于在所述用户关注到所述目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率。

    2.如权利要求1所述的训练方法,其特征在于,所述联合训练是指基于所述样本标签与联合预测选择概率之间的差值训练所述位置偏置模型与所述推荐模型的模型参数,其中,所述联合预测选择概率是根据所述位置偏置模型与所述推荐模型的输出数据得到的。

    3.如权利要求2所述的训练方法,其特征在于,还包括:

    将所述样本推荐对象的位置信息输入至所述位置偏置模型得到所述用户关注到所述目标推荐对象的概率;

    将所述样本用户行为日志输入至所述推荐模型得到所述用户选择所述目标推荐对象的概率;

    通过对所述用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐对象的概率相乘得到所述联合预测选择概率。

    4.如权利要求1至3中任一项所述的训练方法,其特征在于,所述样本用户行为日志包括样本用户画像信息、所述样本推荐对象的特征信息以及样本上下文信息中的一项或者多项。

    5.如权利要求1至4中任一项所述的训练方法,其特征在于,所述样本推荐对象的位置信息是指所述样本推荐对象在不同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的推荐对象中的推荐位置信息。

    6.一种预测选择概率的方法,其特征在于,包括:

    获取待处理用户的用户特征信息、上下文信息以及推荐对象候选集合;

    将所述用户特征信息、所述上下文信息以及所述推荐对象候选集合输入至预先训练的推荐模型,得到所述待处理用户选择所述推荐对象候选集合中的候选推荐对象的概率,所述预先训练的推荐模型用于在用户关注到目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率;

    根据所述待处理用户选择所述候选推荐对象的概率得到所述候选推荐对象的推荐结果,其中,所述预先训练的推荐模型的模型参数是通过以样本用户行为日志与样本推荐对象的位置信息为输入数据,以样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练得到的,所述位置偏置模型用于预测所述目标推荐对象在不同位置时,所述用户关注到所述目标推荐对象的概率,所述样本标签用于表示所述用户是否选择所述样本推荐对象。

    7.如权利要求6所述的方法,其特征在于,所述联合训练是指基于所述样本标签与联合预测选择概率之间的差值训练所述位置偏置模型与所述推荐模型的模型参数,其中,所述联合预测选择概率是根据所述位置偏置模型与所述推荐模型的输出数据得到的。

    8.如权利要求6或7所述的方法,其特征在于,所述联合预测选择概率是根据用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐对象的概率相乘得到的,其中,所述用户关注到所述目标推荐对象的概率是根据所述样本推荐对象的位置信息与所述位置偏置模型得到的,所述用户选择所述目标推荐对象的概率是根据所述样本用户行为与所述推荐模型得到的。

    9.如权利要求6至8中任一项所述的方法,其特征在于,所述样本用户行为日志包括样本用户画像信息、所述样本推荐对象的特征信息以及样本上下文信息中的一项或者多项。

    10.如权利要求6至9中任一项所述的方法,其特征在于,所述样本推荐对象的位置信息是指所述样本推荐对象在不同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的推荐对象中的推荐位置信息。

    11.一种推荐模型的训练装置,其特征在于,包括:

    获取单元,用于获取训练样本,所述训练样本包括样本用户行为日志,样本推荐对象的位置信息以及样本标签,所述样本标签用于表示用户是否选择所述样本推荐对象;

    处理单元,用于通过以所述样本用户行为日志与所述样本推荐对象的位置信息为输入数据,以所述样本标签为目标输出值对位置偏置模型和推荐模型,以得到训练后的推荐模型,其中,所述位置偏置模型用于预测目标推荐对象在不同位置时,用户关注到所述目标推荐对象的概率,所述推荐模型用于在所述用户关注到所述目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率。

    12.如权利要求11所述的训练装置,其特征在于,所述联合训练是指基于所述样本真实与联合预测选择概率之间的差值训练所述位置偏置模型与所述推荐模型的模型参数,其中,所述联合预测选择概率是根据所述位置偏置模型与所述推荐模型的输出数据得到的。

    13.如权利要求12所述的训练装置,其特征在于,所述处理单元还用于:

    将所述样本推荐对象的位置信息输入至所述位置偏置模型得到所述用户关注到所述目标推荐对象的概率;

    将所述样本用户行为日志输入至所述推荐模型得到所述用户选择所述目标推荐对象的概率;

    基于所述用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐对象的概率相乘得到所述联合预测选择概率。

    14.如权利要求11至13中任一项所述的训练装置,其特征在于,所述样本用户行为日志包括样本用户画像信息、所述样本推荐对象的特征信息以及样本上下文信息中的一项或者多项。

    15.如权利要求11至14中任一项所述的训练装置,其特征在于,所述样本推荐对象的位置信息是指所述样本推荐对象在不同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的推荐对象中的推荐位置信息。

    16.一种预测选择概率的装置,其特征在于,包括:

    获取单元,用于获取待处理用户的用户特征信息、上下文信息以及推荐对象候选集合;

    处理单元,用于将所述用户特征信息、所述上下文信息以及所述推荐对象候选集合输入至预先训练的推荐模型,得到所述待处理用户选择所述推荐对象候选集合中候选推荐对象的概率,所述预先训练的推荐模型用于在用户关注到目标推荐对象的情况下,预测所述用户选择所述目标推荐对象的概率;根据所述待处理用户选择所述候选推荐对象的概率得到所述候选推荐对象的推荐结果,其中,所述预先训练的推荐模型的模型参数是通过以样本用户行为日志与样本推荐对象的位置信息为输入数据,以样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练得到的,所述位置偏置模型用于预测所述目标推荐对象在不同位置时,所述用户关注到所述目标推荐对象的概率,所述样本标签用于表示用户是否选择所述样本推荐对象。

    17.如权利要求16所述的装置,其特征在于,所述联合训练是指基于所述样本标签与联合预测选择概率之间的差值训练所述位置偏置模型与所述推荐模型的参数,其中,所述联合预测选择概率是根据所述位置偏置模型与所述推荐模型的输出数据相乘得到的。

    18.如权利要求16或17所述的装置,其特征在于,所述联合预测选择概率是根据用户关注到所述目标推荐对象的概率与所述用户选择所述目标推荐对象的概率相乘得到的,其中,所述用户关注到所述目标推荐对象的概率是根据所述样本推荐对象的位置信息与所述位置偏置模型得到的,所述用户选择所述目标推荐对象的概率是根据所述样本用户行为与所述推荐模型得到的。

    19.如权利要求16至18中任一项所述的装置,其特征在于,所述样本用户行为日志包括样本用户画像信息、所述样本推荐对象的特征信息以及样本上下文信息中的一项或者多项。

    20.如权利要求16至19中任一项所述的装置,其特征在于,所述样本推荐对象的位置信息是指所述样本推荐对象在不同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在同种类的推荐对象中的推荐位置信息,或者,所述样本推荐对象的位置信息是指所述样本推荐对象在不同榜单的推荐对象中的推荐位置信息。

    21.一种推荐模型的训练装置,其特征在于,包括至少一个处理器和存储器,所述至少一个处理器与所述存储器耦合,用于读取并执行所述存储器中的指令,以执行如权利要求1至5中任一项所述的训练方法。

    22.一种预测选择概率的装置,其特征在于,包括至少一个处理器和存储器,所述至少一个处理器与所述存储器耦合,用于读取并执行所述存储器中的指令,以执行如权利要求6至10中任一项所述的方法。

    23.一种计算机可读介质,其特征在于,所述计算机可读介质存储有程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如权利要求1至5中任一项所述的训练方法。

    24.一种计算机可读介质,其特征在于,所述计算机可读介质存储有程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如权利要求6至10中任一项所述的方法。

    技术总结
    本申请公开了人工智能领域中的一种推荐模型的训练方法、预测选择概率的方法及装置,该训练方法包括:获取训练样本,该训练样本包括样本用户行为日志,样本推荐对象的位置信息以及样本标签;通过以该样本用户行为日志与该样本推荐对象的位置信息为输入数据,以该样本标签为目标输出值对位置偏置模型和推荐模型进行联合训练,以得到训练后的推荐模型,其中,该位置偏置模型用于预测目标推荐对象在不同位置时,用户关注到该目标推荐对象的概率,该推荐模型用于在该用户关注到该目标推荐对象的情况下,预测该用户选择该目标推荐对象的概率。本申请的技术方案能够消除位置信息对推荐模型引入的误差,提高推荐模型的准确性。

    技术研发人员:郭慧丰;余锦楷;刘青;唐睿明;何秀强
    受保护的技术使用者:华为技术有限公司
    技术研发日:2019.09.11
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21400.html

    最新回复(0)