一种预测订单意愿的方法、装置、计算机设备及计算机可读存储介质与流程

    专利2022-07-08  98


    本申请实施例涉及订单推送领域,尤其涉及一种预测订单意愿的方法、装置、计算机设备及计算机可读存储介质。



    背景技术:

    物流的核心业务是:用户下单、司机接单并履约的过程,此流程强依赖于一套有效的订单分派系统。

    原系统的逻辑是,用户创建的新订单需求,随时间推移,逐步广播给更远的司机,直到该订单被司机响应为止。可理解为“按距离分段推送”。

    原系统存在一个问题,司机收到订单推送过多,其看单和决策效率会下降。



    技术实现要素:

    本申请实施例的目的是提供一种预测订单意愿的方法、装置、计算机设备及计算机可读存储介质,旨在解决订单分配的问题,如何通过有效的匹配同时保证三方利益:例如,用户被及时响应、满足,司机在平台上有单、收入高,平台单多、赚钱多。

    本申请实施例的一个方面提供了一种预测订单意愿的方法,所述方法包括:

    选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单,所述负样本为司机未参与抢单;

    从所述训练样本中选取基础信息并进行关联;

    对关联后的数据进行预处理;

    对预处理后数据进行机器学习模型训练、评估和更新;

    将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。

    本申请实施例的一个方面又提供了一种预测订单意愿的装置,所述装置包括:

    选取模块,用于选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单的样本,所述负样本为司机未参与抢单的样本;

    关联模块,用于从所述训练样本中选取基础信息并进行关联;

    预处理模块,用于对关联后的数据进行预处理;

    更新模块,用于对预处理后数据进行机器学习模型训练、评估和更新;

    排序模块,用于将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。

    本申请实施例的一个方面又提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。

    本申请实施例的一个方面又提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。

    本申请实施例提供的一种预测订单意愿的方法、装置、计算机设备及计算机可读存储介质,选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单的样本,所述负样本为司机未参与抢单的样本;从所述训练样本中选取基础信息并进行关联;对关联后的数据进行预处理;对预处理后数据进行机器学习模型训练、评估和更新;将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。在线上服务环节,对于每张订单,我们获取周围n名司机,使用模型预测这n名司机对该订单的意愿,并将其中意愿较低的司机滤除,仅向剩余司机推送该订单。从而让司机看到更感兴趣的订单,为司机提供个性化推送,提升司机使用体验,最终提升平台效率。

    附图说明

    图1示意性示出了根据本申请实施例的环境应用示意图;

    图2示意性示出了根据本申请实施例一的预测订单意愿的方法的流程图;

    图3示意性示出了根据本申请实施例二的预测订单意愿的装置的框图;

    图4示意性示出了根据本申请实施例三的适于实现预测订单意愿的方法的计算机设备的硬件架构示意图。

    具体实施方式

    为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

    需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。

    图1示意性示出了根据本申请实施例的环境应用示意图。

    服务器20通过网络9连接移动终端10。每一个移动终端10里面安置一个客户端12,客户端12用来接收司机的信息。

    服务器20可以由一个或多个计算设备实现。一个或多个计算设备可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机,例如计算机系统,操作系统,服务器等的仿真。计算设备可以基于虚拟映像和/或定义用于仿真的特定软件(例如,操作系统,专用应用程序,服务器)的其他数据,由计算设备加载虚拟机。随着对不同类型的处理服务的需求改变,可以在一个或多个计算设备上加载和/或终止不同的虚拟机。可以实现管理程序来管理同一计算设备上不同虚拟机的使用。

    网络9包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或类似。网络9可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,其组合等。网络9可以包括无线链路,诸如蜂窝链路,卫星链路,wi-fi链路等。

    移动终端10的类型包括:小车、中车或者大车。

    服务器20接收司机的行程信息,司机的行程信息包括:包括:订单基础信息、车辆基础信息、司机/用户基础信息、场景信息;所述订单基础信息包括:价格、起终点里程、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城;所述车辆基础信息包括:车辆类型、大小和/或特殊需求,所述特殊要求包括:如果车辆无法满足则会导致履约失败;所述司机/用户基础信息包括:会员级别,所述会员级别对应与其履约能力和/或经验;所述场景信息包括:接单距离和天气,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离。

    服务器20获取用户发送的信息;以所述信息的经纬度为中心,寻找周围所有的在线司机;获取所述行程信息以及所述在线司机对应的特征数据,所述特征数据包含n个订单对,订单是同一订单,司机对应于n名司机,n为自然数;将n个订单对的特征数据输入预设模型,所述预设模型返回n个预测分数,所述n个预设分数包括:所述订单如果被各司机接单后的取消概率;根据所述预测分数进行分单决策,输出所述订单对应的待广播司机。

    实施例一

    图2示意性示出了根据本申请实施例一的预测订单意愿的方法的流程图。可以理解,本方法实施例可以被执行在服务器20中,且本方法实施例的流程图不用于对执行步骤的顺序进行限定。

    如图2所示,该预测订单意愿的方法可以包括步骤s200~s208,其中:

    步骤s200,选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单,所述负样本为司机未参与抢单;

    步骤s202,从所述训练样本中选取基础信息并进行关联;

    步骤s204,对关联后的数据进行预处理;

    步骤s206,对预处理后数据进行机器学习模型训练、评估和更新;

    步骤s208,将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。

    其中,所述训练样本包括:预设区域且第一预设时长内的订单数据,所述订单数据包括被司机响应过的订单。

    示例性的,所述基础信息包括:价格、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城、订单预留的备注文本的长度、订单的起终点个数;

    车辆基础信息包括:车辆类型、大小和/或特殊需求;

    司机基础信息包括:会员级别;

    场景信息包括:接单距离、天气、供需现况,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离;所述供需现况包括:过去第二预设时长在订单当前位置处的供需比;

    司机历史画像信息包括:过去预设天数内,所有推送给司机的预设类型订单中,司机参与抢单的次数的占比、过去预设天数司机参与抢单的订单其价格的分位数、司机预设天数完单收入和/或司机历史准点率。

    例如:订单基础信息,如价格、起终点里程、订单车型、下单时间、订单支付方式、所在城市、是否跨城等。货拉拉的订单体量大,不同用户的需求种类繁多,不同司机对不同订单的偏好程度和响应意愿均有差别。

    车辆基础信息,如车辆类型、大小、特殊需求。车型尺寸与车能否装下货直接相关,而用户的尺寸或某些特殊需求如果车辆无法满足(如用户需要小推车,而此车辆未配备小推车),司机便不会选择响应这张订单的需求。

    司机/用户基础信息,如会员等级。司机的基础信息,与其履约能力/经验/心态有关系,进而影响到司机抢单意愿;用户基础信息跟用户需求类型/难易程度有关,会间接影响到司机的响应意愿。

    场景信息:

    接单距离(司机收到播单推送时,其距离订单起点的直线距离/导航距离):距离订单起点越远,司机提供此次服务的开销/时间成本就越高,其想赢意愿也越小

    天气:恶劣天气会影响司机的响应意愿

    供需现况:影响每张单被响应的难易程度,也会影响司机心态(如挑单)。

    司机/用户历史画像:

    计算过往x天表现:司机过往所接订单不同业务维度占比,能够反映其对于不同订单的偏好;用户过往订单平均响应率,能够反应其所下订单对于司机的吸引力;这都为意愿度预测提供了先验知识;这里x取90。

    主要有两类特征计算形式:

    某类型订单的“推送抢单率”,如“过去90天所有推送给某司机的预约单中该司机参与抢单pk的推送的占比”;

    某个订单维度的统计值,如“过去90天司机参与抢单pk的订单价格分位数”。

    示例性的,所述对关联后的数据进行预处理,包括:

    若接单司机是新司机,则不存在历史画像信息,数据值为空;对于基础信息不做控制填充,用预设的缺失值模型进行处理;对于统计画像信息,用城市预设时间内的司机的画像信息平均值进行填充;或者,

    通过贝叶斯平滑技术,获取用户或者司机在历史订单数据少的情况下的特征质量;或者,

    样本不平衡处理,对所述负样本做降采样处理。

    可选的,选择正负样本标记,所述正样本包括:选择全国预设周期内的订单推送数据,所述正负样本共用于训练意愿度二分类模型;

    对任一订单,广播后从第一名抢单司机抢单时刻开始计时,预设时间内所有参与订单抢单的司机会统一进入预设抢单规则的集合,并根据预设的业务规则,在所述预设抢单规则的集合其中择优,并仅选出一名司机成功接单;

    去掉重复推送,将对司机的一次推送数据作为模型训练的样本。

    具体的,选取训练样本:

    正负样本标记:选择全国近1周的订单推送数据作为样本,其中“参与抢单pk”的司机作为正样本。认为其能够较好地囊括播单场景下对此单有意愿的所有司机;其余样本标记为负样本,正负样本共同用于训练意愿度二分类模型。

    抢单pk:注意从“广播播单一批司机”到“最终仅1名司机成功接单”并非司机先抢先得,期间还通过一个预设抢单规则的中间环节进行筛选:对任一订单,广播后从第一名抢单司机抢单时刻开始计时,8秒钟内所有参与该订单抢单的司机会统一进入预设抢单规则的集合,然后根据一定的业务规则,在集合其中择优,最终仅选出一名司机成功接单。此环节有助于限制抢单外挂,也有助于提升播单控制的颗粒度。

    重复样本去重:原始播单系统按距离分段延时的机制播单,因此历史数据中某订单对某司机会有重复推送。认为司机选择抢单是因为对这张单感兴趣,而与这张单被推送次数关系不大。为了避免错误地影响到样本权重,将重复推送去重,某订单对某司机仅保留一次推送数据作为模型训练的样本。

    所述对预处理后数据进行机器学习模型训练、评估和更新,包括:

    结合模型效果、训练成本、可解释性、工程成本,选择预设模型作为所述的机器学习模型进行训练,并通过网格搜索方式确定模型超参数;

    选择经典排序指标进行评估;

    每隔第三预设时长内使用最新数据自动更新一版模型。

    可选的,对数据进行处理,包括:

    若接单司机是新司机,则不存在历史画像信息,数据值为空;对于基础信息,不做控制填充,而通过具有处理缺失值的模型进行填充;对于统计画像信息,用对应城市预设时间平均响应后的取消率进行填充;或者,

    采用贝叶斯平滑技术,获取用户/司机在历史订单数据少的情况下的特征质量;或者,

    若正负样本不平衡,则对负样本做负采样处理,使得正负样本比达到预设比率;或者,

    综合考虑模型效果、训练成本、可解释性、工程成本,选用具有处理缺失值的模型作为训练模型,并通过贝叶斯调参的方式确定模型超参数;或者,

    选用经典排序指标auc;或者,

    每周使用最新数据自动更新一版模型。

    具体的,数据预处理:

    缺失值填充:如某些接单司机是新司机,则不存在历史画像信息,数据值为空。对于基础信息,不做控制填充,而通过具有处理缺失值的模型(如xgboost)加以解决;对于统计画像信息,用该城市过往1周的平均(响应后)取消率进行填充

    数据平滑:采用了业界较常用的贝叶斯平滑技术,提升用户/司机在历史订单数据少的情况下的特征质量;

    样本不平衡处理:由于正负样本不平衡(<1:10),故对负样本做负采样处理,使得正负样本比约为1:3左右。

    其他:

    模型训练:综合考虑模型效果、训练成本、可解释性、工程成本,选用了xgboost作为训练模型。通过贝叶斯调参的方式确定模型超参数

    离线评估:选用经典排序指标auc。

    模型更新:每周使用最新数据自动更新一版模型,以确保模型提供服务的表现。

    本申请实施例提供的一种预测订单意愿的方法、装置、计算机设备及计算机可读存储介质,选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单的样本,所述负样本为司机未参与抢单的样本;从数据集市中关联特征信息;对关联后的数据进行预处理;对预处理后数据进行机器学习模型训练、评估和更新;将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。在线上服务环节,对于每张订单,我们获取周围n名司机,使用模型预测这n名司机对该订单的意愿,并将其中意愿较低的司机滤除,仅向剩余司机推送该订单。从而让司机看到更感兴趣的订单,为司机提供个性化推送,提升司机使用体验,最终提升平台效率。

    实施例二

    图3示意性示出了根据本申请实施例二的预测订单意愿的装置的框图,该预测订单意愿的系统可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本实施例中各程序模块的功能。

    如图3所示,该预测订单意愿的装置300可以包括选取模块310、关联模块320、预处理模块330、更新模块340及排序模块350,其中:

    选取模块310,用于选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单的样本,所述负样本为司机未参与抢单的样本;

    关联模块320,用于从所述训练样本中选取基础信息并进行关联;

    预处理模块330,用于对关联后的数据进行预处理;

    更新模块340,用于对预处理后数据进行机器学习模型训练、评估和更新;

    排序模块350,用于将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。

    可选的,所述训练样本包括:预设区域且第一预设时长内的订单数据,所述订单数据包括被司机响应过的订单;

    所述基础信息包括:价格、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城、订单预留的备注文本的长度、订单的起终点个数;

    车辆基础信息包括:车辆类型、大小和/或特殊需求;

    司机基础信息包括:会员级别;

    场景信息包括:接单距离、天气、供需现况,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离;所述供需现况包括:每隔第二预设时长在订单当前位置处的供需比;

    司机历史画像信息包括:过去预设天数内,所有推送给司机的预设类型订单中,司机参与抢单的次数的占比、过去预设天数司机参与抢单的订单其价格的分位数、司机预设天数完单收入和/或司机历史准点率。

    可选的,所述预处理模块330,用于:

    若接单司机是新司机,则不存在历史画像信息,数据值为空;对于基础信息不做控制填充,用预设的缺失值模型进行处理;对于统计画像信息,用城市预设时间内的司机的画像信息平均值进行填充;或者,

    通过贝叶斯平滑技术,获取用户或者司机在历史订单数据少的情况下的特征质量;或者,

    样本不平衡处理,对所述负样本做降采样处理。

    可选的,更新模块340,用于:

    结合模型效果、训练成本、可解释性、工程成本,选择预设模型作为所述的机器学习模型进行训练,并通过网格搜索方式确定模型超参数;

    选择经典排序指标进行评估;

    每隔第三预设时长内使用最新数据自动更新一版模型。

    本申请实施例提供的一种预测订单意愿的装置,选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单的样本,所述负样本为司机未参与抢单的样本;从所述训练样本中选取基础信息并进行关联;对关联后的数据进行预处理;对预处理后数据进行机器学习模型训练、评估和更新;将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。在线上服务环节,对于每张订单,我们获取周围n名司机,使用模型预测这n名司机对该订单的意愿,并将其中意愿较低的司机滤除,仅向剩余司机推送该订单。从而让司机看到更感兴趣的订单,为司机提供个性化推送,提升司机使用体验,最终提升平台效率。

    实施例三

    图4示意性示出了根据本申请实施例三的适于实现预测订单意愿的方法的计算机设备的硬件架构示意图。

    本实施例中,计算机设备400可以用于作为提供商网络或组成提供商网络的组成部分,计算机设备400可以是诸如虚拟机主机进程和一个或多个虚拟机实例,或者是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。

    本实施例中,计算机设备400也可以用于作为是移动终端或组成移动终端的组成部分。当计算机设备400是移动终端或组成移动终端的组成部分时,计算机设备400可以是诸如智能手机、电脑、投影仪、机顶盒等。

    本实施例中,计算机设备400是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。如图4所示,计算机设备400至少包括但不限于:可通过系统总线相互通信链接存储器410、处理器420、网络接口430。其中:

    存储器410至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器410可以是计算机设备400的内部存储模块,例如该计算机设备400的硬盘或内存。在另一些实施例中,存储器410也可以是计算机设备400的外部存储设备,例如该计算机设备400上配备的插接式硬盘,智能存储卡(smartmediacard,简称为smc),安全数字(securedigital,简称为sd)卡,闪存卡(flashcard)等。当然,存储器410还可以既包括计算机设备400的内部存储模块也包括其外部存储设备。本实施例中,存储器410通常用于存储安装于计算机设备400的操作系统和各类应用软件,例如预测订单意愿的方法的程序代码等。此外,存储器410还可以用于暂时地存储已经输出或者将要输出的各类数据。

    处理器420在一些实施例中可以是中央处理器(centralprocessingunit,简称为cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器420通常用于控制计算机设备400的总体操作,例如执行与计算机设备400进行数据或者通信相关的控制和处理等。本实施例中,处理器420用于运行存储器410中存储的程序代码或者处理数据。

    网络接口430可包括无线网络接口或有线网络接口,该网络接口430通常用于在计算机设备400与其他计算机设备之间建立通信链接。例如,网络接口430用于通过网络将计算机设备400与外部终端相连,在计算机设备400与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,简称为gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,简称为wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。

    需要指出的是,图4仅示出了具有部件410-430的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。

    在本实施例中,存储于存储器410中的预测订单意愿的方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器420)所执行,以完成本申请。

    实施例四

    本实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的预测订单意愿的方法的步骤。

    本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smartmediacard,简称为smc),安全数字(securedigital,简称为sd)卡,闪存卡(flashcard)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中的预测订单意愿的方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

    显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。

    以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。


    技术特征:

    1.一种预测订单意愿的方法,其特征在于,所述方法包括:

    选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单,所述负样本为司机未参与抢单;

    从所述训练样本中选取基础信息并进行关联;

    对关联后的数据进行预处理;

    对预处理后数据进行机器学习模型训练、评估和更新;

    将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。

    2.根据权利要求1所述的方法,其特征在于,所述训练样本包括:预设区域且第一预设时长内的订单数据,所述订单数据包括被司机响应过的订单。

    3.根据权利要求1所述的方法,其特征在于,所述基础信息包括:订单预留的备注文本的长度和/或订单的起终点个数;

    所述基础信息还包括:价格、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城;

    车辆基础信息包括:车辆类型、大小和/或特殊需求;

    司机基础信息包括:会员级别;

    场景信息包括:接单距离、天气、供需现况,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离;所述供需现况包括:每隔第二预设时长在订单当前位置处的供需比;

    司机历史画像信息包括:过去预设天数内,所有推送给司机的预设类型订单中,司机参与抢单的次数的占比、过去预设天数司机参与抢单的订单其价格的分位数、司机预设天数完单收入和/或司机历史准点率。

    4.根据权利要求1所述的方法,其特征在于,所述对关联后的数据进行预处理,包括:

    若接单司机是新司机,则不存在历史画像信息,数据值为空;对于基础信息不做控制填充,用预设的缺失值模型进行处理;对于统计画像信息,用城市预设时间内的司机的画像信息平均值进行填充;或者,

    通过贝叶斯平滑技术,获取用户或者司机在历史订单数据少的情况下的特征质量;或者,

    样本不平衡处理,对所述负样本做降采样处理。

    5.根据权利要求1所述的方法,其特征在于,所述对预处理后数据进行机器学习模型训练、评估和更新,包括:

    结合模型效果、训练成本、可解释性、工程成本,选择预设模型作为所述的机器学习模型进行训练,并通过网格搜索方式确定模型超参数;

    选择经典排序指标进行评估;

    每隔第三预设时长内使用最新数据自动更新一版模型。

    6.一种预测订单意愿的装置,其特征在于,所述装置包括:

    选取模块,用于选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单的样本,所述负样本为司机未参与抢单的样本;

    关联模块,用于从所述训练样本中选取基础信息并进行关联;

    预处理模块,用于对关联后的数据进行预处理;

    更新模块,用于对预处理后数据进行机器学习模型训练、评估和更新;

    排序模块,用于将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。

    7.根据权利要求6所述的装置,其特征在于,所述训练样本包括:预设区域且第一预设时长内的订单数据,所述订单数据包括被司机响应过的订单;

    所述基础信息包括:价格、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城、订单预留的备注文本的长度、订单的起终点个数;

    车辆基础信息包括:车辆类型、大小和/或特殊需求;

    司机基础信息包括:会员级别;

    场景信息包括:接单距离、天气、供需现况,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离;所述供需现况包括:每隔第二预设时长在订单当前位置处的供需比;

    司机历史画像信息包括:过去预设天数内,所有推送给司机的预设类型订单中,司机参与抢单的次数的占比、过去预设天数司机参与抢单的订单其价格的分位数、司机预设天数完单收入和/或司机历史准点率。

    8.根据权利要求6所述的装置,其特征在于,所述预处理模块,用于:

    若接单司机是新司机,则不存在历史画像信息,数据值为空;对于基础信息不做控制填充,用预设的缺失值模型进行处理;对于统计画像信息,用城市预设时间内的司机的画像信息平均值进行填充;或者,

    通过贝叶斯平滑技术,获取用户或者司机在历史订单数据少的情况下的特征质量;或者,

    样本不平衡处理,对所述负样本做降采样处理。

    9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至5任一项所述方法的步骤。

    技术总结
    本申请实例公开了一种预测订单意愿的方法、装置、计算机设备及计算机可读存储介质,选取历史订单交易数据作为训练样本,从所述训练样本中选取正样本和负样本,所述正样本为参与司机抢单的样本,所述负样本为司机未参与抢单的样本;从所述训练样本中选取基础信息并进行关联;对关联后的数据进行预处理;对预处理后数据进行机器学习模型训练、评估和更新;将训练好的模型部署到线上环境,所述训练好的模型用于预测司机对订单的意愿。在线上服务环节,对于每张订单,我们获取周围N名司机,使用模型预测这N名司机对该订单的意愿,并将其中意愿较低的司机滤除,仅向剩余司机推送该订单。从而让司机看到更感兴趣的订单,为司机提供个性化推送,提升司机使用体验,最终提升平台效率。

    技术研发人员:王德健;周友茸;周航
    受保护的技术使用者:深圳依时货拉拉科技有限公司
    技术研发日:2020.12.18
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-17128.html

    最新回复(0)