一种预测订单取消的建模方法、装置、计算机设备及计算机可读存储介质与流程

    专利2022-07-08  101


    本申请实施例涉及订单推送领域,尤其涉及一种预测订单取消的建模方法、装置、计算机设备及计算机可读存储介质。



    背景技术:

    核心的物流业务是:用户下单、司机接单并履约(完成装货、配送、卸货)的过程,此流程强依赖于一套有效的订单分派系统。

    原系统的逻辑是,用户创建的新订单需求,随时间推移,逐步广播给更远的司机,直到该订单被司机响应为止。可理解为“按距离分段推送”。

    原系统存在一个问题,未对虽然距离近但不合适的司机进行有效过滤。



    技术实现要素:

    本申请实施例的目的是提供一种预测订单取消的建模方法、装置、计算机设备及计算机可读存储介质,旨在在订单分配问题中,有效地训练出模型,此模型有能力精准预测司乘配对后由于不合适而被迫取消订单的概率。进而能够将此模型用于订单分配系统,有效提升服务质量和司乘体验。

    本申请实施例的一个方面提供了一种预测订单取消的建模方法,所述方法包括:

    选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;

    从所述训练样本中选取特征信息进行关联;

    对关联后的数据进行预处理;

    对预处理后的数据进行机器学习模型的训练、评估和更新;

    将训练后的模型部署到线上环境,所述训练后的模型用于预测司机取消订单的概率。

    本申请实施例的一个方面又提供了一种预测订单取消的建模装置,所述装置包括:

    选取模块,用于选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;

    关联模块,用于从所述正样本中选取特征信息进行关联;

    预处理模块,用于对关联后的数据进行预处理;

    训练模块,用于对预处理后的数据进行机器学习模型的训练、评估和更新;

    排序模块,用于将训练后的模型部署到线上环境,所述训练后的模型用于预测司机取消订单的概率。

    本申请实施例的一个方面又提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。

    本申请实施例的一个方面又提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。

    本申请实施例提供一种预测订单取消的建模方法、装置、计算机设备及计算机可读存储介质,选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;从所述训练样本中选取特征信息进行关联;对关联后的数据进行预处理;对预处理后的数据进行机器学习模型的训练、评估和更新;将训练后的模型部署到线上环境,所述训练后的模型用于预测司机取消订单的概率,对司机进行排序,减少了不必要的播单,相对的缓解了司机选择多的选择困难问题。

    附图说明

    图1示意性示出了根据本申请实施例的预测订单取消的建模方法的应用环境图;

    图2示意性示出了根据本申请实施例一的预测订单取消的建模方法的流程图;

    图3示意性示出了根据本申请实施例二的预测订单取消的建模装置的框图;

    图4示意性示出了根据本申请实施例三的适于实现预测订单取消的建模方法的计算机设备的硬件架构示意图。

    具体实施方式

    为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

    需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。

    图1示意性示出了根据本申请实施例的环境应用示意图。

    服务器20通过网络9连接移动终端10。每一个移动终端10里面安置一个客户端12,客户端12用来接收司机的信息。

    服务器20可以由一个或多个计算设备实现。一个或多个计算设备可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机,例如计算机系统,操作系统,服务器等的仿真。计算设备可以基于虚拟映像和/或定义用于仿真的特定软件(例如,操作系统,专用应用程序,服务器)的其他数据,由计算设备加载虚拟机。随着对不同类型的处理服务的需求改变,可以在一个或多个计算设备上加载和/或终止不同的虚拟机。可以实现管理程序来管理同一计算设备上不同虚拟机的使用。

    网络9包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或类似。网络9可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,其组合等。网络9可以包括无线链路,诸如蜂窝链路,卫星链路,wi-fi链路等。

    移动终端10的类型包括:小车、中车或者大车。

    服务器20接收司机的行程信息,司机的行程信息包括:包括:订单基础信息、车辆基础信息、司机/用户基础信息、场景信息;所述订单基础信息包括:价格、起终点里程、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城;所述车辆基础信息包括:车辆类型、大小和/或特殊需求,所述特殊要求包括:如果车辆无法满足则会导致履约失败;所述司机/用户基础信息包括:会员级别,所述会员级别对应与其履约能力和/或经验;所述场景信息包括:接单距离和天气,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离。

    服务器20获取用户发送的信息;以所述信息的经纬度为中心,寻找周围所有的在线司机;获取所述行程信息以及所述在线司机对应的特征数据,所述特征数据包含n个订单对,订单是同一订单,司机对应于n名司机,n为自然数;将n个订单对的特征数据输入预设模型,所述预设模型返回的n个预测分数,所述n个预设分数包括:所述订单如果被各司机接单后的取消概率;根据所述预测分数进行分单决策,输出所述订单对应的待广播司机。

    实施例一

    图2示意性示出了根据本申请实施例一的预测订单取消的建模方法的流程图。可以理解,本方法实施例可以被执行在服务器20中,且本方法实施例的流程图不用于对执行步骤的顺序进行限定。

    如图2所示,该预测订单取消的建模方法可以包括步骤s200~s206,其中:

    步骤s200,选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;

    步骤s202,从所述训练样本中选取特征信息进行关联;

    步骤s204,对关联后的数据进行预处理;

    步骤206,对预处理后的数据进行机器学习模型的训练、评估和更新;

    步骤208,将训练后的模型部署到线上环境,所述训练后的模型用于预测司机取消订单的概率。

    其中,所述训练样本包括:

    预设区域且第一预设时长内的订单数据,所述订单数据包括被司机响应过的订单。

    具体的,选择全国最近1个月的订单数据作为样本,仅被司机响应过的订单。若此单最终成功完单,则标记为负样本;若此单最终未完成而取消,则标记为正样本;

    业务上订单分为a/b单:用户的新需求为a单,若被司机响应后取消了,用户可以保留已填写的订单信息不变,重新匹配司机,此时订单会转为b单。对于取消率模型的场景来说,这两类单我们需给予同样的关注,因此我们从数据层面将原本合为一条样本的数据拆分成两条样本。

    示例性的,所述特征信息包括:订单基础、车辆基础信息、司机或者用户的基础信息、场景信息、司机或者用户的历史画像信息;

    所述订单基础信息包括:价格、起终点里程、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城;

    所述车辆基础信息包括:车辆类型、大小和/或特殊需求;

    所述司机或者用户基础信息包括:会员级别,所述会员级别对应与其履约能力和/或经验;

    所述场景信息包括:接单距离和天气,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离;

    所属司机或者用户历史画像信息包括:过去预设天数司机响应后的取消率,过去预设天数司机接单距离的中位数。

    具体的,所述对关联后的数据进行预处理:

    若司机为新司机,则数据值为空;对于基础信息,不做控制填充,通过具有处理缺失值的模型填充;对于统计画像信息,则用对应城市过往第二预设时长内的司机的画像信息平均值进行填充;或者,

    采用威尔逊平滑技术,获取用户/司机在历史订单数据少时的特征信息。

    具体的,所述对预处理后的数据进行机器学习模型的训练、评估和更新,包括:

    结合模型效果、训练成本、可解释性、工程成本,选择预设模型作为训练模型,并通过网格搜索方式确定模型超参数;

    选择经典排序指标进行评估;

    每隔所述第三预设时长使用最新数据自动更新一版模型。

    计算用户过往x天表现。如果司机/用户过往表现良好(i.e.取消率较低),有理由认为其未来也有能力/有更大的概率提供更好的表现(取消概率更低)。根据业务实际情况,这里x我们选取30以及90。

    这里主要有两类画像,一类是司机/用户某类型订单的响应后取消的比例,如“过去30天司机小面订单(响应后)取消率”;另一类是司机/用户取消与未取消订单某个订单维度的统计值,如“过去30天司机(响应后)取消订单的接单距离的中位数”。

    本申请实施例提供一种预测订单取消的建模方法,选取历史订单的交易数据作为训练样本,并从中选取正样本;从所述正样本中选取特征信息进行关联;对关联后的数据进行预处理;对预处理后的数据进行机器学习模型的训练、评估和更新;将离线训练后的模型部署到线上环境,对司机进行排序,减少了不必要的播单,相对的缓解了司机选择多的选择困难问题。

    实施例二

    图3示意性示出了根据本申请实施例二的预测订单取消的建模装置的框图,该预测订单取消的系统可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本实施例中各程序模块的功能。

    如图3所示,该预测订单取消的建模装置300可以包括:

    选取模块301,用于选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;

    关联模块302,用于从所述正样本中选取特征信息进行关联;

    预处理模块303,用于对关联后的数据进行预处理;

    训练模块304,用于对预处理后的数据进行机器学习模型的训练、评估和更新;

    排序模块305,用于将训练后的模型部署到线上环境,所述训练后的模型用于预测司机取消订单的概率。

    其中,所述训练样本包括:

    预设区域且第一预设时长内的订单数据,所述订单数据包括被司机响应过的订单。

    具体的,选择全国最近1个月的订单数据作为样本,仅被司机响应过的订单。若此单最终成功完单,则标记为负样本;若此单最终未完成而取消,则标记为正样本;

    业务上订单分为a/b单:用户的新需求为a单,若被司机响应后取消了,用户可以保留已填写的订单信息不变,重新匹配司机,此时订单会转为b单。对于取消率模型的场景来说,这两类单我们需给予同样的关注,因此我们从数据层面将原本合为一条样本的数据拆分成两条样本。

    示例性的,所述特征信息包括:订单基础、车辆基础信息、司机或者用户的基础信息、场景信息、司机或者用户的历史画像信息;

    所述订单基础信息包括:价格、起终点里程、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城;

    所述车辆基础信息包括:车辆类型、大小和/或特殊需求;

    所述司机或者用户基础信息包括:会员级别,所述会员级别对应与其履约能力和/或经验;

    所述场景信息包括:接单距离和天气,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离;

    所属司机或者用户历史画像信息包括:过去预设天数司机响应后的取消率,过去预设天数司机接单距离的中位数。

    具体的,所述预处理模块303:

    若司机为新司机,则数据值为空;对于基础信息,不做控制填充,通过具有处理缺失值的模型填充;对于统计画像信息,则用对应城市第二预设时长的司机的画像信息平均值进行填充;或者,

    采用威尔逊平滑技术,获取用户/司机在历史订单数据少的情况下的特征信息。

    具体的,所述训练模块304,包括:

    结合模型效果、训练成本、可解释性、工程成本,选择xgboost作为训练模型,并通过网格搜索方式确定模型超参数;

    选择经典排序指标auc进行评估;

    每隔所述第三预设时长,使用最新数据自动更新一版模型。

    计算用户过往x天表现。如果司机/用户过往表现良好(i.e.取消率较低),有理由认为其未来也有能力/有更大的概率提供更好的表现(取消概率更低)。根据业务实际情况,这里x我们选取30以及90。

    这里主要有两类画像,一类是司机/用户某类型订单的响应后取消的比例,如“过去30天司机小面订单(响应后)取消率”;另一类是司机/用户取消与未取消订单某个订单维度的统计值,如“过去30天司机(响应后)取消订单的接单距离的中位数”。

    本申请实施例提供一种预测订单取消的建模装置,选取历史订单的交易数据作为训练样本,选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;对关联后的数据进行预处理;对预处理后的数据进行机器学习模型的训练、评估和更新;将离线训练后的模型部署到线上环境。在线上服务环节,对于每张订单,我们获取周围n名司机,使用模型预测这n名司机若与该订单匹配后由于不合适而被迫取消的概率,并将其中取消概率较高的司机滤除,仅向剩余司机推送该订单,从而为用户挑选服务质量更佳、更合适的司机,提升用户体验以及平台效率。

    实施例三

    图4示意性示出了根据本申请实施例三的适于实现预测订单取消的建模方法的计算机设备的硬件架构示意图。

    本实施例中,计算机设备400可以用于作为提供商网络或组成提供商网络的组成部分,计算机设备400可以是诸如虚拟机主机进程和一个或多个虚拟机实例,或者是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。

    本实施例中,计算机设备400也可以用于作为是移动终端或组成移动终端的组成部分。当计算机设备400是移动终端或组成移动终端的组成部分时,计算机设备可以是诸如智能手机、电脑、投影仪、机顶盒等。

    本实施例中,计算机设备400是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。如图4所示,计算机设备400至少包括但不限于:可通过系统总线相互通信链接存储器410、处理器420、网络接口430。

    其中:

    存储器410至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器410可以是计算机设备400的内部存储模块,例如该计算机设备400的硬盘或内存。在另一些实施例中,存储器410也可以是计算机设备400的外部存储设备,例如该计算机设备400上配备的插接式硬盘,智能存储卡(smartmediacard,简称为smc),安全数字(securedigital,简称为sd)卡,闪存卡(flashcard)等。当然,存储器410还可以既包括计算机设备400的内部存储模块也包括其外部存储设备。本实施例中,存储器410通常用于存储安装于计算机设备400的操作系统和各类应用软件,例如预测订单取消的建模方法的程序代码等。此外,存储器410还可以用于暂时地存储已经输出或者将要输出的各类数据。

    处理器420在一些实施例中可以是中央处理器(centralprocessingunit,简称为cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器420通常用于控制计算机设备400的总体操作,例如执行与计算机设备400进行数据或者通信相关的控制和处理等。本实施例中,处理器420用于运行存储器410中存储的程序代码或者处理数据。

    网络接口430可包括无线网络接口或有线网络接口,该网络接口430通常用于在计算机设备16与其他计算机设备之间建立通信链接。例如,网络接口1630用于通过网络将计算机设备16与外部终端相连,在计算机设备16与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,简称为gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,简称为wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。

    需要指出的是,图4仅示出了具有部件410-430的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。

    在本实施例中,存储于存储器410中的预测订单取消的建模方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器420)所执行,以完成本申请。

    实施例四

    本实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的预测订单取消的建模方法的步骤。

    本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smartmediacard,简称为smc),安全数字(securedigital,简称为sd)卡,闪存卡(flashcard)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中的预测订单取消的建模方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

    以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。


    技术特征:

    1.一种预测订单取消的建模方法,其特征在于,所述方法包括:

    选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;

    从所述训练样本中选取特征信息进行关联;

    对关联后的数据进行预处理;

    对预处理后的数据进行机器学习模型的训练、评估和更新;

    将训练后的模型部署到线上环境,所述训练后的模型用于预测司机取消订单的概率。

    2.根据权利要求1所述的方法,其特征在于,所述训练样本包括:

    预设区域且第一预设时长内的订单数据,所述订单数据包括被司机响应过的订单。

    3.根据权利要求1所述的方法,其特征在于,所述特征信息包括:订单基础、车辆基础信息、司机或者用户的基础信息、场景信息、司机或者用户的历史画像信息;

    所述订单基础信息包括:价格、起终点里程、订单车型、下单时间、订单支付方式、所在城市和/或是否跨城;

    所述车辆基础信息包括:车辆类型和/或大小;

    所述司机或者用户基础信息包括:会员级别,所述会员级别对应与其履约能力和/或经验;

    所述场景信息包括:接单距离和天气,所述接单距离包括:司机收到播单推送时,距离订单起点的直线距离;

    所述司机或者用户历史画像信息包括:过去预设天数司机响应后的取消率,和/或过去预设天数司机接单距离的中位数。

    4.根据权利要求1所述的方法,其特征在于,所述对关联后的数据进行预处理,包括:

    若司机为新司机,则数据值为空;对于基础信息,不做控制填充,通过具有处理缺失值的模型填充;对于统计画像信息,则用对应城市过往第二预设时长内的司机的画像信息平均值进行填充;或者,

    采用威尔逊平滑技术,获取用户/司机在历史订单数据少时的特征信息。

    5.根据权利要求1所述的方法,其特征在于,所述对预处理后的数据进行机器学习模型的训练、评估和更新,包括:

    结合模型效果、训练成本、可解释性、工程成本,选择预设模型作为训练模型,并通过网格搜索方式确定模型超参数;

    选择经典排序指标进行评估;

    每隔所述第三预设时长使用最新数据自动更新一版模型。

    6.一种预测订单取消的建模装置,其特征在于,所述装置包括:

    选取模块,用于选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;

    关联模块,用于从所述正样本中选取特征信息进行关联;

    预处理模块,用于对关联后的数据进行预处理;

    训练模块,用于对预处理后的数据进行机器学习模型的训练、评估和更新;

    排序模块,用于将训练后的模型部署到线上环境,所述训练后的模型用于预测司机取消订单的概率。

    7.根据权利要求6所述的装置,其特征在于,所述训练样本包括:

    预设区域且第一预设时长内的订单数据,所述订单数据包括被司机响应过的订单。

    8.根据权利要求6所述的装置,其特征在于,所述预处理模块,用于:

    若司机为新司机,则数据值为空;对于基础信息,不做控制填充,通过具有处理缺失值的模型填充;对于统计画像信息,则用对应城市第二预设时长的司机的画像信息平均值进行填充;或者,采用威尔逊平滑技术,获取用户/司机在历史订单数据少的情况下的特征信息;

    所述训练模块,用于:

    结合模型效果、训练成本、可解释性、工程成本,选择预设模型作为训练模型,并通过网格搜索方式确定模型超参数;

    选择经典排序指标进行评估;

    每隔所述第三预设时长,使用最新数据自动更新一版模型。

    9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至5任一项所述方法的步骤。

    技术总结
    本申请实例公开了一种预测订单取消的建模方法、装置、计算机设备及计算机可读存储介质。选取历史订单的交易数据作为训练样本,并从所述训练样本中选取正样本和负样本,所述正样本为未完成而取消的订单数据,所述负样本为已完成的订单;对关联后的数据进行预处理;对预处理后的数据进行机器学习模型的训练、评估和更新;将离线训练后的模型部署到线上环境。在线上服务环节,对于每张订单,我们获取周围N名司机,使用模型预测这N名司机若与该订单匹配后由于不合适而被迫取消的概率,并将其中取消概率较高的司机滤除,仅向剩余司机推送该订单,从而为用户挑选服务质量更佳、更合适的司机,提升用户体验以及平台效率。

    技术研发人员:王德健;周友茸;石辕
    受保护的技术使用者:深圳依时货拉拉科技有限公司
    技术研发日:2020.12.21
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-18255.html

    最新回复(0)