本发明属于机器学习
技术领域:
,尤其涉及一种业务模型超参数配置确定方法、装置、设备及存储介质。
背景技术:
:通信运营商的各种系统每天会产生大量的业务数据,这些数据经过分析处理后具有巨大的应用价值。目前,一般采用机器学习的手段建立合适的模型来分析处理这些业务数据。对于给定的任务,建立并部署有效的模型通常包括两个主要的部分,其一是选择合适的模型,其二则是针对该模型选择合适的超参数,从而为模型的性能提供保障。模型的超参数的调整优化,目前业界通常采用两种方法:一是使用人工调参法,建模人员根据自身经验,实现模型的超参数效果调优,但是需要丰富的个人经验。二是利用优化引擎进行参数自动调优评估,其超参数的调整优化需要基于随机搜索、网格搜索、贝叶斯优化等方法,建立一套用于目标模型的超参数自动调优功能模块,通过对模型的不断迭代训练自动评估得到目标函数的最优超参数配置。但是,基于优化引擎的调优方案,每次在新的建模任务时,超参数初始值设置都重新开始,需要代入计算大量的超参数组合,速度慢,效率低,耗费时间长。技术实现要素:本发明实施例提供一种业务模型超参数配置确定方法、装置、设备及计算机存储介质,能够在历史经验的基础上,形成初始超参数配置,提升模型训练的收敛速度,减少训练次数,提升系统效率。第一方面,本发明实施例提供一种业务模型超参数配置确定方法,方法包括:获取目标训练任务,目标训练任务包括训练目标,训练目标包括是否离网、是否降档、是否订购不限量套餐中的至少一个;根据训练目标,在预设的历史任务表中确定多个第一训练任务;计算目标训练任务与多个第一训练任务中每个第一训练任务之间的距离;将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集,其中,第二训练任务是多个第一训练任务中距离小于预设阈值的第一训练任务;将目标超参数样本集发送至模型训练模块,以使模型训练模块基于目标超参数样本集和第一超参数样本集,构建多个业务模型,训练多个业务模型,在多个训练后的业务模型中确定目标模型及目标超参数配置,其中,第一超参数样本集是根据预设超参数搜索算法得到的。在一种可选的实施方式中,获取目标训练任务之前,该方法还包括:预设多个训练目标和多个模型特征字段,以使目标用户在预设的多个训练目标和多个模型特征字段中选择所需的训练目标和模型特征字段生成目标训练任务。在一种可选的实施方式中,模型特征字段包括年龄、性别、平均收入arpu、每月平均流量dou、目标应用流量中的至少一个。在一种可选的实施方式中,计算目标训练任务与多个第一训练任务中每个第一训练任务之间的距离,包括:计算目标训练任务的模型特征字段和多个第一训练任务中每个第一训练任务的模型特征字段之间的距离。在一种可选的实施方式中,将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集之后,方法还包括:根据多个预设的影响因子,确定目标超参数样本集中每个超参数样本对应的距离的加权距离;在超参数样本对应的加权距离不满足预设条件时,在目标超参数样本集中删除超参数样本。在一种可选的实施方式中,将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集,包括:根据预设的距离的阈值,在多个第一训练任务中确定多个第二训练任务;根据多个第二训练任务,在预设的历史超参数表中确定多个第二训练任务中每个第二训练任务的超参数配置;将每个第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集。在一种可选的实施方式中,该方法还包括:将目标训练任务和目标超参数配置,存入历史训练任务表和历史超参数表。在一种可选的实施方式中,多个第一训练任务的训练目标与目标训练任务的训练目标相同。第二方面,本发明实施例提供了一种业务模型超参数配置确定装置,装置包括:第一获取模块,被配置为获取目标训练任务,目标训练任务包括训练目标,训练目标包括是否离网、是否降档、是否订购不限量套餐中的至少一个;第一判断模块,被配置为根据训练目标,在预设的历史任务表中确定多个第一训练任务;第一计算模块,被配置为计算目标训练任务与多个第一训练任务中每个第一训练任务之间的距离;超参数样本构建模块,被配置为将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集,其中,第二训练任务是多个第一训练任务中距离小于预设阈值的第一训练任务;信息发送模块,被配置为将目标超参数样本集发送至模型训练模块,以使模型训练模块基于目标超参数样本集和第一超参数样本集,构建多个业务模型,训练多个业务模型,在多个训练后的业务模型中确定目标模型及目标超参数配置,其中,第一超参数样本集是根据预设超参数搜索算法得到的。第三方面,本发明实施例提供了一种业务模型超参数配置确定设备,设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现第一方面及第一方面任一可选实施方式提供的业务模型超参数配置确定方法。第四方面,本发明实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面及第一方面任一可选实施方式提供的业务模型超参数配置确定方法。本发明实施例的业务模型超参数配置确定方法、装置、设备及存储介质,能够根据获取的目标训练任务,在预设的历史任务表中确定多个第一训练任务;并根据目标训练任务与多个第一训练任务中每个第一训练任务之间的距离,以及第一训练任务的超参数配置,得到目标训练任务的目标超参数样本集,基于目标超参数样本集,确定目标训练任务对应的模型的初始超参数配置,将初始超参数配置作为高优先级配置代入模型训练模块的优化引擎中进行超参数调优,由于是在历史经验的基础上,形成的初始超参数配置,更接近目标任务的最优超参数配置,所以极大提升了模型训练的收敛速度,大大减少了训练次数,提升系统效率,可以快速获得全局最优解。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例提供的一种业务模型超参数配置确定方法的流程示意图;图2是本发明实施例提供的样本控制器功能模块的示意图;图3是本发明实施例提供的一种业务模型超参数配置确定装置的结构示意图;图4是本发明实施例提供的一种业务模型超参数配置确定设备的结构示意图。具体实施方式下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本发明,而不是限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。数据建模是一项技术门槛相对较高的工作,其大部分的工作内容集中在模型超参数的调整优化上,目前业界通常采用两种方法:方案一是使用人工调参法,建模人员根据自身主观经验,结合模型拟合度及各项指标评分情况等进行手动调参,通过不断尝试更改超参数值,进行多种方案下的模型结果比较,实现模型的效果调优。但是,人工调参方法需要建模人员具备较强的专业技能和丰富的建模经验,通过多次设定超参数代入训练过程,进行横向效果比较来选择最佳方案,其最终调参结果很大程度取决于个人业务水平,不易获得调参最佳效果,且手工调参过程耗费时间长,工作量大,不同场景下的调参效率和效果差异较大。方案二是利用ai技术进行模型超参数自动调参,由系统封装数据提取、处理、建模等功能,对模型进行参数自动调优评估,实现全流程自动模型挖掘。其中,超参数的调整优化主要是基于随机搜索、网格搜索、贝叶斯优化等方法,建立一套用于目标函数的超参数自动调优功能模块,通过对模型的不断迭代训练自动评估得到目标函数的最优超参数方案。但是,基于贝叶斯、网格搜索、随机搜索等自动参数调优方法,将选择超参数的过程交给系统自动完成,但也都存在一定的缺陷,如随机搜索算法的优化方案随机性太强,不同场景下的优化效率差异大;网格搜索需要耗费大量的计算资源和时间;贝叶斯优化算法容易陷入局部最优值等等。此外,此类方案每次在新的建模任务时,参数初始值设置都重新开始,通常需要代入计算大量的超参数组合代理模型,速度慢,效率低,耗费时间长。随着模型训练成果越来越多,新的模型优化任务仍需按同一步骤从头开始,前期训练经验在后续训练未得到有效利用,在训练任务特别多的场景下,大量的先验知识对后续模型优化任务无明显指导作用。基于上述问题,本申请提出一种业务模型超参数配置确定方法、装置、设备及存储介质,结合前文中的方案二,在优化流程中增加样本控制器模块,通过该模块,储存先前的所有模型训练任务的最终超参数优化配置方案作为经验库,在构建新的模型训练任务时,在同种模型目标前提下,将新模型任务属性跟经验库中以往的任务比较,计算它们的基因相似度,再通过特定算法进行排名比较,按概率高低选取其中的超参数样本配置方案,作为高优先级方案代入优化引擎中进行调参,从而极大提升模型训练收敛速度,快速获得全局最优解。下面首先介绍本申请实施例提供的一种业务模型超参数配置确定方法,该方法可以基于前文中的样本控制器实现。请参考附图1,一种业务模型超参数配置确定方法的流程示意图,该方法可以包括步骤s101-s105。步骤s101,获取目标训练任务,目标训练任务包括训练目标,训练目标包括是否离网、是否降档、是否订购不限量套餐中的至少一个。样本控制器获取来自用户的目标训练任务,目标训练任务可以是用户自主输入的,也可以是用户根据预设的任务组成要素进行选择组合生成的。目标训练任务包括训练目标,训练目标包括是否离网、是否降档、是否订购不限量套餐中的至少一个,随着业务的发展,训练目标也可以增加其它训练目标。在一个示例中,样本控制器功能模块图可以参考图2。样本控制器可以包括配置样本经验库模块、概率公式生成器、选择概率计算器、样本方案选择器。配置样本经验库模块,经验库中存储所有历史任务信息,主要包含两张表:历史训练任务表,存储历史任务的配置信息、复用次数等,设定唯一主键“超参数配置方案”与历史超参数表关联,历史超参数表中存储任务的具体超参方案,将所有算法中可能涉及的参数进行制表,填充该任务最佳参数值,对于不包含某些参数的算法,填充空值。历史训练任务表各字段说明如下:入库时间:该参数配置方案纳入数据库的时间,设计该字段的目的是考虑到部分模型的训练与时间具备相关性;地域:存储参数配置方案的地域属性,相似地域的模型具备相似性;目标串:存储模型的训练目标的维值,只有相同训练目标的优化任务才有比较意义;特征串:模型训练的输入特征字段,梳理全量的模型训练常用特征库,将其按顺序以二进制形式编码,每个特征在二进制串的位置固定,如果某个特征参与模型训练,则将其位置值设1,否则为0。为了存储方便,特征串最终以十六进制数存储。复用次数:该样本方案被其他训练任务所重复使用的次数。概率公式生成器,通过历史训练任务的样本方案,计算新优化任务与历史任务的回归公式,用以评估他们的相似度。将历史方案库的样本按80%及20%分为两份集合a和b,将b中各样本逐一与a中样本比对,计算样本方案间欧式距离distab并比较其与历史样本近似度,设a,b分别为a,b中样本方案,则a,b近似度为一旦dappro<k(k为常量,可配置),则认为a、b为近似超参数配置方案。遍历a、b中所有样本方案后,得到多组近似解集合,将这多组集合作为正样本,并选取一定比例负样本(非近似解),共同输入xgboost算法运算,从而得到新老任务具备近似解的概率模型:fprob=compare_func(dnew,dn)(模型输出为0-1之间数值,代表两个样本方案的近似度,dnew={xnew_1,xnew_2,xnew_3...xnew_n}为新任务的训练特征集,dn={x1,x2,x3...xn}为比较的历史任务训练特征集))概率模型生成器无须每次任务时工作,按月训练并输出fprob即可。选择概率计算器,接收新任务dnew={xnew_1,xne_w2,xne_w3...xne_w}时,通过fprob与历史样本dn={x1,x2,x3...xn}逐一比较,获得历史样本和新任务未近似解的概率fnew。样本方案选择器,同时设定通过样本控制器生成的样本参与模型初始训练的比例,将3中结果fnew按自高到低选择历史库中超参数配置方案参与新任务的训练。步骤s102,根据训练目标,在预设的历史任务表中确定多个第一训练任务。样本控制器中预先存储有历史任务表,历史任务表中存储有多个训练好的模型以及与模型对应的超参数配置。此步骤中,样本控制器可以根据目标训练任务中的训练目标在历史任务表中确定多个第一训练任务。在一个示例中,多个第一训练任务中每个第一训练任务的训练目标均与目标训练任务的训练目标相同。例如,将目标训练任务和历史训练任务表进行比对,获得具有相同训练目标y的历史样本集合fsame。步骤s103,计算目标训练任务与多个第一训练任务中每个第一训练任务之间的距离。样本控制器在找到多个第一训练任务之后,会判断每个第一训练任务与目标训练任务的相似性,具体的可以是计算两者的距离,根据距离的值判断相似性的高低。在一个示例中,每个训练任务中还可以包括模型特征字段,模型特征字段可以包括年龄、性别、平均收入arpu、每月平均流量dou、目标应用流量中的一个或多个。计算目标训练任务与第一训练任务之间的距离,具体可以是,计算目标训练任务的模型特征字段和多个第一训练任务中每个第一训练任务的模型特征字段之间的距离。在一个示例中,将目标训练任务特征字段dnew={xnew_1,xnew_2,xnew_3...xnew_n},通过fprob与历史样本dn={x1,x2,x3...xn}逐一比较,获得历史样本和新任务为近似度评估概率,将近似度大于设定阀值f的历史样本记为集合fnew。步骤s104,将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集,其中,第二训练任务是多个第一训练任务中距离小于预设阈值的第一训练任务。在此步骤中,样本控制器会先根据每个距离的值和预设的关于距离的阈值,在多个第一训练任务中确定多个第二训练任务。第二训练任务相比第一训练任务与目标训练任务的相似度更高。将第二训练任务作为一个初始的超参数样本,以此构建目标超参数样本集。步骤s105,将目标超参数样本集发送至模型训练模块,以使模型训练模块基于目标超参数样本集和第一超参数样本集,构建多个业务模型,训练多个业务模型,在多个训练后的业务模型中确定目标模型及目标超参数配置,其中,第一超参数样本集是根据预设超参数搜索算法得到的。通过预设超参数搜索算法构建第一超参数样本集。结合第一超参数样本集、目标超参数样本集和预设的比例,构建第二超参数样本集。将第二超参数样本集输入模型训练模块的超参数优化引擎寻找最佳超参数样本集,基于最佳超参数样本集中的每个样本构建业务模型,并进行训练,最后根据训练结果,选择最优的业务模型,即目标模型。目标模型对应的超参数配置就是目标超参数配置。本申请实施例提供的一种业务模型超参数配置确定方法,在进行超参数自动训练任务时,前置样本控制器。通过样本控制器,储存先前优化好的超参数和模型方案,即预设历史任务表。该方法能够在预设的历史任务表中确定多个第一训练任务,并根据多个第一训练任务得到目标超参数样本集。将目标超参数样本集作为原始参数样本进行后续训练,从而使大量的历史经验能够应用到新训练流程中去,大大节省了模型超参数优化的时间,提升了模型收敛的效率。在一个实施例中,步骤s101之前,业务模型超参数配置确定方法还可以包括步骤s106。步骤s106,预设多个训练目标和多个模型特征字段,以使目标用户在预设的多个训练目标和多个模型特征字段中选择所需的训练目标和模型特征字段生成目标训练任务。用户可以通过选择训练目标和特征字段的方式,构建不同的目标训练任务。系统可以根据用户的选择生成目标训练任务。例如,用户设定业务模型的训练目标(y=target_func(x1,x2…xn))(如:是否离网、是否降档、是否订购不限量套餐等等)和训练模型的特征字段d={x1,x2…xn}(年龄、性别、arpu、dou、微信流量等等)。在一个实施例中,将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集之后,方法还包括步骤s107-s108。步骤s107,根据多个预设的影响因子,确定目标超参数样本集中每个超参数样本对应的距离的加权距离。在步骤s103中确定的距离的过程中,部分因素由于某些原因可能不适合加入到距离的计算过程中,如果直接加入可能增加计算过程的复杂度或者与其它一些因素存在冲突,导致结果可能会存在一定误差。在这种情况下,可以根据未直接加入到距离计算中的一些因子,直接计算距离的加权距离。例如,单纯的特征串相似度比对并未考虑到时间、地域等其他影响模型准确性的信息,此时可以用于计算加权距离。步骤s108,在超参数样本对应的加权距离不满足预设条件时,在目标超参数样本集中删除超参数样本。考虑到在计算加权距离后,部分样本不再满足预设条件,此时可以将其在目标超参数样本集中删除。在一个示例中,由于单纯的特征串相似度比对并未考虑到时间、地域等其他影响模型准确性的信息,需要对不同的属性综合输入分配不同的权重值q={q1,q2…qn}参与最佳参数方案的计算。针对筛选出的样本方案,匹配表1中的所有属性作为输入变量并进行加权求和并输出每条样本方案的支持度评分f=g∑qd fnew即加权距离。本申请实施例提供的一种业务模型超参数配置确定方法,在构建目标超参数样本集的过程中不仅考虑了模型特征字段,还考虑了时间、地域等其他影响模型准确性的信息,因此得到的目标超参数样本集的参考性更高。将目标超参数样本集作为原始参数样本进行后续训练,效果更好,能提升模型收敛的效率。在一个实施例中,步骤s104,可以具体包括步骤s1041-s1043。步骤s1041,根据预设的距离的阈值,在多个第一训练任务中确定多个第二训练任务;步骤s1042,根据多个第二训练任务,在预设的历史超参数表中确定多个第二训练任务中每个第二训练任务的超参数配置;步骤s1043,将每个第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集。在一个示例中,业务模型超参数配置确定方法还可以包括步骤s109。步骤s109,将目标训练任务和目标超参数配置,存入历史训练任务表和历史超参数表。在一个具体示例中,为了验证基于样本控制器的超参数优化方法,申请人用不同算法、不同训练特征变量的多个模型调优任务为例,分别应用于网格搜索超参数优化和基于样本控制器的超参数优化,计算各个任务达到设定f1值所消耗时间,得出的实验结果如表1所示。表1模型调优对比表任务列表特征数f1网格遍历优化随机搜索优化样本控制器优化模型1:xgboost500.811h21m24s58m28s12m32s模型2:xgboost350.7942min22s43m17s37m02s模型3:gbdt700.771h22m37s1h14m21s47m11s模型4:randomforest620.811h11min13s1h12m12s49m12s模型5:c5.0300.7837min42s41m20s2m32s由实验结果可以看出,超参数调优在达到相同优化目标前提下,本申请的方案所消耗的时间明显少于随机优化和网格优化。本申请提出的基于样本控制器的超参数优化方法,结合与历史优化任务的共性特征,充分利用历史经验,相比于传统参数优化方法,有效提升优化收敛效率,在相同时间段内能够完成更多的推理任务,加速数据挖掘的规模推广,快速评估、提升数据挖掘应用效果。本申请实施例提供的一种业务模型超参数配置确定方法,能够在预设的历史任务表中确定多个第一训练任务,并根据多个第一训练任务得到目标超参数样本集。将目标超参数样本集作为原始参数样本进行后续训练,从而使大量的历史经验能够应用到新训练流程中去,大大节省了模型超参数优化的时间,提升了模型收敛的效率,并且在得到目标模型和目标超参数配置后,将其存入历史训练任务表和历史超参数表,可以实现良性循环。基于上述实施例提供的业务模型超参数配置确定方法,相应地,本申请实施例还提供一种业务模型超参数配置确定装置,如图3所示,该装置可以包括第一获取模块301、第一判断模块302、第一计算模块303、超参数样本构建模块304、信息发送模块305。第一获取模块301,被配置为获取目标训练任务,目标训练任务包括训练目标,训练目标包括是否离网、是否降档、是否订购不限量套餐中的至少一个。第一判断模块302,被配置为根据训练目标,在预设的历史任务表中确定多个第一训练任务。第一计算模块303,被配置为计算目标训练任务与多个第一训练任务中每个第一训练任务之间的距离。超参数样本构建模块304,被配置为将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集,其中,第二训练任务是多个第一训练任务中距离小于预设阈值的第一训练任务。信息发送模块305,被配置为将目标超参数样本集发送至模型训练模块,以使模型训练模块基于目标超参数样本集和第一超参数样本集,构建多个业务模型,训练多个业务模型,在多个训练后的业务模型中确定目标模型及目标超参数配置,其中,第一超参数样本集是根据预设超参数搜索算法得到的。本申请实施例提供的一种业务模型超参数配置确定装置,第一判断模块302可以根据第一获取模块301的数据确定多个第一训练任务,第一训练任务与目标训练任务的训练目标相同。超参数样本构建模块304和第一计算模块303能够根据第一判断模块302的结果得到目标超参数样本集。将目标超参数样本集作为原始参数样本进行后续训练,从而使大量的历史经验能够应用到新训练流程中去,大大节省了模型超参数优化的时间,提升了模型收敛的效率。在一个实施例中,该装置还可以包括任务设置模块。任务设置模块,被配置为在获取目标训练任务之前,预设多个训练目标和多个模型特征字段,以使目标用户在预设的多个训练目标和多个模型特征字段中选择所需的训练目标和模型特征字段生成目标训练任务。在一个示例中,任务设置模块中的模型特征字段包括年龄、性别、平均收入arpu、每月平均流量dou、目标应用流量中的至少一个。在一个示例中,第一计算模块303具体被配置为计算目标训练任务的模型特征字段和多个第一训练任务中每个第一训练任务的模型特征字段之间的距离。在一个实施例中,该装置还可以包括距离加权模块和噪声数据处理模块。距离加权模块,被配置为在将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集之后,根据多个预设的影响因子,确定目标超参数样本集中每个超参数样本对应的距离的加权距离。噪声数据处理模块,被配置为在超参数样本对应的加权距离不满足预设条件时,在目标超参数样本集中删除超参数样本。在一个实施例中,超参数样本构建模块304,可以包括:第一判断单元,被配置为根据预设的距离的阈值,在多个第一训练任务中确定多个第二训练任务。第二判断单元,被配置为根据多个第二训练任务,在预设的历史超参数表中确定多个第二训练任务中每个第二训练任务的超参数配置。超参数样本集构建单元,被配置为将每个第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集。在一个示例中,该装置还可以包括信息存储模块。信息存储模块,被配置为将目标训练任务和目标超参数配置,存入历史训练任务表和历史超参数表。在一个示例中,第一判断模块302中确定的多个第一训练任务的训练目标与目标训练任务的训练目标相同。上述各实施例提供的业务模型超参数配置确定方法可以由图4所示的业务模型超参数配置确定设备执行。业务模型超参数配置确定设备可以包括处理器401以及存储有计算机程序指令的存储器402。具体地,上述处理器401可以包括中央处理器(centralprocessingunit,cpu),或者特定集成电路(applicationspecificintegratedcircuit,asic),或者可以被配置成实施本发明实施例的一个或多个集成电路。存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(harddiskdrive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,usb)驱动器或者两个或更多个以上这些的组合。在一个实例中,存储器402可以包括可移除或不可移除(或固定)的介质,或者存储器402是非易失性固态存储器。存储器402可在综合网关容灾设备的内部或外部。在一个实例中,存储器402可以是只读存储器(readonlymemory,rom)。在一个实例中,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。存储器402可以包括只读存储器(rom),随机存取存储器(ram),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述任一实施例提供的业务模型超参数配置确定方法,并达到该方法达到的相应技术效果,为简洁描述在此不再赘述。在一个示例中,业务模型超参数配置确定设备还可包括通信接口403和总线410。其中,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。通信接口403,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。总线410包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(acceleratedgraphicsport,agp)或其他图形总线、增强工业标准架构(extendedindustrystandardarchitecture,eisa)总线、前端总线(frontsidebus,fsb)、超传输(hypertransport,ht)互连、工业标准架构(industrystandardarchitecture,isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。该业务模型超参数配置确定设备可以在历史经验的基础上,形成初始超参数配置,提升模型训练的收敛速度,减少训练次数,提升系统效率。结合上述实施例中的业务模型超参数配置确定方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种业务模型超参数配置确定方法。需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(applicationspecificintegratedcircuit,asic)、适当的固件、插件、功能卡等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(radiofrequency,rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本
技术领域:
的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。当前第1页1 2 3 
技术特征:1.一种业务模型超参数配置确定方法,其特征在于,包括:
获取目标训练任务,所述目标训练任务包括训练目标,所述训练目标包括是否离网、是否降档、是否订购不限量套餐中的至少一个;
根据所述训练目标,在预设的历史任务表中确定多个第一训练任务;
计算所述目标训练任务与所述多个第一训练任务中每个第一训练任务之间的距离;
将第二训练任务的超参数配置作为一个超参数样本,以得到所述目标训练任务的目标超参数样本集,其中,所述第二训练任务是所述多个第一训练任务中所述距离小于预设阈值的所述第一训练任务;
将所述目标超参数样本集发送至模型训练模块,以使模型训练模块基于所述目标超参数样本集和第一超参数样本集,构建多个业务模型,训练所述多个业务模型,在多个训练后的业务模型中确定目标模型及目标超参数配置,其中,所述第一超参数样本集是根据预设超参数搜索算法得到的。
2.根据权利要求1所述的方法,其特征在于,所述获取目标训练任务之前,所述方法还包括:
预设多个训练目标和多个模型特征字段,以使目标用户在预设的多个训练目标和多个模型特征字段中选择所需的训练目标和模型特征字段生成目标训练任务。
3.根据权利要求2所述的方法,其特征在于,所述模型特征字段包括年龄、性别、平均收入arpu、每月平均流量dou、目标应用流量中的至少一个。
4.根据权利要求2所述的方法,其特征在于,所述计算所述目标训练任务与所述多个第一训练任务中每个第一训练任务之间的距离,包括:
计算所述目标训练任务的模型特征字段和多个所述第一训练任务中每个第一训练任务的模型特征字段之间的距离。
5.根据权利要求1所述的方法,其特征在于,所述将第二训练任务的超参数配置作为一个超参数样本,以得到所述目标训练任务的目标超参数样本集之后,所述方法还包括:
根据多个预设的影响因子,确定所述目标超参数样本集中每个超参数样本对应的距离的加权距离;
在所述超参数样本对应的加权距离不满足预设条件时,在所述目标超参数样本集中删除所述超参数样本。
6.根据权利要求1所述的方法,其特征在于,所述将第二训练任务的超参数配置作为一个超参数样本,以得到所述目标训练任务的目标超参数样本集,包括:
根据预设的距离的阈值,在多个所述第一训练任务中确定多个第二训练任务;
根据所述多个第二训练任务,在预设的历史超参数表中确定所述多个第二训练任务中每个第二训练任务的超参数配置;
将所述每个第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将所述目标训练任务和所述目标超参数配置,存入历史训练任务表和历史超参数表。
8.根据权利要求1所述的方法,其特征在于,所述多个第一训练任务的训练目标与所述目标训练任务的训练目标相同。
9.一种业务模型超参数配置确定装置,其特征在于,包括:
第一获取模块,被配置为获取目标训练任务,所述目标训练任务包括训练目标,所述训练目标包括是否离网、是否降档、是否订购不限量套餐中的至少一个;
第一判断模块,被配置为根据所述训练目标,在预设的历史任务表中确定多个第一训练任务;
第一计算模块,被配置为计算所述目标训练任务与所述多个第一训练任务中每个第一训练任务之间的距离;
超参数样本构建模块,被配置为将第二训练任务的超参数配置作为一个超参数样本,以得到所述目标训练任务的目标超参数样本集,其中,所述第二训练任务是所述多个第一训练任务中所述距离小于预设阈值的所述第一训练任务;
信息发送模块,被配置为将所述目标超参数样本集发送至模型训练模块,以使模型训练模块基于所述目标超参数样本集和第一超参数样本集,构建多个业务模型,训练所述多个业务模型,在多个训练后的业务模型中确定目标模型及目标超参数配置,其中,所述第一超参数样本集是根据预设超参数搜索算法得到的。
10.一种业务模型超参数配置确定设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-8任意一项所述的一种业务模型超参数配置确定方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的一种业务模型超参数配置确定方法。
技术总结本发明实施例提供了一种业务模型超参数配置确定方法、装置、设备及存储介质,方法包括根据训练目标,在预设的历史任务表中确定多个第一训练任务;计算目标训练任务与多个第一训练任务中每个第一训练任务之间的距离;将第二训练任务的超参数配置作为一个超参数样本,以得到目标训练任务的目标超参数样本集,其中,第二训练任务是多个第一训练任务中距离小于预设阈值的第一训练任务;将目标超参数样本集发送至模型训练模块,以使模型训练模块基于目标超参数样本集和第一超参数样本集,确定目标模型及目标超参数配置。根据本发明实施例的方法,能够基于历史经验确定业务模型的超参数配置,极大提升了模型训练的收敛速度,减少了训练次数。
技术研发人员:刘亮;张晟
受保护的技术使用者:中国移动通信集团江苏有限公司;中国移动通信集团有限公司
技术研发日:2020.12.21
技术公布日:2021.03.12