本发明涉及边缘计算领域,尤其涉及一种决策模型的训练技术,以及基于该决策模型的调度方案。
背景技术:
1、边缘计算是一种计算范式,它在本地与附近服务器上执行用户任务。在分布式边缘计算的背景下,用户可以同时选择多个边缘服务器进行并行任务执行。分布式边缘计算中的考虑因素不仅限于边缘服务器支持的服务范围,还包括组合延迟的概念。例如,在从跨边缘用户或终端设备聚合数据进行分析时,必须考虑到上行/下行传输的延迟、边缘服务器之间的协作延迟以及固有的数据处理时间。将组合延迟最小化成为提高用户体验的重要使命。
2、近期的研究主要集中在实现资源高效的延迟最小化上,但现有研究均忽视了尾延迟效应这一关键方面。尾延迟是响应中超过指定阈值的延迟,通常使用第99个百分位(p99)来测量,以捕捉服务延迟的99%位于其下的阈值。在边缘计算中,长尾延迟,通常简称为尾延迟,可能导致严重的排队问题。此外,尾延迟通常出现在来自支付最高的用户的请求响应中,这些用户使用最多的计算资源。改善这些用户的体验尤为重要,考虑到服务响应与收入之间的反向关系,以及增加响应时间对用户体验的显著影响。然而,在分布式边缘计算中,尾延迟变得更加严重。在考虑的场景中,具有不同服务请求的任务可以同时在多个服务器上运行。例如,当用户u1的服务请求在所有五个边缘服务器上并行执行时,响应时间由最长的子任务时间确定,导致服务响应时间为310毫秒。这种情况被称为尾延迟的放大。每当用户的服务请求需要多个边缘服务器并行运行时,即使只有少数边缘服务器在并行执行期间显示较慢的响应时间,遇到慢执行的概率也会增加。这导致更高比例的服务请求经历尾延迟。
3、难以解决分布式边缘计算中尾延迟放大问题的原因包括以下几个方面:首先,动态边缘环境中用户请求具有随机性。其次,边缘服务器之间计算资源有限且异构,以及服务部署在边缘服务器上的不平衡,使尾延迟的优化面临着来自各种限制的复杂性。
技术实现思路
1、本发明针对现有技术中缺少长尾延迟的优化方法的缺点,提供了一种决策模型的训练方案,以及基于该决策模型的调度方案,基于强化学习的方法学习长尾延迟问题中的最优策略,以获得能够实现长尾延迟优化的决策模型。
2、为了解决上述技术问题,本发明通过下述技术方案得以解决:
3、一种决策模型的训练方法,在预设的仿真环境下,对待训练决策模型进行若干次训练,直至达到预设的训练完成条件,将相应的待决策模型作为决策模型输出;
4、所述仿真环境包括若干个仿真服务器,基于仿真服务器、所述仿真服务器的上行链路和所述仿真服务器的下行链路形成相应的仿真串行网络,所述仿真串行网络与所述仿真服务器一一对应;
5、对待训练决策模型进行一次训练的步骤如下:
6、获取当前各仿真串行网络所对应的状态参数;
7、获取当前时间步中所对应的样本服务请求;
8、将所述状态参数输入待训练决策模型,由所述待训练决策模型预测各仿真服务器处理各样本服务请求的概率,输出相应的行动决策;
9、基于所述行动决策处理各样本服务请求,并计算各样本服务请求所对应的奖励值,基于所述奖励值获得总奖励,所述总奖励用于更新待决策模型的模型参数;
10、其中,奖励值的获取方法包括以下步骤:
11、获取所述样本服务请求的延迟,生成相应的延迟分配奖励;
12、获取各仿真串行网络对应的任务队列长度,生成相应的队列长度惩罚;
13、基于所述延迟分配奖励和所述队列长度惩罚生成所述奖励值。
14、作为一种可实施方式:
15、所述状态参数包括:
16、与所述仿真串行网络的任务队列长度相对应的第一特征数据;
17、与所述仿真串行网络的响应时间相对应的第二特征数据;
18、与所述仿真串行网络的长尾延迟概率相对应的第三特征数据。
19、作为一种可实施方式:
20、所述第一特征数据包括任务队列长度的最大值、最小值、平均值和方差;
21、所述第二特征数据包括响应时间的拉普拉斯变换,以及所述拉普拉斯变换的一阶导数和二阶导数;
22、所述第三特征数据包括长尾延迟概率的概率上界,以及所述概率上界的一阶导数和二阶导数。
23、作为一种可实施方式,所述奖励值的计算公式为:
24、
25、其中:
26、rn表示第n个样本服务请求对应的奖励值;
27、φn表示第n个样本服务请求对应的延迟分配奖励;
28、表示第n个样本服务请求对应的队列长度惩罚;
29、延迟分配奖励φn的计算公式为:
30、
31、其中:
32、β1为预设的第一奖励参数;
33、β2为预设的第二奖励参数;
34、dn表示第n个样本服务请求对应的延迟;
35、γ为预设的延迟阈值;
36、所述第一奖励参数和第二奖励参数为正参数;
37、队列长度惩罚的计算公式为:
38、
39、其中:
40、β3为预设的第三奖励参数,其为正参数;
41、表示第j个仿真串行网络中上行链路的任务队列长度;
42、表示第j个仿真串行网络中仿真服务器的任务队列长度;
43、表示第j个仿真串行网络中下行链路的任务队列长度。
44、作为一种可实施方式:
45、对待训练决策模型进行若干轮训练;
46、每轮训练中,固定待训练决策模型的模型参数后进行若干次训练;
47、基于蒙特卡罗策略梯度,在每轮训练中根据每次所得的总奖励更新模型参数;
48、作为一种可实施方式:
49、基于本轮中各次所对应的状态参数、行动决策和总奖励,通过梯度上升原则更新所述待训练决策模型的模型参数;
50、基于第f次训练所对应的状态参数、行动决策和总奖励进行参数更新的公式为:
51、
52、其中:
53、θ’表示更新后的模型参数;
54、θ表示更新前的模型参数;
55、α表示权重参数;
56、σ表示折扣因子;
57、g表示相应的累积折扣奖励,其中f表示本轮中总训练次数,rm表示第m次训练所对应的总奖励;
58、i表示服务的集合;
59、表示相应的对数概率,其中π表示策略函数,表示第f次训练中第i种服务所对应的行动决策,sf表示第f次训练所对应的状态参数。
60、作为一种可实施方式,待训练决策模型包括:
61、一共享表示层,输入是所述状态参数,用于生成各样本服务请求所对应的并行计划集,所述并行计划集包含若干候选组,每个候选组包含至少一个仿真服务器;一切片模块,用于将所述并行计划集按服务类型进行分发;
62、若干服务分支网络,与所述服务类型一一对应,各服务分支网络均包括相连的计算模块和动作模块;所述计算模块,输入是与其服务类型相对应的并行计划集,用于计算所述并行计划集中各候选组实现对应样本服务请求的概率,获得第一概率;所述动作模块,输入是相应的第一概率,用于计算相应仿真服务器处理对应样本服务请求的概率,获得第二概率;
63、一输出层,输入是各动作模块的输出,用于基于各第二概率生成相应的行动决策并输出。
64、一种决策模型的训练系统,包括:
65、仿真环境,包括若干个仿真服务器,基于仿真服务器、所述仿真服务器的上行链路和所述仿真服务器的下行链路形成相应的仿真串行网络,所述仿真串行网络与所述仿真服务器一一对应;
66、训练模块,用于对待训练决策模型进行若干次训练,直至达到预设的训练完成条件,将相应的待决策模型作为决策模型输出;
67、所述训练模块包括:
68、获取当前各仿真串行网络所对应的状态参数;
69、请求获取单元,获取当前时间步所对应的中样本服务请求;
70、训练单元,用于将所述状态参数输入待训练决策模型,由所述待训练决策模型预测各仿真服务器处理各样本服务请求的概率,输出相应的行动决策;
71、计算单元,当仿真环境基于所述行动决策处理各样本服务请求后,计算各样本服务请求所对应的奖励值,基于所述奖励值获得总奖励,所述总奖励用于更新待决策模型的模型参数;
72、其中,奖励值的获取方法包括以下步骤:
73、获取所述样本服务请求的延迟,生成相应的延迟分配奖励;
74、获取各仿真串行网络对应的任务队列长度,生成相应的队列长度惩罚;
75、基于所述延迟分配奖励和所述队列长度惩罚生成所述奖励值。
76、一种调度方法,应用于边缘计算环境下对服务请求的响应,所述边缘计算环境包括若干个边缘服务器,基于边缘服务器、所述边缘服务器的上行链路和所述边缘服务器的下行链路形成相应的串行网络,所述串行网络与所述边缘服务器一一对应;
77、调度方法包括以下步骤:
78、获取当前边缘计算环境的状态参数;
79、获取待处理服务请求;
80、将所述状态参数输入决策模型,由所述决策模型输出与各处理服务请求相对应的行动决策,所述决策模型为根据上述任意一项训练方法训练获得的决策模型;
81、基于所述行动决策和待处理服务请求,生成相应的分布式任务,并将所述分布式任务分配给对应的边缘服务器。
82、一种调度系统,应用于边缘计算环境下对服务请求的响应,所述边缘计算环境包括若干个边缘服务器,基于边缘服务器、所述边缘服务器的上行链路和所述边缘服务器的下行链路形成相应的串行网络,所述串行网络与所述边缘服务器一一对应;
83、调度系统包括:
84、状态获取单元,用于获取当前边缘计算环境的状态参数;
85、请求接收单元,用于获取待处理服务请求;
86、行动生成单元,用于将所述状态参数输入决策模型,由所述决策模型输出与各处理服务请求相对应的行动决策,所述决策模型为根据上述任意一项训练方法训练获得的决策模型;
87、执行单元,用于基于所述行动决策和待处理服务请求,生成相应的分布式任务,并将所述分布式任务分配给对应的边缘服务器。
88、本发明由于采用了以上技术方案,具有显著的技术效果:
89、本发明提供了一种在边缘计算环境下,基于强化学习的决策模型训练方法,通过借助强化学习的方法,来学习长尾延迟问题中的最优决策,使所得决策模型在实际应用中输出能够有效降低边缘网络中的长尾延迟效应的最优行动决策,从而显著降低服务延迟,提高用户服务体验。
1.一种决策模型的训练方法,其特征在于,在预设的仿真环境下,对待训练决策模型进行若干次训练,直至达到预设的训练完成条件,将相应的待决策模型作为决策模型输出;
2.根据权利要求1所述的一种决策模型的训练方法,其特征在于:
3.根据权利要求2所述的一种决策模型的训练方法,其特征在于:
4.根据权利要求1所述的一种决策模型的训练方法,其特征在于,所述奖励值的计算公式为:
5.根据权利要求1所述的一种决策模型的训练方法,其特征在于:
6.根据权利要求5所述的一种决策模型的训练方法,其特征在于:
7.根据权利要求1所述的一种决策模型的训练方法,其特征在于,待训练决策模型包括:
8.一种决策模型的训练系统,其特征在于,包括:
9.一种调度方法,应用于边缘计算环境下对服务请求的响应,所述边缘计算环境包括若干个边缘服务器,基于边缘服务器、所述边缘服务器的上行链路和所述边缘服务器的下行链路形成相应的串行网络,所述串行网络与所述边缘服务器一一对应;
10.一种调度系统,应用于边缘计算环境下对服务请求的响应,所述边缘计算环境包括若干个边缘服务器,基于边缘服务器、所述边缘服务器的上行链路和所述边缘服务器的下行链路形成相应的串行网络,所述串行网络与所述边缘服务器一一对应;
