模型训练方法、装置、计算机设备及存储介质与流程

专利2022-07-08 113

本申请涉及微网能量调度领域，特别是涉及一种模型训练方法、装置、计算机设备及存储介质。

背景技术：

由于光伏、风力等可再生分布式能源的应用越来越广，以多微网形式运行的能量组织形式正在成为主流，是解决新能源消纳的有效途径。单个微网通常由太阳能发电设备，风力发电设备，储能，负载等组成，在临近地区内多个微网组成多微网。为了保障多微网安全可靠的运行，需要对多微网进行合理的能量优化调度。

现有技术中，对多微网进行合理的能量优化调度通常是通过建立多微网能量调度模型来实现，通过采集多微网能量调度模型中所需的控制变量参数的训练集对多微网能量调度模型进行训练得到。

然而，多微网能量调度模型中所涉及的参数过多，需要采集大量训练集对多微网能量调度模型进行训练，训练的效率较低。

技术实现要素：

基于此，本申请实施例提供了一种模型训练方法、装置、计算机设备及存储介质，可以通过压缩感知还原技术使多微网能量调度模型在不影响训练效果的情况下，利用较少的训练集进行训练。

第一方面，提供了一种模型训练方法，该方法包括：

从预设状态样本集合中获取初始状态样本集合，其中，该预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数，该初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数，m为正整数，n为大于m的正整数；将初始状态样本集合输入至actor网络中，得到该actor网络输出的动作集合，该动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作；基于初始状态样本集合和动作集合确定下一步状态样本集合，并对该下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，其中，该目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数；计算目标状态样本集合的回报；将预设状态样本集合、目标状态样本集合以及回报输入至critic网络中，并根据critic网络的输出调整actor网络的网络参数以及critic网络的网络参数。

在其中一个实施例中，基于初始状态样本集合和动作集合确定下一步状态样本集合，包括：

将初始状态样本集合和动作集合代入至环境中，得到下一步状态样本集合，其中，该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。

在其中一个实施例中，对下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，包括：

根据预设状态样本集合确定稀疏变换矩阵；确定随机变换矩阵；基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵，计算目标状态样本集合。

在其中一个实施例中，计算目标状态样本集合的回报，包括：

将目标状态样本集合带入至预设的离散的目标函数中，得到目标状态样本集合的回报。

在其中一个实施例中，将预设状态样本集合、目标状态样本集合以及回报输入至critic网络中，并根据critic网络的输出调整actor网络的网络参数以及critic网络的网络参数，包括：

将预设状态样本集合和目标状态样本集合输入至critic网络中，得到critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计；根据第一价值估计、第二价值估计以及回报调整actor网络的网络参数以及critic网络的网络参数。

在其中一个实施例中，根据第一价值估计、第二价值估计以及回报调整actor网络的网络参数以及critic网络的网络参数，包括：

根据第一价值估计、第二价值估计以及回报计算误差，根据该误差调整actor网络的网络参数以及critic网络的网络参数。

在其中一个实施例中，根据误差调整actor网络的网络参数以及critic网络的网络参数，包括：

根据误差以及第一公式更新actor网络的网络参数，其中，第一公式为：

其中，θa'为actor网络更新后的网络参数，θa为actor网络更新前的网络参数，αa为actor网络学习率，ζ为误差，为梯度算符，π(s,θa)为actor网络；

根据误差以及第二公式更新critic网络的网络参数，其中，第二公式为：

其中，θc'为critic网络更新后的网络参数，θc为critic网络更新前的网络参数，αc为critic网络学习率，ε(θc)为均方差损失函数，r(s(t))为目标状态样本集合的回报，v(s(t))为第一价值估计，v(s(t))为第二价值估计，为l2范数。

第二方面，提供了一种模型训练装置，该模型训练装置包括：

获取模块，用于从预设状态样本集合中获取初始状态样本集合，其中，该预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数，初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数，m为正整数，n为大于m的正整数；

输入模块，用于将初始状态样本集合输入至actor网络中，得到该actor网络输出的动作集合，该动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作；

压缩感知还原模块，用于基于初始状态样本集合和动作集合确定下一步状态样本集合，并对下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，其中，目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数；

计算模块，用于计算目标状态样本集合的回报；

调整模块，用于将预设状态样本集合、目标状态样本集合以及回报输入至critic网络中，并根据critic网络的输出调整actor网络的网络参数以及critic网络的网络参数。

在其中一个实施例中，压缩感知还原模块具体用于：

在其中一个实施例中，压缩感知还原模块，具体用于：

根据预设状态样本集合确定稀疏变换矩阵；确定随机变换矩阵；基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵，计算目标状态样本集合。

在其中一个实施例中，计算模块具体用于：

将目标状态样本集合带入至预设的离散的目标函数中，得到目标状态样本集合的回报。

在其中一个实施例中，调整模块具体用于：

根据第一价值估计、第二价值估计以及回报计算误差；根据该误差调整actor网络的网络参数以及critic网络的网络参数。

在其中一个实施例中，调整模块具体用于：

根据误差以及第一公式更新actor网络的网络参数，其中，第一公式为：

其中，θa'为actor网络更新后的网络参数，θa为actor网络更新前的网络参数，αa为actor网络学习率，ζ为误差，为梯度算符，π(s,θa)为actor网络；

根据误差以及第二公式更新critic网络的网络参数，其中，第二公式为：

其中，θc'为critic网络更新后的网络参数，θc为critic网络更新前的网络参数，αc为critic网络学习率，ε(θc)为均方差损失函数，r(s(t))为目标状态样本集合的回报，v(s(t))为第一价值估计，v(s(t))为第二价值估计。

第三方面，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的模型训练方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的模型训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的技术方案中，首先从预设状态样本集合中获取初始状态样本集合，将初始状态样本集合输入至actor网络中得到动作集合，并基于初始状态样本集合和动作集合确定下一步状态样本集合，然后对下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，并计算该目标状态样本集合的回报，最后将预设状态样本集合、目标状态样本集合以及回报输入至critic网络中，并根据critic网络的输出调整actor网络的网络参数以及critic网络的网络参数。在本申请实施例中利用压缩感知还原处理得到的目标样本集合对actor网络进行训练，相比于现有技术中在多微网能量调度模型中需要采集大量训练集对多微网能量调度模型进行训练，本申请实施例提供的技术方案通过压缩感知还原技术使多微网能量调度模型在不影响训练效果的情况下，利用较少的训练集进行训练，节约了模型训练时间。

附图说明

图1为本申请实施例提供的一种实施环境的示意图；

图2为本申请实施例提供的一种模型训练方法的流程图；

图3为本申请实施例提供的一种模型训练方法的流程图；

图4为本申请实施例提供的一种模型训练方法的流程图；

图5为本申请实施例提供的一种模型训练装置的框图；

图6为本申请实施例提供的一种计算机设备的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

当前，由于光伏、风力等可再生分布式能源的应用越来越广，以多微网形式运行的能量组织形式正在成为主流，是解决新能源消纳的有效途径。单个微网通常由太阳能发电设备，风力发电设备，储能，负载等组成，在临近地区内多个微网组成多微网。为了保障多微网安全可靠的运行，需要对多微网进行合理的能量优化调度。

现有技术中，多微网进行合理的能量优化调度通常是通过建立多微网能量调度模型来实现，通过采集多微网能量调度模型中所需的状态样本的训练集对多微网能量调度模型进行训练得到。多微网能量调度模型中所涉及的参数过多，需要采集大量训练集对多微网能量调度模型进行训练，训练的效率较低。

有鉴于此，本申请实施例提供了一种模型训练方法、装置、计算机设备及存储介质，通过压缩感知还原技术使多微网能量调度模型在不影响训练效果的情况下，利用较少的训练集进行训练。

下面，将对本申请实施例提供的模型训练方法所涉及到的实施环境进行说明。

图1为本申请实施例提供的模型训练方法所涉及到的实施环境的示意图。如图1所示，该实施环境可以包括终端101和服务器102，其中，终端101和服务器102之间可以通过有线或无线的方式进行通信。

终端101可以将从多微网中采集到的状态样本发送至服务器102，服务器102中存储有actor网络和critic网络，actor网络和critic网络能够利用接收到的状态样本进行训练。

其中，终端101可以为光伏功率采集终端或微网中其他状态样本采集终端。服务器102可以为一台服务器，也可以为由多台服务器组成的服务器集群。下述方法实施例中，均以执行主体是服务器102为例来进行说明。

请参考图2，其示出了本申请实施例提供的一种模型训练方法的流程图，该模型训练方法可以应用于上文所述实施环境中的服务器中。如图2所示，该模型训练方法可以包括以下步骤：

步骤201、服务器从预设状态样本集合中获取初始状态样本集合。

预设状态样本集合可以是在n个历史时间节点分别测得的多微网中的构成元素的状态参数，该状态参数可以为光伏、风机、负载、储能等元素的功率，比如服务器接收到采集终端在n个历史时间节点分别测得的光伏功率，预设状态样本集合可以用数学语言表示为s(t1),s(t2),...s(tn)。

初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数，初始状态样本集合可以是训练时在预设状态样本集合中所选定的部分状态样本集合，比如初始状态样本集合可以是m个历史时间节点分别测得的光伏功率，初始状态样本集合可以用数学语言表示为s(t1),s(t2),...s(tm)，由于预设状态样本集合包括了初始状态样本集合，所以初始状态样本集合为预设状态样本集合的子集，n>m，且n和m均为正整数。

步骤202、服务器将初始状态样本集合输入至actor网络中，得到actor网络输出的动作集合。

其中，actor网络是策略函数，其可以表示为π(s；θa)，s表示状态样本，θa表示actor网络参数。

服务器将初始状态样本集合s(t1),s(t2),...s(tm)输入至actor网络π(s；θa)中，确定动作集合u(t1),u(t2),...u(tm)，动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作。

步骤203、服务器基于初始状态样本集合和动作集合确定下一步状态样本集合，并对下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合。

在本申请的可选实施例中，服务器将初始状态样本集合s(t1),s(t2),...s(tm)和动作集合u(t1),u(t2),...u(tm)代入至环境中，确定下一步状态样本集合s'(t1),s'(t2),...s'(tm)。在本申请实施例中环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。例如，在仿真模型搭建的微网结构中，环境即为微网的仿真模型。

在得到s'(t1),s'(t2),...s'(tm)之后，服务器可以对下一步状态样本集合进行压缩感知还原处理，从而得到目标状态样本集合s(t1),s(t2),...s(tn)，其中，压缩感知还原处理可以是将m维的状态样本还原为n维的状态样本的算法。

目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数。

步骤204、服务器计算目标状态样本集合的回报。

目标状态样本集合的回报可以是目标状态样本集合根据离散的目标函数在各个时间节点上的差值映射。其中，目标函数指的是多微网能量调度模型的目标函数，离散的目标函数是指在各个时间节点上的积分。

通过s(t1),s(t2),...s(tn)和离散的目标函数j确定出在n个时间节点上的回报r(s(t))＝{r(s(t1)),r(s(t2)),...r(s(tn))}。

步骤205、服务器将预设状态样本集合、目标状态样本集合以及回报输入至critic网络中，并根据critic网络的输出调整actor网络的网络参数以及critic网络的网络参数。

其中，critic网络是评价函数，其可以表示为v(s；θc)。

服务器根据预设状态样本集合s(t1),s(t2),...s(tn)，目标状态样本集合s(t1),s(t2),...s(tn)和回报r(s(t))＝{r(s(t1)),r(s(t2)),...r(s(tn))}输入到critic网络v(s；θc)中，得到误差以及均方差损失函数。

并根据输出对actor网络的网络参数θa以及critic网络的网络参数θc进行更新，得到更新后的actor网络的网络参数θa'和critic网络的网络参数θc'。

本申请实施例提供的技术方案中，首先从预设状态样本集合中获取初始状态样本集合，将初始状态样本集合输入至actor网络中，并输出动作集合，并基于初始状态样本集合和动作集合确定下一步状态样本集合，然后对下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，并计算目标状态样本集合的回报，最后将预设状态样本集合、目标状态样本集合以及回报输入至critic网络中，并根据critic网络的输出调整actor网络的网络参数以及critic网络的网络参数。在本申请实施例中利用压缩感知还原处理得到的目标样本集合对actor网络进行训练，相比于现有技术中在多微网能量调度模型中需要采集大量训练集对多微网能量调度模型进行训练，本申请实施例提供的技术方案通过压缩感知还原技术使多微网能量调度模型在不影响训练效果的情况下，利用较少的训练集进行训练，节约了模型训练时间。

在本申请的可选实施例中，如图3所示，服务器对下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，该技术过程包括以下步骤：

步骤301、服务器根据预设状态样本集合确定稀疏变换矩阵。

服务器设置稀疏表达系数x，并根据预设状态样本集合s＝s(t1),s(t2),...s(tn)，确定稀疏变换矩阵x具有稀疏性，φ的维度为n×n。

步骤302、服务器确定随机变换矩阵。

服务器根据均匀随机分布进行随机采样，确定随机变化矩阵ψ，ψ的维度为m×n。

步骤303、服务器基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵，计算目标状态样本集合。

服务器根据下一步状态样本集合s'＝s'(t1),s'(t2),...s'(tm)、稀疏变换矩阵φ以及随机变换矩阵ψ进行计算，通过求解第三公式求得稀疏表达系数x。

其中，第三公式为：

其中，为l1范数，具体是指向量中各个元素绝对值之和，为l2范数，是指向量各元素的平方和然后求平方根，σ为设定的阈值，为极小值。

通过第三公式求得稀疏表达系数x并通过s＝φx得到目标状态样本集合s＝s(t1),s(t2),...s(tn)。

在本申请的可选实施例中，如图4所示，服务器将预设状态样本集合、目标状态样本集合以及回报输入至critic网络中，并根据critic网络的输出调整actor网络的网络参数以及critic网络的网络参数，该技术过程包括以下步骤：

步骤401、服务器将预设状态样本集合和目标状态样本集合输入至critic网络中，得到critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计。

第一价值估计可以是预设状态样本集合输入至critic网络所得到的各个历史时间节点的估计值。

第二价值估计可以是目标状态样本集合输入至critic网络所得到的各个历史时间节点的估计值。

服务器根据预设状态样本集合s＝s(t1),s(t2),...s(tn)和目标状态样本集合s＝s(t1),s(t2),...s(tn)输入至critic网络v(s；θc)中，分别得到第一价值估计和第二价值估计v(s(t))＝{v(s(t1),v(s(t2)),...v(s(tn))}，v(s(t))＝{v(s(t1)),v(s(t2)),...v(s(tn))}。

步骤402、服务器根据第一价值估计、第二价值估计以及回报调整actor网络的网络参数以及critic网络的网络参数。

服务器根据第一价值估计v(s(t))＝{v(s(t1),v(s(t2)),...v(s(tn))}、第二价值估计v(s(t))＝{v(s(t1)),v(s(t2)),...v(s(tn))}以及回报r(s(t))＝{r(s(t1)),r(s(t2)),...r(s(tn))}计算误差：

其中i＝1,2...n，γ为折扣因子。

在计算得到误差之后，服务器可以根据误差调整actor网络的网络参数以及critic网络的网络参数。

其中，在本申请的一个可选实施例中，服务器可以根据所述误差以及第一公式更新所述actor网络的网络参数，其中，第一公式为：

其中，θa'为actor网络更新后的网络参数，θa为actor网络更新前的网络参数，αa为actor网络学习率，为误差，为梯度算符，π(s,θa)为actor网络；

此外，服务器还可以根据所述误差以及第二公式更新所述critic网络的网络参数，其中，第二公式为：

其中，θc'为critic网络更新后的网络参数，θc为critic网络更新前的网络参数，αc为critic网络学习率，ε(θc)为均方差损失函数，r(s(t))为目标状态样本集合的回报，v(s(t))为第一价值估计，v(s(t))为第二价值估计，为l2范数，是指向量各元素的平方和然后求平方根。

通过训练不断更新actor网络的网络参数和critic网络的网络参数，设置最大回合数结束上述步骤训练，并将根据最终确定的actor网络给出目标函数的能量调度策略。

请参考图5，其示出了本申请实施例提供的一种模型训练装置500的框图，该模型训练装置500可以配置于服务器中。如图5所示，该模型训练装置500可以包括：获取模块501、输入模块502、压缩感知还原模块503、计算模块504以及调整模块505。

获取模块501，用于从预设状态样本集合中获取初始状态样本集合，其中，该预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数，初始状态样本集合包括在m个历史时间节点分别测得的多微网中的构成元素的状态参数，m为正整数，n为大于m的正整数。

输入模块502，用于将初始状态样本集合输入至actor网络中，得到该actor网络输出的动作集合，该动作集合包括对多微网中的构成元素的工作状态进行调整的m个调整动作。

压缩感知还原模块503，用于基于初始状态样本集合和动作集合确定下一步状态样本集合，并对下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，其中，目标状态样本集合包括在n个时间节点多微网中的构成元素的状态参数。

计算模块504，用于计算目标状态样本集合的回报。

调整模块505，用于将预设状态样本集合、目标状态样本集合以及回报输入至critic网络中，并根据critic网络的输出调整actor网络的网络参数以及critic网络的网络参数。

在本申请的可选实施例中，该压缩感知还原模块503，具体用于：将初始状态样本集合和动作集合代入至环境中，得到下一步状态样本集合，其中，该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。

在本申请的可选实施例中，该压缩感知还原模块503，具体用于：根据预设状态样本集合确定稀疏变换矩阵；确定随机变换矩阵；基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵，计算目标状态样本集合。

在本申请的可选实施例中，该计算模块504具体用于：将目标状态样本集合带入至预设的离散的目标函数中，得到目标状态样本集合的回报。

在本申请的可选实施例中，该调整模块505具体用于：

根据第一价值估计、第二价值估计以及回报计算误差；根据该误差调整actor网络的网络参数以及critic网络的网络参数。

在本申请的可选实施例中，该调整模块505具体用于：

根据误差以及第一公式更新actor网络的网络参数，其中，第一公式为：

其中，θa'为actor网络更新后的网络参数，θa为actor网络更新前的网络参数，αa为actor网络学习率，为误差，为梯度算符，π(s,θa)为actor网络；

根据误差以及第二公式更新critic网络的网络参数，其中，第二公式为：

关于模型训练装置的具体限定可以参见上文中对于模型训练方法的限定，在此不再赘述。上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型训练方法。

本领域技术人员可以理解，如图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：将初始状态样本集合和动作集合代入至环境中，得到下一步状态样本集合，其中，该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：根据预设状态样本集合确定稀疏变换矩阵；确定随机变换矩阵；基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵，计算目标状态样本集合。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：将目标状态样本集合带入至预设的离散的目标函数中，得到目标状态样本集合的回报。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：将预设状态样本集合和目标状态样本集合输入至critic网络中，得到critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计；根据第一价值估计、第二价值估计以及回报调整actor网络的网络参数以及critic网络的网络参数。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：根据第一价值估计、第二价值估计以及回报计算误差；根据该误差调整actor网络的网络参数以及critic网络的网络参数。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：根据误差以及第一公式更新actor网络的网络参数，其中，第一公式为：

其中，θa'为actor网络更新后的网络参数，θa为actor网络更新前的网络参数，αa为actor网络学习率，为误差，为梯度算符，π(s,θa)为actor网络；

根据误差以及第二公式更新critic网络的网络参数，其中，第二公式为：

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：将初始状态样本集合和动作集合代入至环境中，得到下一步状态样本集合，其中，该环境用于模拟仿真多微网的各个构成元素以及各个构成元素的交互关系。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据预设状态样本集合确定稀疏变换矩阵；确定随机变换矩阵；基于下一步状态样本集合、稀疏变换矩阵以及随机变换矩阵，计算目标状态样本集合。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：将目标状态样本集合带入至预设的离散的目标函数中，得到目标状态样本集合的回报。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：将预设状态样本集合以及目标状态样本集合输入至critic网络中，得到critic网络输出的与预设状态样本集合对应的第一价值估计以及与目标状态样本集合对应的第二价值估计；根据第一价值估计、第二价值估计以及回报调整actor网络的网络参数以及critic网络的网络参数。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据第一价值估计、第二价值估计以及回报计算误差；根据该误差调整actor网络的网络参数以及critic网络的网络参数。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据误差以及第一公式更新actor网络的网络参数，其中，第一公式为：

其中，θa'为actor网络更新后的网络参数，θa为actor网络更新前的网络参数，αa为actor网络学习率，ζ为误差，为梯度算符，π(s,θa)为actor网络；

根据误差以及第二公式更新critic网络的网络参数，其中，第二公式为：

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以m种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(symchlimk)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

技术特征：

1.一种模型训练方法，其特征在于，所述方法包括：

从预设状态样本集合中获取初始状态样本集合，其中，所述预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数，所述初始状态样本集合包括在m个历史时间节点分别测得的所述多微网中的构成元素的状态参数，m为正整数，n为大于m的正整数；

将所述初始状态样本集合输入至actor网络中，得到所述actor网络输出的动作集合，所述动作集合包括对所述多微网中的构成元素的工作状态进行调整的m个调整动作；

基于所述初始状态样本集合和所述动作集合确定下一步状态样本集合，并对所述下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，其中，所述目标状态样本集合包括在n个时间节点所述多微网中的构成元素的状态参数；

计算所述目标状态样本集合的回报；

将所述预设状态样本集合、所述目标状态样本集合以及所述回报输入至critic网络中，并根据所述critic网络的输出调整所述actor网络的网络参数以及所述critic网络的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述基于所述初始状态样本集合和所述动作集合确定下一步状态样本集合，包括：

将所述初始状态样本集合和所述动作集合代入至环境中，得到所述下一步状态样本集合，其中，所述环境用于模拟仿真所述多微网的各个构成元素以及各个构成元素的交互关系。

3.根据权利要求1所述的方法，其特征在于，所述对所述下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，包括：

根据所述预设状态样本集合确定稀疏变换矩阵；

确定随机变换矩阵；

基于所述下一步状态样本集合、所述稀疏变换矩阵以及所述随机变换矩阵，计算所述目标状态样本集合。

4.根据权利要求1所述的方法，其特征在于，所述计算所述目标状态样本集合的回报，包括：

将所述目标状态样本集合带入至预设的离散的目标函数中，得到所述目标状态样本集合的回报。

5.根据权利要求1所述的方法，其特征在于，所述将所述预设状态样本集合、所述目标状态样本集合以及所述回报输入至critic网络中，并根据所述critic网络的输出调整所述actor网络的网络参数以及所述critic网络的网络参数，包括：

将所述预设状态样本集合和所述目标状态样本集合输入至所述critic网络中，得到所述critic网络输出的与所述预设状态样本集合对应的第一价值估计以及与所述目标状态样本集合对应的第二价值估计；

根据所述第一价值估计、所述第二价值估计以及所述回报调整所述actor网络的网络参数以及所述critic网络的网络参数。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一价值估计、所述第二价值估计以及所述回报调整所述actor网络的网络参数以及所述critic网络的网络参数，包括：

根据所述第一价值估计、所述第二价值估计以及所述回报计算误差；

根据所述误差调整所述actor网络的网络参数以及所述critic网络的网络参数。

7.根据权利要求6所述的方法，其特征在于，所述根据所述误差调整所述actor网络的网络参数以及所述critic网络的网络参数，包括：

根据所述误差以及第一公式更新所述actor网络的网络参数，其中，第一公式为：

其中，θa'为actor网络更新后的网络参数，θa为actor网络更新前的网络参数，αa为actor网络学习率，ζ为误差，为梯度算符，π(s,θa)为actor网络；

根据所述误差以及第二公式更新所述critic网络的网络参数，其中，第二公式为：

8.一种模型训练装置，其特征在于，所述装置包括：

获取模块，从预设状态样本集合中获取初始状态样本集合，其中，所述预设状态样本集合包括在n个历史时间节点分别测得的多微网中的构成元素的状态参数，所述初始状态样本集合包括在m个历史时间节点分别测得的所述多微网中的构成元素的状态参数，m为正整数，n为大于m的正整数；

输入模块，用于将所述初始状态样本集合输入至actor网络中，得到所述actor网络输出的动作集合，所述动作集合包括对所述多微网中的构成元素的工作状态进行调整的m个调整动作；

压缩感知还原模块，用于基于所述初始状态样本集合和所述动作集合确定下一步状态样本集合，并对所述下一步状态样本集合进行压缩感知还原处理，得到目标状态样本集合，其中，所述目标状态样本集合包括在n个时间节点所述多微网中的构成元素的状态参数；

计算模块，用于计算所述目标状态样本集合的回报；

调整模块，用于将所述预设状态样本集合、所述目标状态样本集合以及所述回报输入至critic网络中，并根据所述critic网络的输出调整所述actor网络的网络参数以及所述critic网络的网络参数。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的模型训练方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的模型训练方法。

技术总结
本申请公开了一种模型训练方法、装置、计算机设备及存储介质，涉及微网能量调度领域，通过从预设状态样本集合中获取初始状态样本集合输入至Actor网络中得到动作集合，并基于初始状态样本集合和动作集合确定下一步状态样本集合并进行压缩感知还原处理得到目标状态样本集合，并计算该目标状态样本集合的回报，最后将预设状态样本集合、目标状态样本集合以及回报输入至Critic网络中，并根据Critic网络的输出调整Actor网络的网络参数以及Critic网络的网络参数。在本申请实施例中通过压缩感知还原处理对Actor网络进行训练，能够得到得到Actor网络所确定的能量调度策略，使多微网能量调度模型在不影响训练效果的情况下，能够利用较少的训练集进行训练。

技术研发人员：李鸿鑫;张华赢;汪清;艾精文;胡子珩;梁宏;曹军威
受保护的技术使用者：深圳供电局有限公司
技术研发日：2020.12.08
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-18888.html

专利

最新回复(0)