基于深度强化学习的异构柔性负荷实时调控方法和装置与流程

专利2022-07-08 133

本申请涉及电力系统负荷调控技术领域，尤其涉及一种基于深度强化学习的异构柔性负荷实时调控方法和装置。

背景技术：

随着大量不同的需求侧柔性负荷广泛接入并参与电网调控，柔性负荷异构特性逐渐凸显，异构性的处理成为实际调控应用的关键问题。异构负荷又被区分为类型和参数两种异构方式，通常不同种类的负荷构成类型异构，相同种类但固有参数不同的负荷构成参数异构，对异构柔性负荷的建模是柔性负荷调控的基础。

常规的负荷调控以既定物理参数对异构负荷建模，进而根据参数的相似性聚类划分成同构群或等效群进行目标优化和统一调度，但是难以避免多样性异构设备物理参数复杂的问题。例如针对温控型负荷，常规方法主要基于负荷的动态温度特性和周期性运行方式，建立温控型负荷的一阶热力学模型，但是由于负荷种类繁多、参数差异化严重、调控所依赖的感知和交互信息多元，导致用户侧柔性负荷的响应能力降低，难以激发用户侧的需求响应潜力。

技术实现要素：

本申请提供了一种基于深度强化学习的异构柔性负荷实时调控方法和装置，用于解决现有的负荷调控方式用户侧柔性负荷的响应能力低，难以激发用户侧的需求响应潜力的技术问题。

有鉴于此，本申请第一方面提供了一种基于深度强化学习的异构柔性负荷实时调控方法，包括：

对电力系统不同类型的异构柔性负荷分别建立单一柔性负荷动态模型，得到单一柔性负荷的状态变量、动作变量、环境变量和回报函数；

根据所有单一柔性负荷的所述状态变量、动作状态变量、环境变量和回报函数，建立异构柔性负荷聚合模型，所述异构柔性负荷聚合模型包括聚合负荷的状态变量、状态空间、动作变量、动作空间和状态转移函数；

将所述聚合模型应用到电力系统实时调控环境下，得到聚合负荷参与实时响应的回报函数；

建立聚合负荷实时调控深度强化学习模型，根据所述聚合负荷的状态变量、动作变量、状态转移函数和参与实时响应的回报函数，对所述聚合负荷实时调控深度强化学习模型进行训练，得到柔性负荷聚合的实时优化调控决策模型；

将目标聚合负荷的状态变量输入柔性负荷聚合的实时优化调控决策模型，得到聚合负荷实时调控的最优策略。

可选地，所述单一柔性负荷动态模型包括负荷温控动态函数、用户不适度函数和回报函数。

可选地，所述异构柔性负荷聚合模型为：

s(t 1)＝ftransition(s(t),a(t),w(t))

其中，s(t 1)为t 1时刻聚合负荷的状态变量，s(t)为t时刻聚合负荷的状态变量，a(t)为t时刻聚合负荷的动作变量，w(t)为t时刻的环境变量，ragg(t)为聚合负荷在t时刻的回报函数，rdr(t)为t时刻聚合负荷参与需求响应的总收益，为总用户不适度，λ(t)(pagg(t)-pbase(t))δt为电费支出减少量。

可选地，所述聚合负荷实时调控深度强化学习模型采用深度q值网络算法训练。

可选地，所述深度强化学习模型的损失函数为：

其中，yj为q网络函数的目标值，m为样本数，θ为q网络函数的权重系数，sj为第j个样本的状态变量，aj为第j个样本的动作变量。

可选地，所述对所述聚合负荷实时调控深度强化学习模型进行训练，得到柔性负荷聚合的实时优化调控决策模型，包括：

初始化预测q网络函数和目标q网络函数，设置迭代轮数为ep，学习速率为α，探索率为ε，经验回放池的最大尺寸为m；

采集训练样本，将所述训练样本存入所述经验回放池中；

从所述经验回放池中随机批量抽取n个样本，计算q网络函数的损失函数；

采用梯度下降法更新所述q网络函数的权重系数θ；

继续生成新的样本，用所述新的样本替换掉所述经验回放池中的旧样本，计算q网络函数的损失函数和权重系数θ；

更新目标q网络函数的权重系数θ′；

检查聚合负荷的状态变量s是否为最终状态，如果是，则清空经验回放池，重新进行采样，将采样样本放入所述经验回放池中；

判断迭代轮数为是否达到ep，若是，则训练结束，否则继续迭代。

可选地，还包括：

对柔性负荷聚合的实时优化调控决策模型进行测试。

本申请第二方面提供了一种基于深度强化学习的异构柔性负荷实时调控装置，包括：

单一柔性负荷建模模块，用于对电力系统不同类型的异构柔性负荷分别建立单一柔性负荷动态模型，得到单一柔性负荷的状态变量、动作变量、环境变量和回报函数；

聚合负荷建模模块，用于根据所有单一柔性负荷的所述状态变量、动作状态变量、环境变量和回报函数，建立异构柔性负荷聚合模型，所述异构柔性负荷聚合模型包括聚合负荷的状态变量、状态空间、动作变量、动作空间和状态转移函数；

应用模块，用于将所述聚合模型应用到电力系统实时调控环境下，得到聚合负荷参与实时响应的回报函数；

深度强化学习模块，用于建立聚合负荷实时调控深度强化学习模型，根据所述聚合负荷的状态变量、动作变量、状态转移函数和参与实时响应的回报函数，对所述聚合负荷实时调控深度强化学习模型进行训练，得到柔性负荷聚合的实时优化调控决策模型；

策略输出模块，用于将目标聚合负荷的状态变量输入柔性负荷聚合的实时优化调控决策模型，得到聚合负荷实时调控的最优策略。

可选地，所述单一柔性负荷动态模型包括负荷温控动态函数、用户不适度函数和回报函数。

可选地，还包括：

模型测试模块，用于对柔性负荷聚合的实时优化调控决策模型进行测试。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中提供了一种基于深度强化学习的异构柔性负荷实时调控方法，包括：对电力系统不同类型的异构柔性负荷分别建立单一柔性负荷动态模型，得到单一柔性负荷的状态变量、动作变量、环境变量和回报函数；根据所有单一柔性负荷的状态变量、动作状态变量、环境变量和回报函数，建立异构柔性负荷聚合模型，异构柔性负荷聚合模型包括聚合负荷的状态变量、状态空间、动作变量、动作空间和状态转移函数；将聚合模型应用到电力系统实时调控环境下，得到聚合负荷参与实时响应的回报函数；建立聚合负荷实时调控深度强化学习模型，根据所述聚合负荷的状态变量、动作变量、状态转移函数和参与实时响应的回报函数，对聚合负荷实时调控深度强化学习模型进行训练；将目标聚合负荷的状态变量输入柔性负荷聚合的实时优化调控决策模型，得到聚合负荷实时调控的最优策略。

本申请提供的基于深度强化学习的异构柔性负荷实时调控方法，首先，针对不同类型的异构柔性负荷，分别建立单一柔性负荷模型，然后针对不同参数异构的多个柔性负荷建立聚合负荷模型，从而得到异构柔性负荷参与需求响应时的马尔科夫决策过程，并通过深度强化学习的机器学习框架基于历史数据对聚合体的决策函数进行训练，得到异构柔性负荷聚合体的实时优化调控决策模型，从而得到聚合负荷实时调控的最优策略，提高了用户侧的柔性负荷响应能力。解决了现有的负荷调控方式用户侧柔性负荷的响应能力低，难以激发用户侧的需求响应潜力的技术问题。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术用户员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为q网络函数的神经网络形式；

图2为本申请实施例中提供的一种基于深度强化学习的异构柔性负荷实时调控方法的流程结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的一种基于深度强化学习的异构柔性负荷实时调控方法的一个实施例，包括：

步骤101、对电力系统不同类型的异构柔性负荷分别建立单一柔性负荷动态模型，得到单一柔性负荷的状态变量、动作变量、环境变量和回报函数。

需要说明的是，首先对不同类型的异构柔性负荷分别建立单一柔性负荷动态模型，获得单一柔性负荷的状态变量、行为变量、环境变量和回报函数等变量的取值范围和变化趋势。为便于理解，本申请实施例中以电采暖负荷和电热水负荷两种异构柔性负荷为例来说明，应理解，其他单一柔性负荷均可在本申请实施例的基础上进行相应的参数变化得到与本申请实施例相同的效果。

对于电采暖负荷：

电采暖负荷为典型的温控负荷，其目的是将室温保持在一定的舒适范围内。采用类似一阶电路的等效模型来模拟电采暖负荷的运行过程，设电采暖设备i的额定功率为pi^rate，所处房间的等效热阻为等效热容为t时刻的室内温度为ti(t)，室外温度为tex(t)，则室内温度的动态方程可以表示为：

t∈[0,t]

式中，ki(t)为控制电采暖设备i开关的动作变量，且ki(t)∈{0,1}。

设时间颗粒度为δt，则可将式t∈[0,t]近似转化为离散时间下的状态转移方程：

设用户的舒适温度范围为[ti^l，ti^u]，电采暖设备温度的可变化范围为可以将用户的不适度函数定义为：

其中，和分别为室内温度超出上限和下限的不适度惩罚因子。

设t时刻的电价为λ(t)，则用户的电费支出为：

fi^elec＝λ(t)pi^rate·ki(t)δt。

由于回报函数为极大化函数，因此，电采暖设备i的回报函数可表示为：

ri(t)＝-fi^unc-fi^elec。

对于电热水负荷：

电热水负荷能够将存储在水箱中的生活用水保持在舒适范围内。水箱中的热水除了在环境中耗散热量外，还会因为生活热水流出导致冷水流入，从而带走热量。因此，水箱i中的水温动态方程可以定义为：

t∈[0,t]

其中，表示水箱i的等效热阻，表示水箱i的等效热容，ti(t)表示t时刻的水箱i水温，pi^rate表示水箱i的电热水额定功率，qi(t)表示t时刻由于生活用水带走的热量，qi(t)与用户的用水习惯有关，ki(t)为控制电热水箱i开关的控制变量，且ki(t)∈{0,1}。

将式t∈[0,t]转化为离散形式得到状态转移方程为：

近似地，也可以定义电热水负荷的舒适温度范围为[ti^l,ti^u]，电热水温度的可变化范围为并得到用户的不适度函数、用电成本和回报函数，在此不再做赘述。

步骤102、根据所有单一柔性负荷的状态变量、动作状态变量、环境变量和回报函数，建立异构柔性负荷聚合模型，异构柔性负荷聚合模型包括聚合负荷的状态变量、状态空间、动作变量、动作空间和状态转移函数。

需要说明的是，将包含异构类型和异构参数的多个柔性负荷聚合，得到异构柔性负荷的聚合模型，模型包括聚合负荷的状态变量、状态空间、动作变量、动作空间以及状态转移函数。为便于说明，还是以包含异构参数的n个电采暖负荷和l个电热水负荷为例，建立异构柔性负荷的聚合模型。以下分别设电采暖负荷及其异构参数的下标为1～n，电热水负荷的下标为n 1～n l。

设聚合负荷的状态变量为：

动作变量为：

聚合负荷的状态空间为：

其中，分别为电热水负荷的水温控制范围下限和上限。

动作空间为：

a＝{0,1}n l。

由于聚合负荷中的各负荷具有异构参数，因此无法直接建立单一的动态方程。可以联立各负荷的状态转移方程，得到：

以上状态转移方程可简记为：

s(t 1)＝ftransition(s(t),a(t),w(t))

其中，w(t)表示环境变量。

设聚合负荷在t时刻需要执行的需求响应调节功率为δpdr(t)，聚合负荷在t时刻的基线负荷为pbase(t)，t时刻的聚合功率pagg(t)为：

聚合负荷在实时市场中响应系统的调控指令来获取收益。假设在t时刻的需求响应单位收益为μ(t)，并且仅当用户实际响应的功率在一定误差范围[1-ε,1 ε]内时可获得全部收益，ε通常取20％，超出部分无法获得收益。因此，聚合负荷参与需求响应的总收益为：

因此，聚合负荷t时刻的回报函数可以表示为：

其中，ragg(t)为聚合负荷在t时刻的回报函数，rdr(t)为t时刻聚合负荷参与需求响应的总收益，为总用户不适度，λ(t)(pagg(t)-pbase(t))δt为电费支出减少量。

在t0时刻对聚合负荷进行实时优化调控的目的是找到t0时刻的最优策略，使得从t0时刻到t时段的用户累积期望回报最大。考虑到未来时段的不确定性，需要对未来时段发生的收益乘以衰减系数γ。假设已知初始状态变量为s0，则实时调控优化问题可以表示为：

s.t:s(t0)＝s0,s(t)∈s,a(t)∈a

es(t),a(t)为在可行域状态空间s和动作空间a内的期望值。该实时调控优化问题为混合整数非线性规划问题，优化变量为a(t0)。

步骤103、将聚合模型应用到电力系统实时调控环境下，得到聚合负荷参与实时响应的回报函数。

需要说明的是，在得到聚合模型之后，需要将聚合弄醒放入电力系统实时调控环境中，与实时环境互动，不断演变，得到聚合负荷参与实时响应的回报函数。

步骤104、建立聚合负荷实时调控深度强化学习模型，根据聚合负荷的状态变量、动作变量、状态转移函数和参与实时响应的回报函数，对聚合负荷实时调控深度强化学习模型进行训练，得到柔性负荷聚合的实时优化调控决策模型。

需要说明的是，从实时调控优化问题可以看出，考虑到约束条件的维度达到(n l)·(t-t0)，显然当聚合负荷数量较大时直接优化求解的复杂度较大，难以满足实时优化调控的即时性要求。因此，采用以下深度强化学习的方式来得到a(t0)的近似值。从步骤102-步骤103中可以知道，聚合负荷参与实时调控的过程是一个马尔科夫决策过程，即个体在t0时刻的决策以及后续状态仅与当前状态s(t0)有关，而与历史信息无关。从式可以得到马尔科夫决策过程的四元组<s,a,r,s'>，即：

状态变量s∈s；

动作变量a∈a；

状态转移函数s'＝ftransition(s,a)；

回报函数r＝ragg(s,a)。

设π为聚合负荷的策略，其意义为对马尔科夫决策过程中某一状态变量s采取可能的动作变量a的概率，表示为π(a|s)，如下式所示：

π(a|s)＝pr[a(t)＝a|s(t)＝s]

因此，深度强化学习的目标就是找到能使得累积回报函数期望值最大化的最优策略

定义聚合负荷的q网络函数并通过神经网络表示，定义学习q网络函数的损失函数，初始化预测q网络和目标q网络。初始化聚合负荷的状态并采集样本存入经验回放池。利用经验回放池中的批量抽样以及目标q网络的值对预测q网络进行离线训练，通过梯度下降法更新预测q网络的参数，重复此步骤并且定期更新目标q网络的参数，直到迭代次数达到最大值。

步骤105、将目标聚合负荷的状态变量输入柔性负荷聚合的实时优化调控决策模型，得到聚合负荷实时调控的最优策略。

需要说明的是，在得到柔性负荷聚合的实时优化调控决策模型之后，将目标聚合负荷的状态变量s输入柔性负荷聚合的实时优化调控决策模型，得到聚合负荷实时调控的最优策略，表示为：

其中，q(s,a|θ)为q网络函数。

本申请实施例提供的基于深度强化学习的异构柔性负荷实时调控方法，首先，针对不同类型的异构柔性负荷，分别建立单一柔性负荷模型，然后针对不同参数异构的多个柔性负荷建立聚合负荷模型，从而得到异构柔性负荷参与需求响应时的马尔科夫决策过程，并通过深度强化学习的机器学习框架基于历史数据对聚合体的决策函数进行训练，得到异构柔性负荷聚合体的实时优化调控决策模型，从而得到聚合负荷实时调控的最优策略，提高了用户侧的柔性负荷响应能力。解决了现有的负荷调控方式用户侧柔性负荷的响应能力低，难以激发用户侧的需求响应潜力的技术问题。

具体的，聚合负荷实时调控深度强化学习模型采用深度q值网络算法训练。深度q值网络算法引入了两个神经网络函数来搜索最优策略，分别是价值函数和q网络函数。其中，价值函数表示个体在状态s下采用策略π会得到的累积回报期望值，表示为：

q网络函数表示个体在状态变量s下选择动作变量a，并且之后继续采用策略π得到的累积回报期望值，表示为：

在最优策略下，对于任何其他策略π，给定任意的状态变量s，个体的价值函数都应当满足

基于贝尔曼最优方程，可以得到在采取最优策略的情况下，价值函数与q网络函数的关系表示为：

即q网络函数可以分解为当前状态下的回报函数与下一状态下的价值函数乘以衰减系数两部分。

而最优策略下的价值函数满足：

将代入中，可以得到q网络函数满足可将应用在神经网络的训练中。

左边看作是q网络函数的预测值q，右边看作是q网络函数的目标值q'。

对q网络函数进行神经网络参数化表示。首先通过有一个典型的全连接神经网络来表示从输入(s,a)到q值的映射关系，如图1所示。其中，输入为s和a，输出为q，权重系数用θ表示。深度强化学习的目的是通过训练权重系数θ来使得q的预测值q尽可能地逼近目标值q'。

如果对两边的q网络函数采用相同参数训练，则两者的依赖性太强，不利于算法收敛。因此，需要将两边的q网络函数用两个神经网络q和q'来表示，分别称为预测q网络和目标q网络，两个网络的结构完全一致，对应的权重系数分别为θ和θ'。

深度强化学习需要利用所拥有的数据来训练神经网络参数，使得神经网络的输出尽可能逼近目标值。设当前数据有m个样本(sj,aj,s′j,rj)，j＝1,2,…,m，则神经网络的均方差损失函数可以表示为：

其中，yj表示q网络函数的目标值，表达式为：

如图2所，对聚合负荷实时调控深度强化学习模型进行训练的过程为：

(1)初始化神经网络函数q和q'。设置迭代轮数为ep，学习速率为α，探索率为ε，经验回放池的最大尺寸为m。然后开始迭代训练。

(2)进行采样，得到经验回放池。

训练神经网络的数据样本可以通过离线采样获得，采集到的样本存入经验回放池中。首先对聚合负荷的状态变量进行随机初始化，得到s＝s1。

然后采用贪心策略(ε-greedy)得到a＝a1。

ε-greedy策略如下：

其中探索率ε为0～1之间的一个常数，δ为0～1之间的随机抽样值。采用该方法是为了尽可能探索更多的动作空间，避免掉入局部优化解。

接下来将s1和a1带入转移函数和回报函数得到下一个状态值s′1和r1，得到样本四元组(s1,a1,s′1,r1)。

令s2＝s′1。重复以上步骤得到(s2,a2,s′2,r2)、…、(sm,am,s′m,rm)。m为经验回放池的最大样本数量。其中每当t达到最大值时需要重置初始状态变量。

(3)从经验回放池中随机批量抽取n个样本，带入式计算相应的损失函数loss(θ)。

(4)更新q网络函数的参数θ。采用梯度下降方式更新θ：

(5)继续生成新的样本(sj,aj,s′j,rj)，j＝m 1,m 2,...。并用新的样本替换掉经验回放池中的旧样本。每放入n个新数据样本，重复步骤(3)、(4)。

(6)更新目标q网络函数q'的参数θ′。对目标q网络函数q'进行一次更新，即：

θ′←θ

(7)检查状态s是否为最终状态，如果是，则清空经验回放池，跳到步骤(2)重新开始。

(8)重复步骤(2)～(7)，直到迭代轮数达到ep。

在完成神经网络训练后，可以生成测试集数据来检验策略的有效性。

在任意状态下，给定聚合负荷的状态s，得到实时调控的最优决策如下。

测试并记录聚合负荷优化调控的结果。

本申请中还提供了一种基于深度强化学习的异构柔性负荷实时调控装置的实施例，包括：

应用模块，用于将所述聚合模型应用到电力系统实时调控环境下，得到聚合负荷参与实时响应的回报函数；

策略输出模块，用于将目标聚合负荷的状态变量输入柔性负荷聚合的实时优化调控决策模型，得到聚合负荷实时调控的最优策略。

本申请实施例提供的基于深度强化学习的异构柔性负荷实时调控装置，首先，针对不同类型的异构柔性负荷，分别建立单一柔性负荷模型，然后针对不同参数异构的多个柔性负荷建立聚合负荷模型，从而得到异构柔性负荷参与需求响应时的马尔科夫决策过程，并通过深度强化学习的机器学习框架基于历史数据对聚合体的决策函数进行训练，得到异构柔性负荷聚合体的实时优化调控决策模型，从而得到聚合负荷实时调控的最优策略，提高了用户侧的柔性负荷响应能力。解决了现有的负荷调控方式用户侧柔性负荷的响应能力低，难以激发用户侧的需求响应潜力的技术问题。

进一步地，单一柔性负荷动态模型包括负荷温控动态函数、用户不适度函数和回报函数。

进一步地，还包括：

模型测试模块，用于对柔性负荷聚合的实时优化调控决策模型进行测试。

需要说明的是，本申请实施例中提供的装置是前述基于深度强化学习的异构柔性负荷实时调控方法实施例对应的虚拟装置实施例，本申请实施例可以取得与前述的基于深度强化学习的异构柔性负荷实时调控方法实施例相同的技术效果，在此不再进行赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文全称：read-onlymemory，英文缩写：rom)、随机存取存储器(英文全称：randomaccessmemory，英文缩写：ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

技术特征：

1.一种基于深度强化学习的异构柔性负荷实时调控方法，其特征在于，包括：

对电力系统不同类型的异构柔性负荷分别建立单一柔性负荷动态模型，得到单一柔性负荷的状态变量、动作变量、环境变量和回报函数；

将所述聚合模型应用到电力系统实时调控环境下，得到聚合负荷参与实时响应的回报函数；

将目标聚合负荷的状态变量输入柔性负荷聚合的实时优化调控决策模型，得到聚合负荷实时调控的最优策略。

2.根据权利要求1所述的基于深度强化学习的异构柔性负荷实时调控方法，其特征在于，所述单一柔性负荷动态模型包括负荷温控动态函数、用户不适度函数和回报函数。

3.根据权利要求1所述的基于深度强化学习的异构柔性负荷实时调控方法，其特征在于，所述异构柔性负荷聚合模型为：

s(t 1)＝ftransition(s(t),a(t),w(t))

4.根据权利要求1所述的基于深度强化学习的异构柔性负荷实时调控方法，其特征在于，所述聚合负荷实时调控深度强化学习模型采用深度q值网络算法训练。

5.根据权利要求4所述的基于深度强化学习的异构柔性负荷实时调控方法，其特征在于，所述深度强化学习模型的损失函数为：

其中，yj为q网络函数的目标值，m为样本数，θ为q网络函数的权重系数，sj为第j个样本的状态变量，aj为第j个样本的动作变量。

6.根据权利要求5所述的基于深度强化学习的异构柔性负荷实时调控方法，其特征在于，所述对所述聚合负荷实时调控深度强化学习模型进行训练，得到柔性负荷聚合的实时优化调控决策模型，包括：

初始化预测q网络函数和目标q网络函数，设置迭代轮数为ep，学习速率为α，探索率为ε，经验回放池的最大尺寸为m；

采集训练样本，将所述训练样本存入所述经验回放池中；

从所述经验回放池中随机批量抽取n个样本，计算q网络函数的损失函数；

采用梯度下降法更新所述q网络函数的权重系数θ；

继续生成新的样本，用所述新的样本替换掉所述经验回放池中的旧样本，计算q网络函数的损失函数和权重系数θ；

更新目标q网络函数的权重系数θ′；

检查聚合负荷的状态变量s是否为最终状态，如果是，则清空经验回放池，重新进行采样，将采样样本放入所述经验回放池中；

判断迭代轮数为是否达到ep，若是，则训练结束，否则继续迭代。

7.根据权利要求6所述的基于深度强化学习的异构柔性负荷实时调控方法，其特征在于，还包括：

对柔性负荷聚合的实时优化调控决策模型进行测试。

8.一种基于深度强化学习的异构柔性负荷实时调控装置，其特征在于，包括：

应用模块，用于将所述聚合模型应用到电力系统实时调控环境下，得到聚合负荷参与实时响应的回报函数；

策略输出模块，用于将目标聚合负荷的状态变量输入柔性负荷聚合的实时优化调控决策模型，得到聚合负荷实时调控的最优策略。

9.根据权利要求8所述的基于深度强化学习的异构柔性负荷实时调控装置，其特征在于，所述单一柔性负荷动态模型包括负荷温控动态函数、用户不适度函数和回报函数。

10.根据权利要求8所述的基于深度强化学习的异构柔性负荷实时调控装置，其特征在于，还包括：

模型测试模块，用于对柔性负荷聚合的实时优化调控决策模型进行测试。

技术总结
本申请公开了一种基于深度强化学习的异构柔性负荷实时调控方法和装置，首先，针对不同类型的异构柔性负荷，分别建立单一柔性负荷模型，然后针对不同参数异构的多个柔性负荷建立聚合负荷模型，从而得到异构柔性负荷参与需求响应时的马尔科夫决策过程，并通过深度强化学习的机器学习框架基于历史数据对聚合体的决策函数进行训练，得到异构柔性负荷聚合体的实时优化调控决策模型，从而得到聚合负荷实时调控的最优策略，提高了用户侧的柔性负荷响应能力。解决了现有的负荷调控方式用户侧柔性负荷的响应能力低，难以激发用户侧的需求响应潜力的技术问题。

技术研发人员：肖云鹏;蔡秋娜;关玉衡;张兰;白杨;刘思捷
受保护的技术使用者：广东电网有限责任公司电力调度控制中心
技术研发日：2020.12.02
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-17946.html

专利

最新回复(0)