本发明涉及应用在太阳能无人飞行器背景下的能源系统,提出一种基于深度强化学习的能源系统管理多时间尺度最优决策方法。
背景技术:
应用在太阳能无人飞行器背景下的能源系统主要由光伏电池组、储能电池组、各类负载以及能源管理器构成。由于系统没有直接的供电电源,该系统相当于微电网的孤岛运行模式。
在这类能源系统的应用中,由于环境及天气复杂多变,光伏电池阵的输出功率以及负载所需功率有较大的波动性和不确定性。通常添加储能电池组以在光伏输出富余时储存能量,在负载供给不足时提供能量,以维持能源系统的正常运行,并在一定程度上提高太阳能的利用率,储能环节便显得尤为重要。然而储能环节的充放电动作决策是一个复杂的问题,难以采用精确的数学模型或数值计算方法,需要采用数据驱动的人工智能方法进行决策。
在储能环节的决策问题中,强化学习算法q-learning、深度强化学习算法dqn是为当前的主流。在q-learning算法中,调度策略是由一个奖励函数的数值优化来得到的。通过不断选择储能单元的调度动作,获得环境的反馈,实现奖励数值的优化,从而不断更新q表。当q表收敛到最大值时,完成q表的更新训练,即可由q表产生合理的动作决策。然而q-learning算法只适用于离散的状态与动作空间的情形,能够在状态与动作维度较低的条件下行之有效,却无法解决连续的状态与动作空间下的动作决策问题。
而dqn算法可以弥补q-learning算法的不足之处,其采用q-learning的强化学习思想,使用奖励值及贝尔曼方程来构造标签,从而获得深度学习所需要的训练集。并通过经验回放的方法来打破数据间的关联,达到深度学习中数据对相关性及独立同分布的要求。该算法使用一个主网络(q网络)产生当前q值,使用另外一个目标网络(目标q网络)产生目标q值,来保证神经网络参数的收敛性。
尽管仅考虑当前时刻的奖励最大化来进行储能单元的决策,在大多数情形下是行之有效的,环境中仍然存在一些特殊情形。若忽略未来时刻的环境状态,而仅根据当前时刻的状态进行动作决策,可能会造成系统的饱和或不稳定问题。因此对环境的状态进行提前两步的预测,根据当前状态与预测状态共同产生储能单元的动作决策是有必要的。
技术实现要素:
克服现有技术的不足,本发明提供一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,所述方法包括步骤:
获取t时刻能源系统的第一系统状态;
获取(t-1)时刻所述能源系统的第二系统状态;
根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态;
根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策。
优选地,所述根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型包括步骤:
获取所述第一系统状态、k组所述第二系统状态、长短期记忆人工神经网络及所述长短期记忆人工神经网络的输出目标值;
将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络;
获取所述长短期记忆人工神经网络输出的网络输出数据;
根据所述网络输出数据和所述输出目标值反向计算所述长短期记忆人工神经网络中各参数的误差;
利用随机梯度下降算法更新所述长短期记忆人工神经网络的梯度;
判断所述长短期记忆人工神经网络是否满足预设条件;
若是,更新所述长短期记忆人工神经网络以得到所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
若否,返回所述将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络步骤。
优选地,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络中各参数的误差是否达到第一阈值。
优选地,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络更新梯度的次数是否达到第二阈值。
优选地,所述长短期记忆人工神经网络的表达式为:
ft=σ(wf·[ht-1,xt] bf)
it=σ(wi·[ht-1,xt] bi)
ot=σ(wo·[ht-1,xt] bo)
ht=ot*tanh(ct)
yt=wyht by
其中,ft、it、ot分别为遗忘门、输入门、输出门;ct、ht、yt分别为状态信息、隐藏层输出和网络输出;w为权重系数矩阵,wf为遗忘门ft的权重系数矩阵,依次同理;b为偏置矩阵,bf为遗忘门的偏置矩阵,依次同理;σ为sigmoid函数。
优选地,所述根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态包括步骤:
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型和t时刻所述能源系统的所述第一系统状态;
将所述第一系统状态输入所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型输出的(t 1)时刻和(t 2)时刻所述能源系统分别对应的所述第三系统状态和所述第四系统状态。
优选地,所述根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策包括步骤:
获取t时刻所述能源系统能量调度的第一奖励函数;
获取(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态以及第一动作和第二动作;
根据所述第三系统状态和所述第四系统状态以及所述第一动作和所述第二动作对所述第一奖励函数进行更新以得到第二奖励函数;
初始化经验池和动作值函数;
将t时刻的状态、动作、奖励值以及(t 1)时刻的状态存储到所述经验池;
判断所述经验池大小是否达到2(n k)个;
若是,从所述经验池中随机取出n组数据,将n组数据经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到状态集序列{st,st 1,st 2},并以所述ε-greedy策略选取动作序列{at,at 1,at 2},将t时刻的状态、动作、奖励值以及(t 1)时刻的实际状态存储到经验池;
若否,返回所述初始化经验池和动作值函数步骤;
将t时刻、(t 1)时刻和(t 2)时刻的状态序列及动作输入目标q网络得到目标q值ql-1,并计算三个时刻对应的奖励值;
根据q值公式计算t时刻的目标q值qt;
以t时刻、(t 1)时刻和(t 2)时刻的状态序列及动作作为q网络的输入,以t时刻的目标q值qt作为q网络输出的标签值,使用梯度下降法对q网络的的权重进行更新;
重复上述操作,每训练2n次,将q网络的参数赋予目标q网络以训练q网络;
当q网络训练完毕后选取预设时刻的系统状态序列,经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到提前两个时刻的状态序列,逐一配以对应的动作序列输入q网络,产生q值;
选取q值最大时的动作序列,将当前时刻的动作作为所述能源系统当前时刻的决策。
优选地,所述第一奖励函数的表达式为:
其中,st为t时刻系统的状态序列;at为t时刻系统的动作;dt为负载需要的能量;
优选地,所述第二奖励函数的表达式为:
r(st,at)=γ0f(st,at) γ1f(st 1,at 1) γ2f(st 2,at 2)
其中,st为t、t 1、t 2三个时刻系统的状态集序列{st,st 1,st 2};at为t、t 1、t 2三个时刻系统的动作序列{at,at 1,at 2};γn(n=0,1,2)为折扣系数,其中γ0>γ1>γ2,且0<γn<1。
优选地,所述q值的表达式为:
q(st,at)l=q(st,at)l-1 α[r(st,at)-q(st,at)l-1]
qt=q(st,at)l
其中,q(st,at)l-1为系统在状态序列集st以及动作集at下的原q值;q(st,at)l-1为基于贝尔曼方程更新后的q值。
本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,考虑单一时间尺度中动作决策在某些情形下会造成系统饱和及不稳定的问题,可根据当前以及预测的未来两个时刻的系统状态,对储能电池组的充放电动作产生最优动作决策;充分考虑未来时刻的系统状态,提高系统动作决策的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法中的能源系统示意图;
图2是本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法的流程示意图;
图3是本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法中的系统决策时间序列示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,为本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法中的能源系统,该能源系统由光伏电池组、储能电池组、各类负载以及能源管理器构成。由于系统没有直接的供电电源,该系统相当于微电网的孤岛运行模式。储能电池组在光伏输出富余时储存能量,在负载供给不足时提供能量,以维持能源系统的正常运行,并在一定程度上提高太阳能的利用率。然而储能环节的充放电动作决策是一个复杂的问题,难以采用精确的数学模型或数值计算方法,需要采用数据驱动的人工智能方法进行决策。本发明提出一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,根据预测模型得出提前两步时间的光伏电池组的输出功率以及负荷所需功率,从而利用深度强化学习方法对储能电池组的充放电动作产生最优动作决策。
如图2,在本申请实施例中,本发明提供一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,所述方法包括步骤:
s1:获取t时刻能源系统的第一系统状态;
s2:获取(t-1)时刻所述能源系统的第二系统状态;
s3:根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
s4:根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态;
s5:根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策。
当基于深度强化学习对图1中的能源系统的管理进行多时间尺度最优决策时,首先获取t时刻能源系统的第一系统状态,以及获取(t-1)时刻所述能源系统的第二系统状态;然后根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;接着根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态;然后根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策。
在本申请实施例中,步骤s3中的根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型包括步骤:
获取所述第一系统状态、k组所述第二系统状态、长短期记忆人工神经网络及所述长短期记忆人工神经网络的输出目标值;
将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络;
获取所述长短期记忆人工神经网络输出的网络输出数据;
根据所述网络输出数据和所述输出目标值反向计算所述长短期记忆人工神经网络中各参数的误差;
利用随机梯度下降算法更新所述长短期记忆人工神经网络的梯度;
判断所述长短期记忆人工神经网络是否满足预设条件;
若是,更新所述长短期记忆人工神经网络以得到所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
若否,返回所述将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络步骤。
在本申请实施例中,当根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型时,首先获取所述第一系统状态、k组所述第二系统状态、长短期记忆人工神经网络及所述长短期记忆人工神经网络的输出目标值,然后将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络;接着获取所述长短期记忆人工神经网络输出的网络输出数据,并根据所述网络输出数据和所述输出目标值反向计算所述长短期记忆人工神经网络中各参数的误差;接着利用随机梯度下降算法更新所述长短期记忆人工神经网络的梯度;然后判断所述长短期记忆人工神经网络是否满足预设条件;如果判断为是时,更新所述长短期记忆人工神经网络以得到所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;如果判断为否时,返回所述将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络步骤。
在本申请实施例中,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络中各参数的误差是否达到第一阈值。
在本申请实施例中,当判断所述长短期记忆人工神经网络中各参数的误差达到第一阈值时,则认为所述长短期记忆人工神经网络满足预设条件。
在本申请实施例中,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络更新梯度的次数是否达到第二阈值。
在本申请实施例中,当判断所述长短期记忆人工神经网络更新梯度的次数达到第二阈值时,则认为所述长短期记忆人工神经网络满足预设条件。
在本申请实施例中,所述长短期记忆人工神经网络的表达式为:
ft=σ(wf·[ht-1,xt] bf)
it=σ(wi·[ht-1,xt] bi)
ot=σ(wo·[ht-1,xt] bo)
ht=ot*tanh(ct)
yt=wyht by
其中,ft、it、ot分别为遗忘门、输入门、输出门;ct、ht、yt分别为状态信息、隐藏层输出和网络输出;w为权重系数矩阵,wf为遗忘门ft的权重系数矩阵,依次同理;b为偏置矩阵,bf为遗忘门的偏置矩阵,依次同理;σ为sigmoid函数。
在本申请实施例中,所述根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态包括步骤:
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型和t时刻所述能源系统的所述第一系统状态;
将所述第一系统状态输入所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型输出的(t 1)时刻和(t 2)时刻所述能源系统分别对应的所述第三系统状态和所述第四系统状态。
在本申请实施例中,当根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态时,首先获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型和t时刻所述能源系统的所述第一系统状态;然后将所述第一系统状态输入所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;然后获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型输出的(t 1)时刻和(t 2)时刻所述能源系统分别对应的所述第三系统状态和所述第四系统状态。
在本申请实施例中,所述根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策包括步骤:
获取t时刻所述能源系统能量调度的第一奖励函数;
获取(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态以及第一动作和第二动作;
根据所述第三系统状态和所述第四系统状态以及所述第一动作和所述第二动作对所述第一奖励函数进行更新以得到第二奖励函数;
初始化经验池和动作值函数;
将t时刻的状态、动作、奖励值以及(t 1)时刻的状态存储到所述经验池;
判断所述经验池大小是否达到2(n k)个;
若是,从所述经验池中随机取出n组数据,将n组数据经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到状态集序列{st,st 1,st 2},并以所述ε-greedy策略选取动作序列{at,at 1,at 2},将t时刻的状态、动作、奖励值以及(t 1)时刻的实际状态存储到经验池;
若否,返回所述初始化经验池和动作值函数步骤;
将t时刻、(t 1)时刻和(t 2)时刻的状态序列及动作输入目标q网络得到目标q值ql-1,并计算三个时刻对应的奖励值;
根据q值公式计算t时刻的目标q值qt;
以t时刻、(t 1)时刻和(t 2)时刻的状态序列及动作作为q网络的输入,以t时刻的目标q值qt作为q网络输出的标签值,使用梯度下降法对q网络的的权重进行更新;
重复上述操作,每训练2n次,将q网络的参数赋予目标q网络以训练q网络;
当q网络训练完毕后选取预设时刻的系统状态序列,经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到提前两个时刻的状态序列,逐一配以对应的动作序列输入q网络,产生q值;
选取q值最大时的动作序列,将当前时刻的动作作为所述能源系统当前时刻的决策。时间序列如图3所示。
通过验证,利用本发明的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法对图1所示的能源系统进行储能能量调度,电源系统中光伏单元的发电功率、负载所需功率能够被准确地预测,光伏能源利用率及系统决策的可靠性得以提升。
在本申请实施例中,所述第一奖励函数的表达式为:
其中,st为t时刻系统的状态序列;at为t时刻系统的动作;dt为负载需要的能量;
在本申请实施例中,所述第二奖励函数的表达式为:
r(st,at)=γ0f(st,at) γ1f(st 1,at 1) γ2f(st 2,at 2)
其中,st为t、t 1、t 2三个时刻系统的状态集序列{st,st 1,st 2};at为t、t 1、t 2三个时刻系统的动作序列{at,at 1,at 2};γn(n=0,1,2)为折扣系数,其中γ0>γ1>γ2,且0<γn<1。
在本申请实施例中,所述q值的表达式为:
q(st,at)l=q(st,at)l-1 α[r(st,at)-q(st,at)l-1]
qt=q(st,at)l
其中,q(st,at)l-1为系统在状态序列集st以及动作集at下的原q值;q(st,at)l-1为基于贝尔曼方程更新后的q值。
本申请提供的一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,考虑单一时间尺度中动作决策在某些情形下会造成系统饱和及不稳定的问题,可根据当前以及预测的未来两个时刻的系统状态,对储能电池组的充放电动作产生最优动作决策;充分考虑未来时刻的系统状态,提高系统动作决策的可靠性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
1.一种基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述方法包括步骤:
获取t时刻能源系统的第一系统状态;
获取(t-1)时刻所述能源系统的第二系统状态;
根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态;
根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策。
2.根据权利要求1所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述根据所述第一系统状态和所述第二系统状态训练得到基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型包括步骤:
获取所述第一系统状态、k组所述第二系统状态、长短期记忆人工神经网络及所述长短期记忆人工神经网络的输出目标值;
将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络;
获取所述长短期记忆人工神经网络输出的网络输出数据;
根据所述网络输出数据和所述输出目标值反向计算所述长短期记忆人工神经网络中各参数的误差;
利用随机梯度下降算法更新所述长短期记忆人工神经网络的梯度;
判断所述长短期记忆人工神经网络是否满足预设条件;
若是,更新所述长短期记忆人工神经网络以得到所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
若否,返回所述将所述第一系统状态和k组所述第二系统状态输入所述长短期记忆人工神经网络步骤。
3.根据权利要求2所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络中各参数的误差是否达到第一阈值。
4.根据权利要求2所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述判断所述长短期记忆人工神经网络是否满足预设条件包括步骤:
判断所述长短期记忆人工神经网络更新梯度的次数是否达到第二阈值。
5.根据权利要求2所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述长短期记忆人工神经网络的表达式为:
ft=σ(wf·[ht-1,xt] bf)
it=σ(wi·[ht-1,xt] bi)
ot=σ(wo·[ht-1,xt] bo)
ht=ot*tanh(ct)
yt=wyht by
其中,ft、it、ot分别为遗忘门、输入门、输出门;ct、ht、yt分别为状态信息、隐藏层输出和网络输出;w为权重系数矩阵,wf为遗忘门ft的权重系数矩阵,依次同理;b为偏置矩阵,bf为遗忘门的偏置矩阵,依次同理;σ为sigmoid函数。
6.根据权利要求1所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述根据所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型及所述第一系统状态计算得到(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态包括步骤:
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型和t时刻所述能源系统的所述第一系统状态;
将所述第一系统状态输入所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型;
获取所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型输出的(t 1)时刻和(t 2)时刻所述能源系统分别对应的所述第三系统状态和所述第四系统状态。
7.根据权利要求1所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述根据深度强化学习算法及所述第三系统状态和所述第四系统状态做出t时刻所述能源系统的决策包括步骤:
获取t时刻所述能源系统能量调度的第一奖励函数;
获取(t 1)时刻和(t 2)时刻所述能源系统分别对应的第三系统状态和第四系统状态以及第一动作和第二动作;
根据所述第三系统状态和所述第四系统状态以及所述第一动作和所述第二动作对所述第一奖励函数进行更新以得到第二奖励函数;
初始化经验池和动作值函数;
将t时刻的状态、动作、奖励值以及(t 1)时刻的状态存储到所述经验池;
判断所述经验池大小是否达到2(n k)个;
若是,从所述经验池中随机取出n组数据,将n组数据经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到状态集序列{st,st 1,st 2},并以所述ε-greedy策略选取动作序列{at,at 1,at 2},将t时刻的状态、动作、奖励值以及(t 1)时刻的实际状态存储到经验池;
若否,返回所述初始化经验池和动作值函数步骤;
将t时刻、(t 1)时刻和(t 2)时刻的状态序列及动作输入目标q网络得到目标q值ql-1,并计算三个时刻对应的奖励值;
根据q值公式计算t时刻的目标q值qt;
以t时刻、(t 1)时刻和(t 2)时刻的状态序列及动作作为q网络的输入,以t时刻的目标q值qt作为q网络输出的标签值,使用梯度下降法对q网络的的权重进行更新;
重复上述操作,每训练2n次,将q网络的参数赋予目标q网络以训练q网络;
当q网络训练完毕后选取预设时刻的系统状态序列,经所述基于长短期记忆人工神经网络的能源系统重要参数两步时间预测模型预测得到提前两个时刻的状态序列,逐一配以对应的动作序列输入q网络,产生q值;
选取q值最大时的动作序列,将当前时刻的动作作为所述能源系统当前时刻的决策。
8.根据权利要求7所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述第一奖励函数的表达式为:
其中,st为t时刻系统的状态序列;at为t时刻系统的动作;dt为负载需要的能量;
9.根据权利要求7所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述第二奖励函数的表达式为:
r(st,at)=γ0f(st,at) γ1f(st 1,at 1) γ2f(st 2,at 2)
其中,st为t、t 1、t 2三个时刻系统的状态集序列{st,st 1,st 2};at为t、t 1、t 2三个时刻系统的动作序列{at,at 1,at 2};γn(n=0,1,2)为折扣系数,其中γ0>γ1>γ2,且0<γn<1。
10.根据权利要求7所述的基于深度强化学习的能源系统管理多时间尺度最优决策方法,其特征在于,所述q值的表达式为:
q(st,at)l=q(st,at)l-1 α[r(st,at)-q(st,at)l-1]
qt=q(st,at)l
其中,q(st,at)l-1为系统在状态序列集st以及动作集at下的原q值;q(st,at)l-1为基于贝尔曼方程更新后的q值。
技术总结