本发明属于电力调度,具体涉及一种输配电协同的多时间尺度优化调度方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、电网在长期的运行实践中,形成了各级协调的分层调度架构,不同区域间功率输送通道的送受电计划是各区域、省级电网计划编制的重要边界。随着可再生能源以集中和分布方式的大规模接入输电网和主动配电网(active distribution network,简称adn),调度模式从“发电跟踪负荷”逐步转变为“源荷互动”,使电力系统优化调度问题的高维复杂非线性特点更加突出。同时,各级电网由不同的调控中心负责,需要保证相对独立和责权清晰,导致单一主体难以获取海量的系统全局信息,传统集中式求解方法难以适用于多层级系统的调度决策。因此,如何利用各主体的有限信息实现协同优化,以分布式思路设计高效精准的求解方法,是多级系统协同模式下优化调度亟需解决的关键问题之一。
3、据发明人了解,现有多层级系统优化调度问题的分布式求解方法主要分为2类:第1类是基于物理模型的方法,如目标级联法(analytical target cascading,简称atc)、交替方向乘子法(alternating direction method of multipliers,简称admm)、辅助问题原理、主从分裂法、peaceman-rachford分裂方法(pr splitting method,简称prsm)等,依据既定的系统网架结构和调度资源特性建立物理模型,其受限于信息交互,对电网结构和设备变化的适应性不强、在线计算成本高且效率低;第2类是基于物理模型和数据驱动相结合的分布式联合决策方法,其结合数据驱动在特征提取和决策效率方面的优势,具有泛化能力强与决策精度高的特点。有相关文献提出了基于径向基函数神经网络和改进并行子空间算法的输配协同优化调度策略、基于长短时记忆网络(long short-term memory,简称lstm)处理机组组合问题的深度学习-物理模型嵌套求解方法,以及基于数据驱动模型嵌套atc算法的分布式输配系统负荷恢复方法;虽然均能以较高的效率实现优化决策,但因采用单一价值网络评价累计奖励和约束条件的影响而导致拟合能力有限。
4、深度强化学习算法通过与电力系统环境不断交互的试错过程学习最优调度策略,可有效应对系统随机性因素可能导致的异常决策问题。近端策略优化、演员评论家(actor-critic,简称ac)算法、双深度q网络和深度确定性策略梯度(deep deterministic policygradient,简称ddpg)算法等深度强化学习算法已被广泛应用于提取电网运行的深层特征。有相关文献提出了基于混合整数二阶锥规划(mixed-integer second-order coneprograming,简称misocp)和多智能体(multi-agent,简称ma)ddpg的日前-日内配电网多时间尺度无功优化策略、基于misocp和改进的ddpg算法提出配电网双时间尺度有功无功协调优化策略;但是,所采用的深度强化学习方法不能有效处理q值的过估计问题,往往需要在多次训练过程中寻求神经单元的最优参数设置。为解决该问题,可基于截断双q学习(clipped double q-learning,简称cdq-learning)的思想提出双延迟深度确定性策略梯度(twin delayed ddpg,简称td3)算法,能有效避免梯度破坏问题,适用于表征复杂问题的优化策略,具有良好的应用前景。目前对td3的相关研究均聚焦于配电网优化与智能算法的结合,在输配协同调度领域中的应用尚属空白。
技术实现思路
1、为了解决上述问题,本发明提出了一种输配电协同的多时间尺度优化调度方法及系统,基于无效动作屏蔽(invalid action masking,简称iam)策略的改进多智能体td3(imatd3)算法和peaceman-rachford目标级联法(pr-analytical target cascading,简称pr-atc)实现输配电协同的多时间尺度优化调度;在日前调度阶段,采用基于prsm理论改进atc算法乘法器更新策略的pr-atc算法;在日内调度阶段,采用imatd3算法,并首次将其应用于输配协同优化调度领域,实现多智能体间协同合作的在线决策。
2、根据一些实施例,本发明的第一方案提供了一种输配电协同的多时间尺度优化调度方法,采用如下技术方案:
3、一种输配电协同的多时间尺度优化调度方法,包括:
4、获取输电网和配电网的运行数据;
5、根据所获取的运行数据,构建输配电协同的日前调度模型;
6、求解所构建的日前调度模型,得到输配电协同的最优日前调度方案;
7、根据所得到的最优日前调度方案构建输配电协同的日内调度模型;
8、求解所构建的日内调度模型,得到输配电协同的最优日内调度方案,完成输配电协同的多时间尺度优化调度。
9、作为进一步的技术限定,所构建的输配电协同的日前调度模型为
10、
11、其中,ta为日前调度时段集合;为配电网n支路集合;fahead为输配系统日前运行成本;ftg和分别为输电网和第n个配电网的运行成本;ag、bg和cg为机组g的运行成本系数;为机组启停成本;和分别为机组备用上调成本和下调成本;和分别为机组上调备用量和下调备用量;和分别为配电网n的网损成本系数、燃气轮机e的运行成本系数、负荷l的切负荷成本系数、光伏v的弃光成本系数和风电w的弃风成本系数;为配电网n中支路ij在时段t电流的平方;pg,t为机组g在时段t的出力;rn,ij为配电网n中支路ij的电阻;为配电网n中燃气轮机e在时段t的出力;和分别为配电网n中负荷l、光伏v和风电w在时段t的切负荷、弃光和弃风量。
12、进一步的,所构建的建输配电协同的日内调度模型为
13、
14、其中,和分别为输电网和配电网n的日内调度目标函数;ti为日内调度时段集合。
15、作为进一步的技术限定,采用目标级联法求解所构建的输配电协同的日前调度模型,具体过程为:
16、(1)初始化;
17、设定罚函数乘子λn,k、μn,k和虚拟发电机虚拟负荷等初值,并置迭代次数k=0;
18、(2)配电网层并行优化;
19、并行求解主动配电网优化模型,决策虚拟发电机变量并传递给上层输电网;
20、(3)对偶乘子半步更新,更新二分之一罚函数乘子;
21、(4)输电网机组组合优化决策;
22、输电网将(2)中接收到的作为已知信息,进行机组组合决策优化,得到虚拟负荷量
23、(5)判断循环收敛条件;
24、采用循环判据
25、其中,ε1和ε2分别为联络线功率收敛精度要求和成本迭代精度要求,若满足则停止计算并保存机组启停计划、联络线交换功率基点等优化结果,结束优化过程;否则更新罚函数乘子,置k=k+1并返回(2)。
26、作为进一步的技术限定,采用改进多智能体双延迟深度确定性策略梯度求解所构建的建输配电协同的日内调度模型,具体过程为:
27、(1)载入训练数据集;
28、配置输电网环境参数,将得到输配电协同的最优日前调度方案中的配电网初始时段节点有功注入功率作为智能体探索的初始状态,并初始化智能体联合观测空间;
29、(2)配电网多智能体系统中心化训练;
30、根据环境状态和所得到的得到输配电协同的最优日前调度方案的基准值,配电网智能体输出动作到输电网环境,并接收反馈奖励,然后转移系统环境状态;
31、(3)更新经验池;
32、将配电网智能体探索形成的经验样本存储到经验池,用于回放更新网络参数;
33、(4)改进多智能体双延迟深度确定性策略梯度网络更新;
34、在达到预设的回合阈值后,智能体通过经验回放机制更新网络参数;
35、(5)记录训练过程;
36、保存模型训练产生的超参数信息,判断所采用的改进多智能体双延迟深度确定性策略梯度是否稳定;
37、(6)判断训练是否达到回合阈值,若是则保存网络并结束离线训练,否则返回(2)。
38、进一步的,所述输配电协同的多时间尺度优化调度的过程为:
39、(1)读取输电网和配电网的运行数据以及输配电协同的最优日前调度方案;将输配电参数读取到智能体,更新日前调度预测值,将日前调度基准值传递给日内滚动优化过程;
40、(2)基于改进多智能体双延迟深度确定性策略梯度进行日内优化调度,得到联络线功率交换计划;
41、(3)输配协同分块并行计算;根据所得到的联络线交换功率计算区域内调度计划;
42、(4)日内调度滚动优化过程;判断是否完成日内滚动优化的全部调度计划,若不满足则返回(1);否则完成输配电协同的多时间尺度优化调度。
43、作为进一步的技术限定,所述输配电协同的多时间尺度优化调度采用中心化训练-分散化执行框架;离线训练阶段,每个智能体共享观测信息,将其他智能体视为环境的构成要素,通过所构建训练环境和奖励函数,使多个配电网智能体学习联络线交换功率计划制定策略;在线应用阶段,将训练完成的改进多智能体双延迟深度确定性策略梯度算法模型下发到各个配电网调度中心,根据局部的系统环境变化实时调整联络线交换功率,佐以物理模型计算,实现输配协同分布式多时间尺度优化调度。
44、根据一些实施例,本发明的第二方案提供了一种输配电协同的多时间尺度优化调度系统,采用如下技术方案:
45、一种输配电协同的多时间尺度优化调度系统,包括:
46、获取模块,其被配置为获取输电网和配电网的运行数据;
47、第一建模模块,其被配置为根据所获取的运行数据,构建输配电协同的日前调度模型;
48、第一优化调度模块,其被配置为求解所构建的日前调度模型,得到输配电协同的最优日前调度方案;
49、第二建模模块,其被配置为根据所得到的最优日前调度方案构建输配电协同的日内调度模型;
50、第二优化调度模块,其被配置为求解所构建的日内调度模型,得到输配电协同的最优日内调度方案,完成输配电协同的多时间尺度优化调度。
51、根据一些实施例,本发明的第三方案提供了一种计算机可读存储介质,采用如下技术方案:
52、一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方案所述的输配电协同的多时间尺度优化调度方法中的步骤。
53、根据一些实施例,本发明的第四方案提供了一种电子设备,采用如下技术方案:
54、一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方案所述的输配电协同的多时间尺度优化调度方法中的步骤。
55、与现有技术相比,本发明的有益效果为:
56、本发明提出了基于pr-atc的输配系统日前调度求解方法,根据主子问题当前解在算法迭代周期内的误差,通过设置二分之一对偶乘子更新步优化乘法器更新策略,提升输电网和配电网之间的信息交互效率和质量,有效提升求解效率和收敛精度。
57、本发明提出了基于imatd3和pr-atc的日内滚动优化调度方法,将每个adn作为独立的智能体,于离线训练阶段,通过iam策略压缩动作区间,实现对不可到达状态空间的剔除,从而避免智能体在庞杂环境中训练的欺骗性回报问题和无效探索情况,使训练过程更加有效稳定;于在线应用阶段,通过imatd3简化输配系统间的交互过程,基于估值网络-行动者网络决策联络线交换功率,再通过输配各层级系统的并行计算制定完整有效的调度方案,进一步提升决策置信水平,形成了兼具准确性和高效性的调度方案。
1.一种输配电协同的多时间尺度优化调度方法,其特征在于,包括:
2.如权利要求1中所述的一种输配电协同的多时间尺度优化调度方法,其特征在于,所构建的输配电协同的日前调度模型为其中,ta为日前调度时段集合;为配电网n支路集合;fahead为输配系统日前运行成本;ftg和分别为输电网和第n个配电网的运行成本;ag、bg和cg为机组g的运行成本系数;为机组启停成本;和分别为机组备用上调成本和下调成本;和分别为机组上调备用量和下调备用量;和分别为配电网n的网损成本系数、燃气轮机e的运行成本系数、负荷l的切负荷成本系数、光伏v的弃光成本系数和风电w的弃风成本系数;为配电网n中支路ij在时段t电流的平方;pg,t为机组g在时段t的出力;rn,ij为配电网n中支路ij的电阻;为配电网n中燃气轮机e在时段t的出力;和分别为配电网n中负荷l、光伏v和风电w在时段t的切负荷、弃光和弃风量。
3.如权利要求2中所述的一种输配电协同的多时间尺度优化调度方法,其特征在于,所构建的建输配电协同的日内调度模型为其中,和分别为输电网和配电网n的日内调度目标函数;ti为日内调度时段集合。
4.如权利要求1中所述的一种输配电协同的多时间尺度优化调度方法,其特征在于,采用目标级联法求解所构建的输配电协同的日前调度模型,具体过程为:
5.如权利要求1中所述的一种输配电协同的多时间尺度优化调度方法,其特征在于,采用改进多智能体双延迟深度确定性策略梯度求解所构建的建输配电协同的日内调度模型,具体过程为:
6.如权利要求5中所述的一种输配电协同的多时间尺度优化调度方法,其特征在于,所述输配电协同的多时间尺度优化调度的过程为:
7.如权利要求1中所述的一种输配电协同的多时间尺度优化调度方法,其特征在于,所述输配电协同的多时间尺度优化调度采用中心化训练-分散化执行框架;离线训练阶段,每个智能体共享观测信息,将其他智能体视为环境的构成要素,通过所构建训练环境和奖励函数,使多个配电网智能体学习联络线交换功率计划制定策略;在线应用阶段,将训练完成的改进多智能体双延迟深度确定性策略梯度算法模型下发到各个配电网调度中心,根据局部的系统环境变化实时调整联络线交换功率,佐以物理模型计算,实现输配协同分布式多时间尺度优化调度。
8.一种输配电协同的多时间尺度优化调度系统,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现了如权利要求1-7任一项所述的输配电协同的多时间尺度优化调度方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现了如权利要求1-7任一项所述的输配电协同的多时间尺度优化调度方法的步骤。