本发明属于含分布式光伏配电网优化,涉及一种多智能体强化学习配电网优化方法,尤其是一种以分布式光伏消纳为目标的多智能体强化学习配电网优化方法。
背景技术:
1、在国家能源局对光伏发电项目补贴的大力支持下,光伏发电技术迅速发展,电力系统不再是简单的中心控制,而变成分布式系统,分布式光伏发电系统得到了发展。然而,分布式光伏电源接入改变了传统配电网的潮流分布,对配电网的电压、有功功率等状态量都产生了不容忽视的影响,同时由于分布式光伏具有较强的随机性、间歇性和波动性,随着其渗透率的不断提高,大量的分布式光伏电源的接入使配电网电压波动愈发明显,电能质量不断恶化,给配电网的安全、经济和稳定运行带来了诸多挑战。因此,如何将分布式光伏发电系统与配电网进行协调和优化,提高其接入电网的效率和稳定性,成为了当前研究的重要方向。
2、为了解决分布式电源所带来的问题,大量文献挖掘分布式光伏的有功/无功调节能力,研究了基于模型的配电网中分布式光伏的调控方法。在整个优化过程中,需满足潮流、状态变量、控制变量等运行约束条件,并且参与调节的无功补偿设备有发电机的端电压、电容器组等离散调节设备以及静止无功补偿器等连续调节设备,目标函数要满足电路网络损耗最小,且兼顾电压质量使其不越限。常用的贝叶斯优化、粒子群算法、遗传算法等启发式搜索算法和传统的数学优化方法能较好的实现配电网的优化,但仍有许多局限性。相较于传统算法,强化学习算法可以学习到配电网的最优优化策略,与配电网进行实时交互,有效的克服系统中的各种扰动。
3、光伏消纳率是指光伏发电系统发出的电能在特定时间段内被电网实际消纳的比例。具体来说,它是指光伏发电系统实际向电网输送的电能与光伏发电系统在同一时间段内所发出的电能之比。在实际应用中,光伏消纳率是衡量光伏发电系统接入电网的重要指标,也是评估光伏发电系统运行效率和经济性的重要参数。光伏消纳的推广可以促进能源结构的优化和调整,降低对传统能源的依赖,实现能源的可持续发展和环保,提高光伏消纳率可以降低光伏发电系统的成本,促进光伏发电技术的应用和推广。
4、实现分布式光伏配电网自适应控制的同时提升光伏消纳率,对于保障电网的稳定运行、促进可持续发展有重要意义。然而大多数强化学习方法以最低网损为优化目标,未充分考虑光伏消纳率。使用多目标粒子群等多目标进化算法考虑光伏消纳率的优化问题能兼顾配电网的多个优化目标,但此类算法鲁棒性和适应性不强。
5、单智能体强化学习的集中式控制方法由于通信能力限制,难以做到在分布式光伏数量较多场景下的实时响应。多智能体强化学习算法通过与环境的交互来不断学习和优化,在多个智能体之间共享经验和知识,学习到最优的策略或者行为,可以进行协作控制以实现最大化奖励或者预期收益的目标。研究基于多智能体强化学习的配电网优化方法,使智能体具有更有效的调节电压能力,同时最大限度地提高分布式光伏消纳率具有重要意义。
6、综上所述,现有配电网优化方法不能在兼顾配电网安全和提升光伏消纳率等多个优化目标的同时,实现分布式光伏数量较多场景下的实时响应,其鲁棒性和适应性不强。
7、经检索,未发现与本发明相同或相似的现有技术的文献。
技术实现思路
1、本发明的目的在于克服现有技术的不足,提出一种以分布式光伏消纳为目标的基于软动作评价soft-actor-critic的多智能体强化学习配电网优化方法,并设计特定的奖励函数,在含高渗透分布式光伏配电网中对光伏逆变器进行调控,能够最大限度地减少电压违规和光伏功率削减。
2、本发明解决其现实问题是采取以下技术方案实现的:
3、一种以分布式光伏消纳为目标的多智能体强化学习配电网优化方法,包括以下步骤:
4、步骤1、构建以分布式光伏消纳为目标的配电网优化模型;
5、步骤2、将步骤1的配电网优化制模型建模为马尔可夫决策过程,构建基于多智能体马尔可夫决策过程的配电网优化模型的体求解框架;
6、步骤3、基于步骤2的配电网优化模型求解框架,使用多智能体soft-actor-critic算法对配电网优化模型进行求解;
7、步骤4、使用步骤3中训练好的策略神经网络对配电网进行优化。
8、而且,所述步骤1的配电网优化模型的目标函数为:
9、目标函数f1:最小化系统电压违规率vviolation
10、系统电压违规率指整个系统节点电压超出规定电压范围的值的总和。
11、minf1=min vviolation
12、目标函数f2:最大化系统光伏消纳率
13、
14、式中i为配电网中的节点,和表示节点i的光伏最大有功出力和无功出力,和表示节点i的光伏实际有功出力和无功出力;
15、其约束条件为:满足光伏电源出力容量约束和配电网潮流约束。
16、而且,所述步骤2的具体步骤包括:
17、2.1多个智能体获取当前配电网环境不同区域的状态;
18、2.2智能体根据配电网环境不同区域的状态指导配电网设备做出响应动作;
19、2.3动作作用到配电网环境中,然后配电网环境根据状态转移关系转移到新的配电网状态,同时配电网环境产生一个奖励反馈给智能体;
20、2.4重复步骤2.1和2.3直到达到预定次数;
21、2.5将每一步返回的奖励与折扣回报率做乘积和得到总奖励值。
22、而且,所述步骤2中的多智能体、配电网环境、状态、动作、奖励、状态转移关系、回报折扣率的定义为:
23、其中,多智能体是求解框架中需要求解的策略,根据配电网划分的区域个数k,设置k个智能体,每个智能体各负责控制配电网的一个区域中的智能光伏逆变器设备,智能体的决策过程为:智能体k根据每个时间步的局部状态做出决策动作
24、其中,配电网环境对应含分布式光伏的配电网环境,自然满足潮流约束;
25、其中,状态定义为配电网各区域的节点观测数据;t时刻的智能体k的状态包括区域内所有节点的负载观测以及每个pv允许的最大有功功率和无功功率设定值:
26、
27、式中,和分别表示t时刻i节点的负载有功功率和无功功率。
28、其中,动作为配电网优化问题中智能体可以控制的设备变量,即为光伏设备发电的无功功率;t时刻设定的动作包括第k个区域光伏逆变器的所有动作,动作向量大小是第k个区域中部署的pv数量;
29、将神经网络的输出限制在[-1,1],用αpv,q(j,t)表示,并线性放缩至设备的无功功率限制内,区域内第j个光伏t时刻的动作可以定义为:
30、
31、区域内第j个光伏t时刻的无功出力为
32、
33、式中,表示t时的时刻光伏j最大无功出力值。
34、其中,状态转移关系定义为受到智能体进行动作决策后当前的环境状态更新为下一状态的概率,如下式
35、p(st+1|st×[ak]k)=ρ
36、式中,ρ为环境转移率,在配电网环境中取值为1。
37、其中,奖励在t时刻第k个区域的智能体,基于在状态下执行的动作会得到一个局部奖励为促进光伏的就地消纳提高新能源利用率,定义奖励函数为:
38、
39、
40、
41、
42、式中,n为电网所有节点的个数,k为智能体数量。vi,violation和vj,violation分别为全局电压违规率和局部电压违规率,和分别为光伏的有功消纳率和无功消纳率。σ为全局电压违规惩罚系数,β区域内的局部电压违规惩罚系数;ε为有功发电奖励系数;ρ为无功消耗惩罚系数;δ为用于优化电网电压的阈值。
43、其中,回报折扣率也称为折扣因子,定义为γ,是0到1之间的一个值,用于衡量智能体在多次决策中所获得的累积奖励的折现价值。
44、而且,所述步骤3的具体步骤包括:
45、3.1对配电网进行分区,使用基于sac的强化学习方法,每一个配电网区域都有一个基于sac的深度强化学习智能体控制该区域内的智能光伏,actor和critic都被表述为深度神经网络;
46、3.2actor策略网络∏生成动作并和环境交互,交互过程与步骤2一致,在此交互过程中采集数据样本存入样本池;
47、3.3critic使用q函数评估actor的表现,并指导actor下一阶段的动作;actor网络通过改变策略π以获得更高的奖励来确定采取更优的动作,actor的目标函数表述为:
48、
49、式中,γ为折扣因子;系数α表示熵对奖励函数的贡献,r(·)为奖励函数,h(·)为熵值的计算。由critic网络计算的q函数由下式表示
50、y(st,rt,st+1)=r+γ(q(st+1,at+1)-αlogπθ(at+1|st+1))
51、式中a,s和r分别为动作、状态和奖励值,θ为网络的参数。
52、3.4更新actor网络,网络通过梯度上升方式更新
53、
54、3.5更新critic网络,通过梯度下降方式更新;
55、
56、式中,b表示从样本池采样得到的一批数据;
57、3.6对每个智能体执行步骤3.2-3.5直至预定次数,最终获得训练好的策略神经网络。
58、而且,所述步骤4的具体步骤包括:
59、4.1定义测试环境中的可调节设备动作、状态;
60、4.2将初始化的环境状态输入步骤3训练好的策略网络,获得此刻的配电网应采取的设备动作;
61、4.3执行此刻的配电网设备动作,获得新的配电网状态;
62、4.4将新获得的状态输入策略网络,获取设备动作;
63、4.5循环进行4.3和4.4步骤,直到配电网的优化过程结束。
64、本发明的优点和有益效果:
65、1、本发明针对光伏发电并网后造成的系统不稳定和光伏消纳率低等问题,提出了一种以光伏消纳为目标的多智能体强化学习配电网优化方法,以最大限度地减少电压违规和光伏有功功率削减为优化目标,提出一种基于soft-actor-critic的多智能体强化学习算法,并设计特定的奖励函数,用于在含分布式光伏配电网中对光伏逆变器进行调控。
66、2、本发明针对单智能体集中控制分布式光伏难以实时响应的问题,使用多智能体强化学习可以实现配电网的多区域协同。基于sac的强化学习方法在训练过程中允许高度随机的动作,使之能在测试时更好的应对分布式光伏配电网的各种扰动,具有很强的鲁棒性。
67、3、本发明提出的奖励函数考虑了局部与全局的电压调控协作关系,同时针对光伏消纳问题设计实际光伏功率与最大光伏功率的比值作为奖励函数项,有助于提高光伏消纳率。
1.一种以分布式光伏消纳为目标的多智能体强化学习配电网优化方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种以分布式光伏消纳为目标的多智能体强化学习配电网优化方法,其特征在于:所述步骤1的配电网优化模型的目标函数为:
3.根据权利要求1所述的一种以分布式光伏消纳为目标的多智能体强化学习配电网优化方法,其特征在于:所述步骤2的具体步骤包括:
4.根据权利要求3所述的一种以分布式光伏消纳为目标的多智能体强化学习配电网优化方法,其特征在于:所述步骤2中的多智能体、配电网环境、状态、动作、奖励、状态转移关系、回报折扣率的定义为:
5.根据权利要求1所述的一种以分布式光伏消纳为目标的多智能体强化学习配电网优化方法,其特征在于:所述步骤3的具体步骤包括:
6.根据权利要求1所述的一种以分布式光伏消纳为目标的多智能体强化学习配电网优化方法,其特征在于:所述步骤4的具体步骤包括: