基于PSO-DDPG算法的光储充电站实时控制策略研究

时间：2023-12-05 09:57:02

关键字：光储充电站 PSO-DDPG算法

手机看文章

扫描二维码
随时随地手机看文章

[导读]“双碳”背景下 ,光储充电站逐渐成为未来充电站的一种主流形式。为提高光储充电站的经济效益并降低二氧化碳排放 ,提出了一种基于改进深度强化学习的光储充电站实时控制策略。首先 ,建立以碳排放最小与运行成本最低为目标的优化模型并将其转换为马尔可夫决策过程；其次 ,提出了一种基于经验继承机制的粒子群优化-深度确定性策略梯度算法（Particle swarm optimization-Deep Determini公tic Policy Gradient ,Pso-DDPG）；最后 , 考虑动态碳排放因子开展算例分析 ,验证了所提Pso-DDPG策略的有效性。

随着电动汽车(Electric vehicle，EV)保有量的快速增长，公共充电设施得到了越来越多的关注[1]。常规的电动汽车充电站(Charging Station，CS)仅通过向电网购电、向电动汽车用户售电来实现盈利，但其充电负荷可调节性差，晚间充电负荷与居民负荷叠加易形成“峰上加峰”现象[2-3]。在此背景下，一种在站内配置了光伏(Photovoltaic，Pv)与储能系统(Energy Storage System，ESS)的光储充电站得到了发展。光伏系统的加入提高了充电站的能源自给率与碳减排效益，而储能系统的调节作用起到了平滑配网(DistriBution Network，DN)供电功率和削峰填谷的作用。然而，光伏出力受多重因素影响，具有实时波动的特点，而电动汽车的随机充电行为更加大了对光储充电站实时调度的难度[4-5]。因此，本文提出了一种融合启发式算法与深度强化学习算法的光储充电站实时控制策略，通过粒子群算法(ParticleSwarmoptimization，PSo)拓展深度确定性策略梯度函数(Deep Deterministic Policy Gradient，DDPG)的探索性能，提高控制策略的求解质量与实时性能。

1光储充电站能量实时控制策略

为充分发挥光储充电站的节能减排效益，选取充电站碳排放量最小与运行成本最低为优化目标，建立光储充电站能量调度模型。此外，为提高所建立优化模型对复杂工况的实时应对性能，本文进一步将该优化模型建立为马尔可夫决策过程(Markov Decision Process，MDP)[6]。

1.1光储充电站能量调度模型

1.1.1目标函数

1)碳排放最小。为充分消纳光伏，提高充电站的能源自给率与碳减排效益，本文考虑电网动态二氧化碳排放因子，将充电站碳排放最小作为优化目标之一。

运行成本最低。光储充电站通过能量管理系统对站内能量流动进行控制，从而降低整站的运行成本，其中运行成本可以分为向电网购电成本以及储能损耗成本两部分：

1.1.2约束条件

1）充电站功率平衡：

上式中等号左侧代表受电端，右侧代表送电端。

2）储能运行约束：

3）电网供电功率约束：

4）电动汽车充电约束：

1.2基于MDP的能量实时控制策略

为提高所提策略的实时性能，本文将所建立的优化模型转换为马尔可夫决策过程，其核心思想如图1所示。在训练过程中，智能体从环境中捕捉实时状态st，依据当前策略做出控制动作at从而改变当前环境，而后通过奖励rt给予智能体实时反绩，引导智能体获得更高的奖励值以及更优越的控制策略。

1）状态st代表MDP模型中环境的实时信息。本文从电网、光伏、储能、用户四个角度构建智能体的状态空间，状态st为：

动作at是针对环境状态st所做出的控制决策。本文将储能充放电功率以及用户充电桩功率作为控制动作，即：

3）奖励rt是环境对智能体动作at的及时反绩。依据上文建立的优化模型，本文设计奖励rt包含二氧化碳排放成本CCO2以及运行成本两项，其中运行成本包含购电成本C1与储能损耗成本C2：

2基于PSO-DDPG的求解算法

DDPG是一种基于Actor-Critic架构的深度强化学习算法，其在连续动作空间问题上具有良好的学习性能。然而，DDPG算法训练过程中的梯度方向固定，仅与所抽取的mini-batch中的样本有关，这导致算法缺乏探索性，最终训练的智能体容易陷入局部最优。为此，本文提出了一种基于样本继承机制的PSO-DDPG算法，通过引入粒子群算法提高DDPG算法的探索性能。

2.1 PSO算法基本原理

作为一种经典的群体智能算法，PSO算法通过模拟自然界的鸟群捕食来实现优化问题的求解。具体而言，粒子群中的所有粒子都被分配了速度与位置，通过粒子个体在解空间单独寻优pt，进而求得全局最优解Gest。在选代过程中，粒子的位置xi，k与速度vi，k可由下式更新：

2.2 DDPG算法基本原理

DDPG算法通过Actor网络μ（s|θμ)、目标Actor网络μ/（s|θμ/）、critic网络Q（s，a|θQ）与目标critic网络Q/（s，a|θQ/）实现智能体的训练。在训练过程中，critic网络通过损失函数LQ更新网络参数：

2.3 PSO-DDPG算法训练流程

为解决DDPG算法探索性能不足的局限，本文提出了一种PSO-DDPG算法，其训练流程如图2所示。首先，基于PSO算法对光储充电站随机场景进行求解，将满足精度要求的全局最优解Gest对应的样本存入经验池中，直至达到PSO模块的最大回合NP。其次，运行DDPG算法模块，智能体观测充电站状态st，做出对储能系统与充电桩的控制动作at，在得到奖励后将样本存入经验池。然后，从PSO与DDPG的混合经验池中随机抽取mini-batch样本（sj，aj，rj，sj+1）更新Critic与Actor，并进一步软更新两个目标网络。最后，重复DDPG的训练流程直至达到最大回合ND。这样，探索性能优越的PSO算法通过经验池将样本继承给DDPG智能体，增强了DDPG的探索性能与全局寻优能力。

3算例分析

3.1参数设置

为了便于算例的量化分析，对光储充电站设定如下条件：1）储能容量取300 kw.h，额定充放电功率120 kw，光伏容量200 kw，站内配置了12个60 kw快充桩；2）储能损耗系数取0.06元/（kw.h），电网不同时段碳排放系数如图3所示[7]，二氧化碳排放成本系数为0.04元/kg[8]。

3.2训练过程分析

设PSO算法的种群规模为100，最大选代次数为200，惯性因子取0.8，个体与群体加速因子均取1.8。此外，设DDPG算法折扣率为0.99，学习率为0.000 5，mini-batch容量为100，经验池容量为12 000，最大训练次数为1 000，可得所提PSO-DDPG算法的训练曲线如图4所示。从图中可见，智能体训练奖励曲线快速上升，并在300回合左右进入稳定范围，奖励曲线最终在-6.96左右小幅振荡，证明了所提算法能够通过PSO经验继承机制快速帮助智能体探索训练环境。

3.3策略有效性分析

光储充电站在无序与有序场景下的功率曲线如图5所示，无序与有序场景的成本对比如表1所示。

由图5（a）可见，无序场景的功率控制逻辑是当有充电负荷时先由光伏供电，光伏不足时由储能系统供电，而站内光储无法满足充电需求则由电网供电，这导致充电站未完全发挥光储的协调互补功能，全天向电网购电918.30 kw.h，花费662.78元。而所提策略充分发挥了储能与充电桩的灵活调节能力，不仅削减了最大充电负荷，同时购电费用仅为499.04元，相较于前者降低了24.71%。值得注意的是，所提策略的储能损耗成本要高于无序场景，这主要是由于对储能更频繁的调度，尽管如此，相较于购电成本的降低，储能损耗增加21.94元仍是可以接受的。以上结果验证了所提PSO—DDPG策略能够更好地发挥储能的灵活调整作用，利用峰谷电价降低光储充电站的整体运行成本。

4结束语

在“双碳”背景下，光伏等分布式可再生能源与电动汽车的协调发展无疑是大势所趋。针对光储充电站，本文提出了一种基于PSO改进深度强化学习的算法，基于经验继承机制提高DDPG智能体的探索性能与求解能力。通过算例结果发现，本文所提PSO-DDPG策略能够有效完成光储充电站的实时能量控制，相较于无序场景降低了24.71%的购电成本，并能够降低二氧化碳排放。下一步将考虑电动汽车集群的V2G能力，进一步优化所提策略。