预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115759370A(43)申请公布日2023.03.07(21)申请号202211383630.2(74)专利代理机构长春市吉利专利事务所(普(22)申请日2022.11.07通合伙)22206专利代理师李晓莉(71)申请人国网吉林省电力有限公司地址130000吉林省长春市南关区人民大(51)Int.Cl.街10388号G06Q10/04(2023.01)申请人国网吉林省电力有限公司电力科学G06Q10/0631(2023.01)研究院G06Q50/06(2023.01)东北电力大学G06N3/04(2023.01)吉林省电力科学研究院有限公司G06N3/08(2012.01)(72)发明人孙勇李宝聚刘闯王佳蕊李德鑫陈厚合王尧胡枭王惠锋孟祥东吕项羽王伟李成钢张家郡冷俊高松刘畅张海锋庄冠群权利要求书2页说明书11页附图3页(54)发明名称一种基于MADDPG算法的映射运行方法(57)摘要本发明属于深度强化学习领域,公开了一种基于MADDPG算法的映射运行方法,为了实现分散式调控过程中,对于差异性节点的调峰及限制过响应,提高系统安全性与经济性,引入MADDPG(Multi‑AgentDeepDeterministicPolicyGradient)的深度强化学习训练方法对辅助参数加以训练;选用多智能体算法以模拟多个参与者与环境的交互过程;然后构建Actor‑Critic架构,针对每个智能体建立值函数,形成合理的智能体训练和应用机制;随后对经验回放池、深度连接层和目标网络等进行进一步设置并融合虚拟遗憾最小化思想对稀疏奖励下的智能体训练产生引导作用;最后使用代价函数估计其他智能体策略,并针对策略集合进行优化,以实现多个智能体在训练阶段结束后,能够各自在应用状态下给出下一次最佳动作策略。CN115759370ACN115759370A权利要求书1/2页1.一种基于MADDPG算法的映射运行方法,其特征在于,包括以下步骤:S1将多网微系统模型映射在MADDPG多智能体环境中;S2构建Actor‑Critic构架:将Value‑Based单步更新和Policy‑Based连续动作结合;S3构建Actor更新方法:将梯度公式扩展到确定性策略针对每个智能体建立主网络,并构建经验池,存放过往经验以提供给智能体用以后续训练;S4构建Critic更新方法:对N个智能体分别建立策略网络、目标策略网络、价值网络和目标价值网络共计4N个智能体数量的网络;S5构建对其他智能体策略的估计:对每个智能体维护N‑1个策略逼近函数,其逼近代价为对数代价函数,并且加上策略的熵。2.如权利要求1所述的一种基于MADDPG算法的映射运行方法,其特征在于,步骤S1中,所述多网微系统模型为:微网可控负荷节点或多方贝叶斯博弈。3.如权利要求1所述的一种基于MADDPG算法的映射运行方法,其特征在于,步骤S1中,所述MADDPG算法中包含有N个智能体,每个智能体仅能观测到环境的局部状态信息,无法得知全局状态,且含有神经网络,网络参数分别为θ={θ1,···,θN},其策略的集合为π={π1,···,πN};所述智能体的主网络包含两种的网络:一是策略网络μ,用来做出符合当前环境和状态的决策;二是价值网络Q,用来评判策略网络输出动作的优劣;所述策略网络根据局部状态信息oi生成动作ai后,环境会返回奖励值ri与下一时刻的观测量oi',将所有智能体的信息{x,a1,···,aN,r1,···,rN,x'}存入经验池D中,等待训练阶段作为训练样本供神经网络使用。4.如权利要求1所述的一种基于MADDPG算法的映射运行方法,其特征在于,步骤S4中,所述目标网络分为目标策略网络μ'和目标价值网络Q',分别使用主网络中的策略网络参数和价值网络参数进行初始化,具体为:S201策略网络通过智能体的累积期望奖励J(θi)进行网络函数的更新,梯度策略更新公式1和公式2:公式2中:为网络参数为θi的策略网络预期回报梯度,用于更新策略网络参数;为在当前状态x和动作集合{a1,···,aN}下主价值网络输出的动作值函数关于动作ai的梯度;为策略网络给出的动作关于θi的梯度;S202价值网络通过最小化TD误差来更新网络参数,更新公式3:公式3中:L(θi)为价值网络的损失函数,用于评估价值网络估计的价值函数与实际价值函数的误差;y为实际的动作值函数,可以表示为公式4:公式4中:γ为折扣因子;γ∈[0,1];为动作值函数,用于评估后续步2CN115759370A权利要求书2/2页骤动作优劣,由目标价值网络输出得到;S203主网络的训练目标是最大化策略网络的期望收益J(μi),同时最小化价值网络损失函数L(θi),对主网络中的策略网络和价值网络以学习率