预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114977326A(43)申请公布日2022.08.30(21)申请号202210706842.3H02J3/50(2006.01)(22)申请日2022.06.21(71)申请人中国电力科学研究院有限公司地址100192北京市海淀区清河小营东路15号申请人国网北京市电力公司国家电网有限公司(72)发明人韩笑傅凯李健史文龙王新迎陈巍(74)专利代理机构北京中巡通大知识产权代理有限公司11703专利代理师孟大帅(51)Int.Cl.H02J3/46(2006.01)H02J3/48(2006.01)权利要求书5页说明书15页附图2页(54)发明名称能源互联网的协同优化决策方法、系统、设备及存储介质(57)摘要一种能源互联网的协同优化决策方法、系统、设备及存储介质,方法包括设置奖励机制寻找最优策略,以最优策略作为智能体深度强化学习的训练目标,对区域能源互联网运行优化模型进行求解,得到最优解作为动作策略;智能体根据能源互联网当前的运行状态,取相似性度量最小值所对应运行状态的动作策略作为深度强化学习训练的初值进行训练,给出训练后相应的动作策略;将动作策略传递给环境后,运行状态过渡到下一时刻的状态,通过设置的奖励机制和动作约束条件,给予动作策略的好坏进行相应奖励,通过迭代训练,得到深度强化学习模型;利用深度强化学习模型基于运行状态相似度对各时刻动作协同优化决策。本发明能够实现能源互联网的快速精准优化调度。CN114977326ACN114977326A权利要求书1/5页1.一种能源互联网的协同优化决策方法,其特征在于,包括:设置奖励机制寻找最优策略π*,以最优策略π*作为智能体深度强化学习的训练目标,对预先构建的区域能源互联网运行优化模型进行求解,得到最优解作为动作策略智能体根据能源互联网当前的运行状态St,取相似性度量λ最小值所对应运行状态的动作策略作为深度强化学习训练的初值进行训练,给出训练后相应的动作策略将动作策略传递给环境后,运行状态过渡到下一时刻的状态St+1,通过设置的奖励机制和动作约束条件,给予动作策略的好坏进行相应奖励,通过迭代训练,得到深度强化学习模型;利用深度强化学习模型基于运行状态相似度对各时刻动作协同优化决策。2.根据权利要求1所述能源互联网的协同优化决策方法,其特征在于,还包括环境设置的步骤,所述环境设置包括设置区域能源互联网的状态空间和动作空间信息,所述状态空间为智能体所感知的环境信息,动作空间为相关决策变量,具体的设置方式如下:状态空间设置时,t时刻智能体的状态表示为如下表达式:式中,Pi,t为t时刻注入节点i的传统出力有功功率,Qi,t为t时刻注入节点i的传统出力无功功率,为t时刻节点i的气体压强平方,Φi,t为t时刻节点i的注入热功率,为t时刻节点i注入的光伏出力功率,为t时刻节点i注入的风力出力功率;智能体的动作空间为其控制区域内可控设备出力,表示为如下表达式:mt式中,Pt为燃气轮机有功出力,为燃气轮机无功出力;esPt为电储能有功出力,为电储能无功出力。3.根据权利要求2所述能源互联网的协同优化决策方法,其特征在于,还包括相似性度量的设置步骤,记能源互联网环境为如下表达式:式中,为网络环境中时刻t节点i到节点j的有功功率,为为网络环境中时刻t节点i到节点j的无功功率,其中节点i与j为网络中的任意节点编号且i>j;时刻t1与时刻t2的状态st1与状态st2之间的相似度度量定义为状态分量的偏差均方值,计算表达式如下:当λ≤24.5%时,状态st1与状态st2之间相似;当λ>24.5%时,状态st1与状态st2不相似。4.根据权利要求1所述能源互联网的协同优化决策方法,其特征在于,所述设置奖励机制寻找最优策略π*的步骤,以累积回报期望值最大为标准,表达式如下:式中,ρπ为策略π形成的轨迹;T为一天总调度时段数;rt为即时奖励。2CN114977326A权利要求书2/5页5.根据权利要求4所述能源互联网的协同优化决策方法,其特征在于,所述即时奖励rt各项包括运行成本项和节点电压约束项,运行成本项和节点电压约束项分别如下:所述运行成本项以日运行成本最低为优化目标,目标函数为:mtCmt(t)=αPt式中,α为成本系数;定义度电成本系数为ρ,则电储能运行成本为:esCb(t)=ρ|Pt|从上级电网购电成本为:gridpvesmtloadPt=Pt+Pt+Pt‑Pt式中,λbuy(t)和λsell(t)分别表示t时段上级电网购电和售电价格;gridgridgridPt表示从上级电网购买的电功率,Pt>0表示购电,Pt<0表示售电;设置即时奖励rt第一项如下式:F1(t)=Cmt(t)+Cb(t)‑Cgrid(t)调度时段t系统运行成本越小,该时段