预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共32页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113822409A(43)申请公布日2021.12.21(21)申请号202111110979.4(22)申请日2021.09.18(71)申请人中国电子科技集团公司第五十四研究所地址050081河北省石家庄市中山西路589号第五十四所电子战专业部(72)发明人畅鑫李艳斌赵研杜宇峰(74)专利代理机构河北东尚律师事务所13124代理人王文庆(51)Int.Cl.G06N3/02(2006.01)G06N3/08(2006.01)G06K9/62(2006.01)权利要求书9页说明书19页附图3页(54)发明名称一种基于异构多智能体强化学习的多无人机协同突防方法(57)摘要本发明公开了一种基于异构多智能体强化学习的多无人机协同突防方法,属于多智能体深度强化学习领域。本发明通过构建牵引性博弈场景和结果描述性博弈场景,初始化状态、评价神经网络参数、目标神经网络参数等超参数,对智能体进行训练。训练初始时,各无人机根据状态得到动作改变二维速度,得到新的状态,并将每回合博弈经验保存于经验池中,随机抽取样本构成学习样本,不断对智能体神经网络进行更新。当训练次数完成后,保存各神经网络参数,在评估性博弈场景中对学习效果进行验证,直到达到要求的成功率,完成协同突防任务的训练。CN113822409ACN113822409A权利要求书1/9页1.一种基于异构多智能体强化学习的多无人机协同突防方法,其特征在于,包括以下步骤:步骤1:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的牵引性博弈训练场景;蓝方攻击智能体攻击红方基地,红方拦截智能体拦截蓝方攻击智能体;蓝方拦截智能体拦截红方攻击智能体;分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型;步骤2:分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络;步骤3:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的状态进行更新:步骤4:对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络进行训练:步骤5:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的结果描述性博弈训练场景;步骤6:迁移红方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;步骤7:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;步骤8:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景;步骤9:执行步骤3,然后转到步骤10;步骤10:执行步骤4,然后转到步骤11;步骤11:构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的评估性博弈场景;步骤12:构建基于规则的红方拦截智能体:步骤13:迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景;步骤14:迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景;步骤15:进行多轮测试,对学习效果进行验证,如果蓝方胜率超过门限η,则实现无人机协同突防;如果蓝方胜率低于门限η,则返回步骤4继续训练。2.根据权利要求1所述的一种基于异构多智能体强化学习的多无人机协同突防方法,其特征在于,步骤1中,分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型的具体方式为:步骤1‑1:构建红方拦截智能体的马尔科夫模型(S1,A1,R1,γ1),其中S1为红方拦截智能体的输入状态,A1为红方拦截智能体的输出动作,R1为红方拦截智能体的奖励函数,γ1为折扣系数;结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息,设定红方拦截智能体的输入状态为:S1=[x1,y1,x2,y2,x3,y3,x4,y4]其中x1和y1为红方拦截智能体在二维平面上的位置,x2和y2为蓝方拦截智能体在二维平面上的位置,x3和y3为蓝方攻击智能体在二维平面上的位置,x4和y4为红方基地在二维平面2CN113822409A权利要求书2/9页上的位置;设定红方拦截智能体的输出动作为A1,输出动作A1为红方拦截智能体在接收到输入状态后所采取的动作,输出动作A1为:其中和分别为红方拦截智能体在二维平面上的横向速度和纵向速度;结合博弈场景对红方拦截智能体的速度进行约束,红方拦截智能体的横向速度为其中vmax为红方拦截智能体沿X轴正向的最大速度,vmin为红方拦截智能体沿X轴负向的最大速度;红方拦截智能体的纵向速度为其中vymax为红方拦截智能体沿Y轴正向的最大速度,vymin为红方拦截智能体沿Y轴负向的最大