预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113741525A(43)申请公布日2021.12.03(21)申请号202111065663.8(22)申请日2021.09.10(71)申请人南京航空航天大学地址211106江苏省南京市江宁区将军大道29号(72)发明人丁勇聂志诚何金(51)Int.Cl.G05D1/10(2006.01)权利要求书3页说明书6页附图4页(54)发明名称基于策略集合MADDPG多无人机协同攻防对抗方法(57)摘要本发明公布了基于策略集合MADDPG多无人机协同攻防对抗方法,所述方法首先构建多无人机协同攻防对抗作战任务环境;其次建立多无人机系统的联合状态空间和联合动作空间;然后,针对多无人机攻防对抗问题设计了基于群体目标的奖赏函数,包括进攻方无人机和防御方无人机两个部分;接着,对基于策略集合MADDPG网络进行训练;最终使用训练完成的网络模型实现多无人机协同攻防对抗决策。本发明对MADDPG算法进行改进,设计基于群体目标的奖赏函数,引导协同攻防策略的学习,使用策略集合有效解决了多无人机系统中单个智能体针对其竞争对手出现过拟合强策略的问题,攻防效率更高,从而赋予了无人机更好的协同攻防对抗能力。CN113741525ACN113741525A权利要求书1/3页1.基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,该方法包括以下步骤:步骤(1)建立多无人机协同攻防对抗作战示意图,包括任务目标、隐蔽区域和障碍物位置,以及进攻无人机和防御无人机,进而构建多无人机攻防对抗作战任务,包含目标攻防和无人机追逃两个方面;步骤(2)建立多无人机系统的联合状态空间S和联合动作空间A;步骤(3)设计多无人机系统中基于群体目标状态的奖赏函数rt,其中,进攻方无人机的奖赏函数包括攻占目标、避免冲突和避免被敌机击毁三个方面,防御方无人机的奖赏函数分为避免冲突和打击进攻方无人机两部分;步骤(4)对基于策略集合MADDPG网络进行训练;步骤(5)使用训练完成的网络模型实现多无人机协同攻防决策。2.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(2)中的建立多无人机系统的联合状态空间S和联合动作空间A,具体为:(2.1)定义多无人机系统的联合状态空间S假设i=1,2,...,n表示各个无人机的编号,n为无人机的总数量,t时刻n架无人机的联合观测信息为其中为第i架无人机的观测信息,包括自身的位置坐标和速度,与其他所有无人机的相对位置,与隐蔽区域、威胁区域以及目标的相对位置;令t时刻所有无人机的状态为st,使st=xt,则所有无人机在各个时刻的状态构成无人机的联合状态空间S;(2.2)定义多无人机系统的联合动作空间A假设每架无人机的动作为当前时刻的加速度,则t时刻所有无人机的动作其中为t时刻第i架无人机的动作,则所有时刻无人机的动作空间构成了无人机联合动作空间A。3.如权力要求1中所述基于策略集合MADDPG多无人机协同攻防对抗方法,其特征在于,所述步骤(3)中的设计多无人机系统中基于群体目标状态的奖赏函数rt,具体为:t(3.1)进攻方无人机的奖赏函数rattack_i包括攻占目标、避免冲突和避免被敌机击毁三个方面,具体为:(3.1.1)定义攻占目标的奖赏函数rattack_1为:rattack_1=‑max(d)(1)式中,d为所有目标与各个进攻无人机的距离集合,m为目标数,n为进攻无人机数,为进攻无人机i与目标j的距离,max(d)为集合d中的最大值。(3.1.2)定义避免与威胁区域冲突的奖赏函数rattack_2为:式中,luav为进攻无人机尺寸,lthreat为威胁区域半径,δuav为无人机的临界区域宽度,δthreat为威胁区域的临界区域宽度,为进攻无人机i与威胁区域的中心距离;(3.1.3)定义无人机相互碰撞的奖赏函数为:2CN113741525A权利要求书2/3页式中,dij为进攻无人机i与进攻无人机j的距离;(3.1.4)定义避免被防御方无人机击毁的奖赏函数为:式中,为进攻无人机i相对于防御无人机j的视线角,ηji为防御无人机j相对于进攻无人机i的视线角,dij进攻无人机i与防御无人机j的距离,Rd为期望的相对距离,k为调节因子;(3.1.5)进攻方无人机获得的奖赏为以上各部分奖赏值的和,即:t(3.2)防御方无人机的奖赏函数rdefence_j分为避免冲突和打击进攻方无人机两部分,具体为:(3.2.1)定义避免与威胁区域冲突的奖赏函数rdefence_1为:式中,luav为进攻无人机尺寸,lthreat为威胁区域半径,δuav为无人机的临界区域宽度,δthreat为威胁区域的临界区域宽度,为防御无人机j与威胁区域的中心距离;(3.