预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113900445A(43)申请公布日2022.01.07(21)申请号202111193986.5(22)申请日2021.10.13(71)申请人厦门渊亭信息科技有限公司地址361000福建省厦门市软件园二期望海路61号801单元N8-01(72)发明人洪万福王旺(74)专利代理机构厦门市精诚新创知识产权代理有限公司35218代理人高敏(51)Int.Cl.G05D1/10(2006.01)权利要求书4页说明书8页附图1页(54)发明名称基于多智能体强化学习的无人机协同控制训练方法及系统(57)摘要本发明公开了一种基于多智能体强化学习的无人机协同控制训练方法和系统。所述方法包括:建立大规模无人机集群任务模型;根据任务模型建立马尔科夫博弈模型;构建MADDPG算法神经网络;调整神经网络的超参数,在通过MADDPG算法训练时,以一定的概率分别从探索环境经验和高质量经验中采集样本,以每个无人机的自身状态信息和环境信息作为神经网络的输入,以多无人机的速度作为输出,完成运动规划策略的训练,实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明的方法可提高策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同运动规划的场景中有很好的应用前景。CN113900445ACN113900445A权利要求书1/4页1.一种基于多智能体强化学习的无人机协同控制训练方法,其特征在于,包括:步骤S1:建立大规模无人机集群的任务模型;步骤S2:根据任务模型建立马尔科夫博弈模型;步骤S3:构建MADDPG算法神经网络;步骤S4:训练MADDPG算法神经网络;步骤S5:将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。2.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S1具体包括:(1)任务描述:描述无人机集群在场景中的协同任务,所述协同任务为无人机集群需要在一定时间内全部到达指定目的地,其中在一定范围内存在建筑群和障碍物;所述无人机集群中的所有无人机都是同构的,拥有相同的性能参数;(2)环境约束:初始坐标约束:场景中无人机i在初始区域内随机产生,目标位置与障碍物位置在目标区域一定距离内随机出现;其无人机i在初始时刻到目标区域g的距离dig满足:di,g≥dinit其中,dinit为成功完成任务的有效距离;高度与边界约束:其飞行高度满足如下约束:hmin≤h≤hmax其中,hmin为最低飞行高度,hmax为最大飞行高度;速度与加速度约束:在三维空间中,无人机的速度和加速度需满足最大值约束:|vx,y,z|≤vmaxx,y,z,|ax,y,z|≤amaxx,y,z;最大偏航角约束:假设无人机航迹点i的坐标为(xi,yi,zi),则从点i‑1到点i的航迹段T的水平投影为αi=(xi‑xi‑1,yi‑yi‑1),那么最大偏航角φ约束为:障碍物约束:无人机与障碍物的距离l满足:l≥Rsaft+lmin+RUAV式中,Rsaft为规定的安全距离;lmin为障碍物在无人机方向上的长度;RUAV为无人机半径。3.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S2具体包括:(1)采用五元组<N,S,A,P,R>表示马尔科夫博弈模型,其中:N={1,2,...,n},表示n个无人机的集合;S为联合状态,S=s1×s2×...×sn,表示所有无人机的状态的笛卡尔积,其中的Si代表着无人机i的状态;A为联合动作,A=a1×a2×...×an,表示所有无人机的动作的笛卡尔积,其中的ai表示无人机i的动作;P:S×A×S→[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×R2×...×Rn,其中的Ri表示无人机i与环境交互获得的奖励值;(2)设定无人机的状态空间,在极坐标系下设置每个无人机的状态空间;将无人机i中2CN113900445A权利要求书2/4页心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:si=(s,sU,sE),其中,s=(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息,Pix,Piy为无人机i的位置信息,Pigx,Pigy为无人机i的目标的位置信息;SU=(Pjx,Pjy)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则SE=(0,0);(3)设定无人机的动作空间,对于无人机i,动作空间为ai=(ωit),ωit为t时刻无人机i的角速