基于多智能体强化学习的无人机协同控制训练方法及系统-豆柴文库

基于多智能体强化学习的无人机协同控制训练方法及系统.pdf

2023-07-24

10金币

785KB

14页

篷璐****爱吗

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113900445A(43)申请公布日2022.01.07(21)申请号202111193986.5(22)申请日2021.10.13(71)申请人厦门渊亭信息科技有限公司地址361000福建省厦门市软件园二期望海路61号801单元N8-01(72)发明人洪万福王旺(74)专利代理机构厦门市精诚新创知识产权代理有限公司35218代理人高敏(51)Int.Cl.G05D1/10(2006.01)权利要求书4页说明书8页附图1页(54)发明名称基于多智能体强化学习的无人机协同控制训练方法及系统(57)摘要本发明公开了一种基于多智能体强化学习的无人机协同控制训练方法和系统。所述方法包括：建立大规模无人机集群任务模型；根据任务模型建立马尔科夫博弈模型；构建MADDPG算法神经网络；调整神经网络的超参数，在通过MADDPG算法训练时，以一定的概率分别从探索环境经验和高质量经验中采集样本，以每个无人机的自身状态信息和环境信息作为神经网络的输入，以多无人机的速度作为输出，完成运动规划策略的训练，实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明的方法可提高策略的鲁棒性，训练出适应性更强和灵活性更高的优秀策略，在多无人机协同运动规划的场景中有很好的应用前景。CN113900445ACN113900445A权利要求书1/4页1.一种基于多智能体强化学习的无人机协同控制训练方法，其特征在于，包括：步骤S1：建立大规模无人机集群的任务模型；步骤S2：根据任务模型建立马尔科夫博弈模型；步骤S3：构建MADDPG算法神经网络；步骤S4：训练MADDPG算法神经网络；步骤S5：将MADDPG算法神经网络加载到无人机群中，执行无人机集群协同控制，将所述神经网络输出的动作映射为对应的无人机的控制指令。2.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法，其特征在于，所述步骤S1具体包括：(1)任务描述：描述无人机集群在场景中的协同任务，所述协同任务为无人机集群需要在一定时间内全部到达指定目的地，其中在一定范围内存在建筑群和障碍物；所述无人机集群中的所有无人机都是同构的，拥有相同的性能参数；(2)环境约束：初始坐标约束：场景中无人机i在初始区域内随机产生，目标位置与障碍物位置在目标区域一定距离内随机出现；其无人机i在初始时刻到目标区域g的距离dig满足：di,g≥dinit其中，dinit为成功完成任务的有效距离；高度与边界约束：其飞行高度满足如下约束：hmin≤h≤hmax其中，hmin为最低飞行高度，hmax为最大飞行高度；速度与加速度约束：在三维空间中，无人机的速度和加速度需满足最大值约束：|vx,y,z|≤vmaxx,y,z，|ax,y,z|≤amaxx,y,z；最大偏航角约束：假设无人机航迹点i的坐标为(xi,yi,zi)，则从点i‑1到点i的航迹段T的水平投影为αi＝(xi‑xi‑1,yi‑yi‑1)，那么最大偏航角φ约束为：障碍物约束：无人机与障碍物的距离l满足：l≥Rsaft+lmin+RUAV式中，Rsaft为规定的安全距离；lmin为障碍物在无人机方向上的长度；RUAV为无人机半径。3.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法，其特征在于，所述步骤S2具体包括：(1)采用五元组<N,S,A,P,R>表示马尔科夫博弈模型，其中：N＝{1,2,...,n}，表示n个无人机的集合；S为联合状态，S＝s1×s2×...×sn，表示所有无人机的状态的笛卡尔积，其中的Si代表着无人机i的状态；A为联合动作，A＝a1×a2×...×an，表示所有无人机的动作的笛卡尔积，其中的ai表示无人机i的动作；P:S×A×S→[0,1]为状态转移模型，表示所有的无人机在当前状态采取联合动作到达下一状态的概率值；R为联合奖励，即所有无人机奖励函数的笛卡尔积，R＝R1×R2×...×Rn，其中的Ri表示无人机i与环境交互获得的奖励值；(2)设定无人机的状态空间，在极坐标系下设置每个无人机的状态空间；将无人机i中2CN113900445A权利要求书2/4页心作为原点，无人机i到自身目标的方向看作正方向建立极坐标系，则无人机i的状态表示为：si＝(s,sU,sE)，其中，s＝(Pix,Piy,Pigx,Pigy)为无人机i和目标的位置信息，Pix，Piy为无人机i的位置信息，Pigx，Pigy为无人机i的目标的位置信息；SU＝(Pjx,Pjy)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息，如果通讯范围内无其他障碍物，则SE＝(0,0)；(3)设定无人机的动作空间，对于无人机i，动作空间为ai＝(ωit)，ωit为t时刻无人机i的角速

相关资料

基于多智能体强化学习的无人机协同控制训练方法及系统.pdf

本发明公开了一种基于多智能体强化学习的无人机协同控制训练方法和系统。所述方法包括：建立大规模无人机集群任务模型；根据任务模型建立马尔科夫博弈模型；构建MADDPG算法神经网络；调整神经网络的超参数，在通过MADDPG算法训练时，以一定的概率分别从探索环境经验和高质量经验中采集样本，以每个无人机的自身状态信息和环境信息作为神经网络的输入，以多无人机的速度作为输出，完成运动规划策略的训练，实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明的方法可提高策略的鲁棒性，训练出适应性更强和灵活性更高的优

2023-07-24

785KB

一种基于异构多智能体强化学习的多无人机协同突防方法.pdf

本发明公开了一种基于异构多智能体强化学习的多无人机协同突防方法，属于多智能体深度强化学习领域。本发明通过构建牵引性博弈场景和结果描述性博弈场景，初始化状态、评价神经网络参数、目标神经网络参数等超参数，对智能体进行训练。训练初始时，各无人机根据状态得到动作改变二维速度，得到新的状态，并将每回合博弈经验保存于经验池中，随机抽取样本构成学习样本，不断对智能体神经网络进行更新。当训练次数完成后，保存各神经网络参数，在评估性博弈场景中对学习效果进行验证，直到达到要求的成功率，完成协同突防任务的训练。

2023-07-25

1.6MB

基于多智能体的煤矿区域协同控制系统设计.docx

基于多智能体的煤矿区域协同控制系统设计Title:DesignofaMulti-Agent-basedCoalMineAreaCollaborativeControlSystemAbstract:Inrecentyears,theminingindustryhaswitnessedsignificantadvancementsintechnologytoimprovesafetyandefficiency.Onepromisingareaisthedevelopmentofcollaborativecon

2024-11-01

11KB

基于多智能体深度强化学习的高速公路可变限速协同控制方法.docx

基于多智能体深度强化学习的高速公路可变限速协同控制方法目录一、内容概要................................................21.1背景与意义...........................................21.2研究目标与内容.......................................4二、相关工作................................................42.1深度强化学习在交通控制

2024-09-14

26KB

基于多智能体深度强化学习的船舶协同避碰策略.docx

基于多智能体深度强化学习的船舶协同避碰策略摘要：船舶协同避碰是航行安全的重要问题。传统的协同避碰策略主要基于规则和经验，缺乏适应性和灵活性。近年来，多智能体深度强化学习在解决协同决策问题方面取得了显著进展。本文提出了一种基于多智能体深度强化学习的船舶协同避碰策略，并进行了仿真实验验证。结果表明，该策略在不同环境下能够有效避免碰撞。引言：船舶协同避碰是保证航行安全的重要问题。传统的协同避碰策略主要基于人工设计的规则和经验，受限于船舶操作员的认知和判断能力，无法适应复杂多变的海洋环境。多智能体深度强化学习是一

2024-11-10

10KB