一种基于异构多智能体强化学习的多无人机协同突防方法-豆柴文库

一种基于异构多智能体强化学习的多无人机协同突防方法.pdf

2023-07-25

10金币

1.6MB

32页

猫巷****忠娟

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共32页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113822409A(43)申请公布日2021.12.21(21)申请号202111110979.4(22)申请日2021.09.18(71)申请人中国电子科技集团公司第五十四研究所地址050081河北省石家庄市中山西路589号第五十四所电子战专业部(72)发明人畅鑫李艳斌赵研杜宇峰(74)专利代理机构河北东尚律师事务所13124代理人王文庆(51)Int.Cl.G06N3/02(2006.01)G06N3/08(2006.01)G06K9/62(2006.01)权利要求书9页说明书19页附图3页(54)发明名称一种基于异构多智能体强化学习的多无人机协同突防方法(57)摘要本发明公开了一种基于异构多智能体强化学习的多无人机协同突防方法，属于多智能体深度强化学习领域。本发明通过构建牵引性博弈场景和结果描述性博弈场景，初始化状态、评价神经网络参数、目标神经网络参数等超参数，对智能体进行训练。训练初始时，各无人机根据状态得到动作改变二维速度，得到新的状态，并将每回合博弈经验保存于经验池中，随机抽取样本构成学习样本，不断对智能体神经网络进行更新。当训练次数完成后，保存各神经网络参数，在评估性博弈场景中对学习效果进行验证，直到达到要求的成功率，完成协同突防任务的训练。CN113822409ACN113822409A权利要求书1/9页1.一种基于异构多智能体强化学习的多无人机协同突防方法，其特征在于，包括以下步骤：步骤1：构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的牵引性博弈训练场景；蓝方攻击智能体攻击红方基地，红方拦截智能体拦截蓝方攻击智能体；蓝方拦截智能体拦截红方攻击智能体；分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型；步骤2：分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络；步骤3：对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的状态进行更新：步骤4：对红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的神经网络进行训练：步骤5：构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的结果描述性博弈训练场景；步骤6：迁移红方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景；步骤7：迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景；步骤8：迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到结果描述性博弈训练场景；步骤9：执行步骤3，然后转到步骤10；步骤10：执行步骤4，然后转到步骤11；步骤11：构建包含红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的评估性博弈场景；步骤12：构建基于规则的红方拦截智能体：步骤13：迁移蓝方拦截智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景；步骤14：迁移蓝方攻击智能体的策略神经网络、评价神经网络、目标策略神经网络和目标评价神经网络到评估性博弈场景；步骤15：进行多轮测试，对学习效果进行验证，如果蓝方胜率超过门限η，则实现无人机协同突防；如果蓝方胜率低于门限η，则返回步骤4继续训练。2.根据权利要求1所述的一种基于异构多智能体强化学习的多无人机协同突防方法，其特征在于，步骤1中，分别构建红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体的马尔科夫模型的具体方式为：步骤1‑1：构建红方拦截智能体的马尔科夫模型(S1,A1,R1,γ1)，其中S1为红方拦截智能体的输入状态，A1为红方拦截智能体的输出动作，R1为红方拦截智能体的奖励函数，γ1为折扣系数；结合红方基地、红方拦截智能体、蓝方拦截智能体和蓝方攻击智能体信息，设定红方拦截智能体的输入状态为：S1＝[x1,y1,x2,y2,x3,y3,x4,y4]其中x1和y1为红方拦截智能体在二维平面上的位置，x2和y2为蓝方拦截智能体在二维平面上的位置，x3和y3为蓝方攻击智能体在二维平面上的位置，x4和y4为红方基地在二维平面2CN113822409A权利要求书2/9页上的位置；设定红方拦截智能体的输出动作为A1，输出动作A1为红方拦截智能体在接收到输入状态后所采取的动作，输出动作A1为：其中和分别为红方拦截智能体在二维平面上的横向速度和纵向速度；结合博弈场景对红方拦截智能体的速度进行约束，红方拦截智能体的横向速度为其中vmax为红方拦截智能体沿X轴正向的最大速度，vmin为红方拦截智能体沿X轴负向的最大速度；红方拦截智能体的纵向速度为其中vymax为红方拦截智能体沿Y轴正向的最大速度，vymin为红方拦截智能体沿Y轴负向的最大

相关资料

一种基于异构多智能体强化学习的多无人机协同突防方法.pdf

本发明公开了一种基于异构多智能体强化学习的多无人机协同突防方法，属于多智能体深度强化学习领域。本发明通过构建牵引性博弈场景和结果描述性博弈场景，初始化状态、评价神经网络参数、目标神经网络参数等超参数，对智能体进行训练。训练初始时，各无人机根据状态得到动作改变二维速度，得到新的状态，并将每回合博弈经验保存于经验池中，随机抽取样本构成学习样本，不断对智能体神经网络进行更新。当训练次数完成后，保存各神经网络参数，在评估性博弈场景中对学习效果进行验证，直到达到要求的成功率，完成协同突防任务的训练。

2023-07-25

1.6MB

一种基于多智能体深度强化学习的多无人机编队集群控制方法.pdf

本发明涉及多无人机的智能协同控制领域，提供了一种基于多智能体深度强化学习的多无人机编队集群自主聚集方法，主要包括以下步骤：1)对单无人机运动过程进行建模；2)将异构多无人机聚集过程建模为马尔科夫博弈过程；3)基于MADDPG算法对聚集过程进行训练；4)引入注意力机制到多智能体深度强化学习中，优化无人机的学习过程；5)利用学习到的策略对多无人机进行控制；本发明提出了一种基于多智能体深度强化学习的多无人机编队集群控制方法，通过对多无人机的聚集问题进行马尔科夫博弈过程建模，使得无人机自主训练得到对应控制模型。并

2023-06-12

1.1MB

基于多智能体强化学习的无人机协同控制训练方法及系统.pdf

本发明公开了一种基于多智能体强化学习的无人机协同控制训练方法和系统。所述方法包括：建立大规模无人机集群任务模型；根据任务模型建立马尔科夫博弈模型；构建MADDPG算法神经网络；调整神经网络的超参数，在通过MADDPG算法训练时，以一定的概率分别从探索环境经验和高质量经验中采集样本，以每个无人机的自身状态信息和环境信息作为神经网络的输入，以多无人机的速度作为输出，完成运动规划策略的训练，实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明的方法可提高策略的鲁棒性，训练出适应性更强和灵活性更高的优

2023-07-24

785KB

基于多智能体的多无人机编队算法.docx

基于多智能体的多无人机编队算法标题：基于多智能体的多无人机编队算法摘要：随着无人机技术的不断发展与普及，无人机编队技术成为一个研究热点。在许多应用场景中，多无人机编队可以提供更高效、更灵活的任务执行能力。本论文针对多无人机编队算法进行了研究，通过分析无人机编队问题的特点和挑战，提出了基于多智能体的多无人机编队算法，并进行了相关实验验证。实验结果表明，所提出的算法可以实现稳定、优化的多无人机编队控制。1.引言1.1研究背景和意义随着无人机技术的飞速发展，无人机编队日益成为无人机应用领域的研究热点之一。多无人

2024-11-02

10KB

基于多智能体的多无人机编队算法.docx

基于多智能体的多无人机编队算法标题：基于多智能体的多无人机编队算法摘要：随着无人机技术的快速发展，多无人机系统的应用越来越广泛，如航拍、调度、搜救等。无人机编队算法是多无人机系统中的重要问题之一，其目标是使多架无人机在任务执行过程中保持协同、高效地工作。本文提出了一种基于多智能体的多无人机编队算法，以实现无人机之间的协同控制和路径规划。关键词：多无人机系统、编队算法、多智能体、路径规划、协同控制1.引言随着无人机技术的突破和应用场景的广泛，多无人机系统的研究日益受到关注。多无人机编队算法是多无人机系统的核

2024-10-23

11KB