面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法-豆柴文库

面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法.pdf

2023-06-01

10金币

958KB

15页

An****70

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115964898A(43)申请公布日2023.04.14(21)申请号202310079296.X(22)申请日2023.01.18(71)申请人北京航空航天大学地址100191北京市海淀区学院路37号(72)发明人李妮王泽龚光红(74)专利代理机构北京天汇航智知识产权代理事务所(普通合伙)11987专利代理师陈陈数(51)Int.Cl.G06F30/20(2020.01)权利要求书3页说明书9页附图2页(54)发明名称面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法(57)摘要本发明公开了一种面向兵力博弈对抗的BC‑QMIX离在线多智能体行为决策建模方法，包括：构建BC‑QMIX行为决策模型，包括上层的混合状态‑动作价值网络以及底层的子智能体网络，子智能体网络包括动作价值网络和行为克隆网络；设计动作选择策略，通过行为克隆网络限制训练过程中智能体的动作选择，只考虑实际出现在样本数据集中的动作，而不是考虑动作空间中所有可能的动作；进行离线和在线训练：基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练；在线环境下更新样本数据集，进行在线的优化训练；将训练好的BC‑QMIX行为决策模型部署在多智能体仿真环境，完成实时自主决策。该方法能够加速行为决策模型网络训练和收敛，缓解标准QMIX模型离线训练的外推误差。CN115964898ACN115964898A权利要求书1/3页1.一种面向兵力博弈对抗的BC‑QMIX离在线多智能体行为决策建模方法，其特征在于，包括以下步骤：步骤一，针对兵力博弈对抗场景，构建BC‑QMIX行为决策模型，包括上层的混合状态‑动作价值网络以及底层的子智能体网络，每个子智能体网络包括动作价值网络和行为克隆网络；步骤二，针对BC‑QMIX行为决策模型，设计动作选择策略，通过行为克隆网络限制训练过程中智能体的动作选择，只考虑实际出现在样本数据集中的动作，而不是考虑动作空间中所有可能的动作，缩小动作价值的外推误差；步骤三，对所述BC‑QMIX行为决策模型进行离线和在线训练，包括两个阶段：基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练；在线环境下更新样本数据集，进行在线的优化训练；步骤四，将训练好的BC‑QMIX行为决策模型部署在兵力博弈对抗场景下多智能体仿真环境，完成实时自主决策。2.根据权利要求1所述的方法，其特征在于，所述步骤一，所述行为克隆网络Gwi采用交叉熵损失函数进行监督学习训练，在训练过程中，动作空间中选取最大化动作价值的动作ii时，只考虑相对可能性大于阈值τ的动作；其中Gwi(a|o)表示第i个子智ii能体在输入观测量o的条件下选择执行动作a的概率，表示第i个子智能体中使得Gwi值最大的动作。3.根据权利要求2所述的方法，其特征在于，所述步骤一，所述BC‑QMIX行为决策模型的损失函数的设计考虑两部分：(1)根据目标网络和估计网络计算的Q值的差；(2)每个子智能体行为克隆网络动作估计的误差：其中，θ表示当前网络参数，θ‑表示目标网络参数，r表示环境奖励值，γ表示奖励折扣因子，o表示当前帧由多个智能体局部观测量组成的局部观测向量，a表示当前帧由多个智能体动作组成的动作向量，o′表示下一帧由多个智能体局部观测量组成的局部观测向量，a′表示下一帧由多个智能体动作组成的动作向量，ai表示第i个子智能体的动作，oi表示第i个子智能体的局部观测量，s表示当前帧的全局状态，s′表示下一帧的全局状态，表示目标网络中的混合状态‑动作价值网络，Qtot表示当前网络中的混合状态‑动作价值网络；Gwi(ai|oi)表示第i个子智能体在输入观测量oi的条件下选择执行动作ai的概率，n为子智能体的数量。4.根据权利要求3所述的方法，其特征在于，所述步骤二，动作选择策略具体为：随机生成一个(0,1)区间的概率常数ρ，若ρ<ε，则以相同的概率在动作集合中随机选择一个动作执行；否则，归一化行为克隆网络Gwi中得到的全部动作概率，将概率超过阈值τ的行为记为候选集合，在候选集合中取动作价值最大者作为决策动作；随着训练过程的进行，不断减小ε，即减小探索的比例，增加利用的比例；策略选择公式如下式所示：2CN115964898A权利要求书2/3页ii其中，a表示第i个子智能体的动作，表示第i个子智能体中使得Gwi值最大的动作，|aii|表示可以选择的动作总数，Gwi(a|o)表示第i个子智能体在输入观察量oi的条件下选择执iii行动作a的概率，Qi(o,a)表示第i个子智能体的动作价值。5.根据权利要求4所述的方法，其特征在于，所述步骤三，基于已有兵力博弈对抗领域知识采集仿真样本数据库的离线预训练，包括以下子步骤：步骤101：初始化BC‑QMIX行为

相关资料

面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法.pdf

本发明公开了一种面向兵力博弈对抗的BC‑QMIX离在线多智能体行为决策建模方法，包括：构建BC‑QMIX行为决策模型，包括上层的混合状态‑动作价值网络以及底层的子智能体网络，子智能体网络包括动作价值网络和行为克隆网络；设计动作选择策略，通过行为克隆网络限制训练过程中智能体的动作选择，只考虑实际出现在样本数据集中的动作，而不是考虑动作空间中所有可能的动作；进行离线和在线训练：基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练；在线环境下更新样本数据集，进行在线的优化训练；将训练好的BC‑QMIX行为

2023-06-01

958KB

基于多智能体强化学习的对抗博弈技术综述.docx

基于多智能体强化学习的对抗博弈技术综述1.内容描述本文综述了基于多智能体强化学习的对抗博弈技术，主要关注于多智能体强化学习的基本概念、算法和应用。我们介绍了多智能体强化学习的背景和发展历程，包括传统的单智能体强化学习和多智能体强化学习的起源。我们详细阐述了多智能体强化学习的基本原理，包括多智能体的定义、通信机制和协作策略等。在算法方面，我们重点介绍了一些经典的多智能体强化学习算法，如分布式深度Q网络(DQN)、分布式策略梯度方法(DPG)和集中式策略梯度方法(CSG)。我们还对这些算法进行了详细的分析和比

2024-08-29

24KB

一种基于SWOT分析和行为树的多智能体无人对抗系统的决策方法.pdf

本发明公开了一种基于SWOT分析和行为树的多智能体无人对抗系统的决策方法，可以用于真实的多智能体无人自主对抗系统，使用SWOT分析法帮助行为树选择非异常动作类型，实现简单且具有良好的可解释性和一定的自适应能力，避免了传统方法需要人工设计条件节点的限制；设计了分布式的通信和计算框架，实现了去中心化，合理分配计算资源，符合高维状态下真实多智能体无人对抗即时决策系统的应用背景；设计了层次的行为决策结构，具有决策精度递增的特点，有利于智能体自发实现行为自组织，有利于提高真实多智能体无人系统中即时决策的鲁棒性。

2023-06-04

1.3MB

基于博弈对抗复杂系统的决策建模与求解.docx

基于博弈对抗复杂系统的决策建模与求解目录一、内容简述................................................2二、复杂系统与博弈对抗概述..................................21.复杂系统的定义与特性..................................42.博弈对抗理论简介......................................53.博弈对抗在复杂系统中的应用.....................

2024-09-23

30KB

发电侧多智能体博弈建模与仿真的应用研究.docx

发电侧多智能体博弈建模与仿真的应用研究标题：发电侧多智能体博弈建模与仿真的应用研究摘要：随着能源需求的不断增长，发电侧的市场竞争也变得激烈起来。在这种竞争环境下，多个发电侧参与者之间的博弈策略成为决定市场行为和效果的重要因素。本文基于多智能体系统理论，探讨了发电侧多智能体博弈建模与仿真的应用研究，其中包括对博弈模型的建立、策略选择与优化以及仿真结果的分析和评估等方面的内容。1.引言随着能源需求规模的增加和环境问题的日益突出，发电侧市场竞争愈加激烈。发电侧多智能体博弈建模与仿真成为研究发电侧市场行为与效果的

2024-10-27

10KB