预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115964898A(43)申请公布日2023.04.14(21)申请号202310079296.X(22)申请日2023.01.18(71)申请人北京航空航天大学地址100191北京市海淀区学院路37号(72)发明人李妮王泽龚光红(74)专利代理机构北京天汇航智知识产权代理事务所(普通合伙)11987专利代理师陈陈数(51)Int.Cl.G06F30/20(2020.01)权利要求书3页说明书9页附图2页(54)发明名称面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法(57)摘要本发明公开了一种面向兵力博弈对抗的BC‑QMIX离在线多智能体行为决策建模方法,包括:构建BC‑QMIX行为决策模型,包括上层的混合状态‑动作价值网络以及底层的子智能体网络,子智能体网络包括动作价值网络和行为克隆网络;设计动作选择策略,通过行为克隆网络限制训练过程中智能体的动作选择,只考虑实际出现在样本数据集中的动作,而不是考虑动作空间中所有可能的动作;进行离线和在线训练:基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练;在线环境下更新样本数据集,进行在线的优化训练;将训练好的BC‑QMIX行为决策模型部署在多智能体仿真环境,完成实时自主决策。该方法能够加速行为决策模型网络训练和收敛,缓解标准QMIX模型离线训练的外推误差。CN115964898ACN115964898A权利要求书1/3页1.一种面向兵力博弈对抗的BC‑QMIX离在线多智能体行为决策建模方法,其特征在于,包括以下步骤:步骤一,针对兵力博弈对抗场景,构建BC‑QMIX行为决策模型,包括上层的混合状态‑动作价值网络以及底层的子智能体网络,每个子智能体网络包括动作价值网络和行为克隆网络;步骤二,针对BC‑QMIX行为决策模型,设计动作选择策略,通过行为克隆网络限制训练过程中智能体的动作选择,只考虑实际出现在样本数据集中的动作,而不是考虑动作空间中所有可能的动作,缩小动作价值的外推误差;步骤三,对所述BC‑QMIX行为决策模型进行离线和在线训练,包括两个阶段:基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练;在线环境下更新样本数据集,进行在线的优化训练;步骤四,将训练好的BC‑QMIX行为决策模型部署在兵力博弈对抗场景下多智能体仿真环境,完成实时自主决策。2.根据权利要求1所述的方法,其特征在于,所述步骤一,所述行为克隆网络Gwi采用交叉熵损失函数进行监督学习训练,在训练过程中,动作空间中选取最大化动作价值的动作ii时,只考虑相对可能性大于阈值τ的动作;其中Gwi(a|o)表示第i个子智ii能体在输入观测量o的条件下选择执行动作a的概率,表示第i个子智能体中使得Gwi值最大的动作。3.根据权利要求2所述的方法,其特征在于,所述步骤一,所述BC‑QMIX行为决策模型的损失函数的设计考虑两部分:(1)根据目标网络和估计网络计算的Q值的差;(2)每个子智能体行为克隆网络动作估计的误差:其中,θ表示当前网络参数,θ‑表示目标网络参数,r表示环境奖励值,γ表示奖励折扣因子,o表示当前帧由多个智能体局部观测量组成的局部观测向量,a表示当前帧由多个智能体动作组成的动作向量,o′表示下一帧由多个智能体局部观测量组成的局部观测向量,a′表示下一帧由多个智能体动作组成的动作向量,ai表示第i个子智能体的动作,oi表示第i个子智能体的局部观测量,s表示当前帧的全局状态,s′表示下一帧的全局状态,表示目标网络中的混合状态‑动作价值网络,Qtot表示当前网络中的混合状态‑动作价值网络;Gwi(ai|oi)表示第i个子智能体在输入观测量oi的条件下选择执行动作ai的概率,n为子智能体的数量。4.根据权利要求3所述的方法,其特征在于,所述步骤二,动作选择策略具体为:随机生成一个(0,1)区间的概率常数ρ,若ρ<ε,则以相同的概率在动作集合中随机选择一个动作执行;否则,归一化行为克隆网络Gwi中得到的全部动作概率,将概率超过阈值τ的行为记为候选集合,在候选集合中取动作价值最大者作为决策动作;随着训练过程的进行,不断减小ε,即减小探索的比例,增加利用的比例;策略选择公式如下式所示:2CN115964898A权利要求书2/3页ii其中,a表示第i个子智能体的动作,表示第i个子智能体中使得Gwi值最大的动作,|aii|表示可以选择的动作总数,Gwi(a|o)表示第i个子智能体在输入观察量oi的条件下选择执iii行动作a的概率,Qi(o,a)表示第i个子智能体的动作价值。5.根据权利要求4所述的方法,其特征在于,所述步骤三,基于已有兵力博弈对抗领域知识采集仿真样本数据库的离线预训练,包括以下子步骤:步骤101:初始化BC‑QMIX行为