预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113599832A(43)申请公布日2021.11.05(21)申请号202110818583.9(22)申请日2021.07.20(71)申请人北京大学地址100871北京市海淀区颐和园路5号(72)发明人卢宗青于晓彭(74)专利代理机构北京辰权知识产权代理有限公司11619代理人付婧(51)Int.Cl.A63F13/67(2014.01)G06N5/04(2006.01)G06N7/00(2006.01)权利要求书2页说明书8页附图3页(54)发明名称基于环境模型的对手建模方法、装置、设备及存储介质(57)摘要本发明公开了一种基于环境模型的对手建模方法、装置、设备及存储介质,方法包括:智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;重复执行上述步骤,直到得到调整后的多层想象对手策略;更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型。根据本实施例提供的基于环境模型的对手建模方法,可以解决多智能体对抗中对手建模的滞后性问题,以达到对于同样有思考能力的对手进行有效建模的目的。CN113599832ACN113599832A权利要求书1/2页1.一种基于环境模型的对手建模方法,其特征在于,包括:智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;重复执行上述步骤,直到得到调整后的多层想象对手策略;更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型。2.根据权利要求1所述的方法,其特征在于,智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略之前,还包括:智能体使用近端策略优化算法与不同的对手进行交互,得到经验数据;根据所述经验数据以及最小化均方误差训练所述环境模型,得到训练好的环境模型;智能体与环境进行交互,得到对手的动作以及决策过程的状态。3.根据权利要求1所述的方法,其特征在于,根据如下公式计算第一层想象对手策略:o其中,s表示决策过程的状态,a表示对手的动作,表示经验数据库,φ0表示第一层想象对手策略。4.根据权利要求3所述的方法,其特征在于,根据如下公式计算所述对手最佳动作:其中,表示t时刻对手最佳动作,表示t时刻对手动作,Unif表示t+1时刻到t+k时刻中对手动作序列服从均匀分布,γ表示贴现因子,r0表示对手的环境奖励,t表示时刻,Vo表示对手的价值函数,s表示决策过程的状态。5.根据权利要求4所述的方法,其特征在于,根据对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略,包括:根据所述对手最佳动作以及决策过程的状态构造模拟数据;将所述模拟数据代入第一层想象对手策略公式,得到调整后的第一层想象对手策略。6.根据权利要求1所述的方法,其特征在于,更新所述想象对手策略权重,包括:根据归一化概率分布算法以及贝叶斯公式计算所述想象对手策略权重。7.根据权利要求1所述的方法,其特征在于,根据如下公式计算对手混合策略:其中,πmix(·|s)表示对手混合策略,s表示决策过程的状态,M表示递归想象层数,i表示第i层递归想象,0≤i≤M‑1,αi表示第i层想象对手策略的权重,φi表示第i层想象对手策略。8.一种基于环境模型的对手建模装置,其特征在于,包括:2CN113599832A权利要求书2/2页计算模块,用于智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略;调整模块,用于在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作,根据所述对手最佳动作调整所述第一层想象对手策略,得到调整后的第一层想象对手策略;重复执行模块,用于重复执行上述步骤,直到得到调整后的多层想象对手策略;混合模块,用于更新想象对手策略权重,根据所述想象对手策略权重以及调整后的多层想象对手策略,得到对手混合策略,将所述对手混合策略作为对手模型。9.一种基于环境模型的对手建模设备,其特征在于,包括处理器和存储有程序指令的存储器,所述处理器被配置为在执行所述程序指令时,执行如权利要求1至7任一项所述的基于环境模型的对手建模方法。10.一种计算机可读介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至7任一项所述的一种基于环境模型的对手建模方法。3CN113