基于环境模型的对手建模方法、装置、设备及存储介质-豆柴文库

基于环境模型的对手建模方法、装置、设备及存储介质.pdf

2023-07-25

10金币

723KB

14页

一吃****春晓

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113599832A(43)申请公布日2021.11.05(21)申请号202110818583.9(22)申请日2021.07.20(71)申请人北京大学地址100871北京市海淀区颐和园路5号(72)发明人卢宗青于晓彭(74)专利代理机构北京辰权知识产权代理有限公司11619代理人付婧(51)Int.Cl.A63F13/67(2014.01)G06N5/04(2006.01)G06N7/00(2006.01)权利要求书2页说明书8页附图3页(54)发明名称基于环境模型的对手建模方法、装置、设备及存储介质(57)摘要本发明公开了一种基于环境模型的对手建模方法、装置、设备及存储介质，方法包括：智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略；在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作，根据所述对手最佳动作调整所述第一层想象对手策略，得到调整后的第一层想象对手策略；重复执行上述步骤，直到得到调整后的多层想象对手策略；更新想象对手策略权重，根据所述想象对手策略权重以及调整后的多层想象对手策略，得到对手混合策略，将所述对手混合策略作为对手模型。根据本实施例提供的基于环境模型的对手建模方法，可以解决多智能体对抗中对手建模的滞后性问题，以达到对于同样有思考能力的对手进行有效建模的目的。CN113599832ACN113599832A权利要求书1/2页1.一种基于环境模型的对手建模方法,其特征在于,包括：智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略；在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作，根据所述对手最佳动作调整所述第一层想象对手策略，得到调整后的第一层想象对手策略；重复执行上述步骤，直到得到调整后的多层想象对手策略；更新想象对手策略权重，根据所述想象对手策略权重以及调整后的多层想象对手策略，得到对手混合策略，将所述对手混合策略作为对手模型。2.根据权利要求1所述的方法，其特征在于，智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略之前，还包括：智能体使用近端策略优化算法与不同的对手进行交互，得到经验数据；根据所述经验数据以及最小化均方误差训练所述环境模型，得到训练好的环境模型；智能体与环境进行交互，得到对手的动作以及决策过程的状态。3.根据权利要求1所述的方法，其特征在于，根据如下公式计算第一层想象对手策略：o其中，s表示决策过程的状态，a表示对手的动作，表示经验数据库，φ0表示第一层想象对手策略。4.根据权利要求3所述的方法，其特征在于，根据如下公式计算所述对手最佳动作：其中，表示t时刻对手最佳动作，表示t时刻对手动作，Unif表示t+1时刻到t+k时刻中对手动作序列服从均匀分布，γ表示贴现因子，r0表示对手的环境奖励，t表示时刻，Vo表示对手的价值函数，s表示决策过程的状态。5.根据权利要求4所述的方法，其特征在于，根据对手最佳动作调整所述第一层想象对手策略，得到调整后的第一层想象对手策略，包括：根据所述对手最佳动作以及决策过程的状态构造模拟数据；将所述模拟数据代入第一层想象对手策略公式，得到调整后的第一层想象对手策略。6.根据权利要求1所述的方法，其特征在于，更新所述想象对手策略权重，包括：根据归一化概率分布算法以及贝叶斯公式计算所述想象对手策略权重。7.根据权利要求1所述的方法，其特征在于，根据如下公式计算对手混合策略：其中，πmix(·|s)表示对手混合策略，s表示决策过程的状态，M表示递归想象层数，i表示第i层递归想象，0≤i≤M‑1，αi表示第i层想象对手策略的权重，φi表示第i层想象对手策略。8.一种基于环境模型的对手建模装置,其特征在于,包括：2CN113599832A权利要求书2/2页计算模块，用于智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略；调整模块，用于在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作，根据所述对手最佳动作调整所述第一层想象对手策略，得到调整后的第一层想象对手策略；重复执行模块，用于重复执行上述步骤，直到得到调整后的多层想象对手策略；混合模块，用于更新想象对手策略权重，根据所述想象对手策略权重以及调整后的多层想象对手策略，得到对手混合策略，将所述对手混合策略作为对手模型。9.一种基于环境模型的对手建模设备，其特征在于，包括处理器和存储有程序指令的存储器，所述处理器被配置为在执行所述程序指令时，执行如权利要求1至7任一项所述的基于环境模型的对手建模方法。10.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至7任一项所述的一种基于环境模型的对手建模方法。3CN113

相关资料

基于环境模型的对手建模方法、装置、设备及存储介质.pdf

本发明公开了一种基于环境模型的对手建模方法、装置、设备及存储介质，方法包括：智能体根据对手的动作以及决策过程的状态得到第一层想象对手策略；在预设的环境模型中利用仿真轨迹算法计算第一层的对手最佳动作，根据所述对手最佳动作调整所述第一层想象对手策略，得到调整后的第一层想象对手策略；重复执行上述步骤，直到得到调整后的多层想象对手策略；更新想象对手策略权重，根据所述想象对手策略权重以及调整后的多层想象对手策略，得到对手混合策略，将所述对手混合策略作为对手模型。根据本实施例提供的基于环境模型的对手建模方法，可以解决

2023-07-25

723KB

基于流程工业过程仿真建模方法、装置、设备及存储介质.pdf

本申请公开了一种流程工业过程仿真建模方法、装置、设备及存储介质。本方法首先确定流程工业过程中待仿真建模的各个设备；通过节点及管段建立各个设备之间的耦合关系；其中，每两个设备之间具体依次通过出口节点、管段及进口节点进行连接；基于各个设备之间的耦合关系中的节点类型与管段类型确定各个设备之间的进出口数据。本发明不用求解复杂的流网矩阵，各模块之间低耦合，模型结构简单统一而且直观，通用性好，各模块分别求解，计算量小，修改和调试较容易。

2023-06-07

556KB

基于矩阵分解模型的剪枝方法、装置、设备、存储介质.pdf

本发明公开了一种基于矩阵分解模型的剪枝方法，包括：获取目标矩阵分解模型的模型结构数据，其中，模型结构数据包括多个矩阵参数；多个矩阵参数的每一行分别对应一个目标用户或一个目标物品；根据多个矩阵参数确定目标矩阵分解模型中可被剪枝的第一矩阵参数；利用基于第一矩阵参数生成的第二矩阵参数更新矩阵集合；以及通过评价指标确定矩阵集合中的目标矩阵参数。本公开提供的基于矩阵分解模型的剪枝方法能够在保证模型性能的同时，减少表征矩阵的参数量，从而有效地降低模型能耗，并且加快推理速度。

2023-07-24

1.2MB

基于硬件特性的模型剪枝方法、装置、设备及存储介质.pdf

本申请公开一种基于硬件特性的模型剪枝方法、装置、设备及存储介质，涉及神经网络领域，方法包括：确定原始网络模型的模型算力和目标硬件算力，设定网络模型的目标帧数；基于目标FPS确定网络模型的整体剪枝率以及原始网络模型中各层的剪枝敏感类型；根据各层的剪枝敏感类型以及整体剪枝率，确定模型各层的层间剪枝率，按照层间剪枝率进行模型剪枝；对剪枝后的模型进行重训练，并基于模型精度以及目标FPS输出目标网络模型。本方案通过将剪枝力度和硬件特性相结合，将细化的各神经网络层和目标硬件特性关联来确定具体的剪枝力度，其剪枝的细粒度

2023-07-22

1MB

基于ARMA模型的资产评估方法、装置、设备及存储介质.pdf

本申请实施例公开了一种基于ARMA模型的资产评估方法、装置、设备及存储介质，应用于人工智能领域，包括：获取多个样本资产的样本资产评估数据，并确定各样本资产评估数据的平稳程度，将样本资产评估数据的平稳程度大于平稳程度阈值的样本资产作为训练样本资产；基于训练样本资产的样本资产评估数据训练多组参数的ARMA模型，并基于多组参数的ARMA模型确定资产评估模型；获取至少两种目标资产的资产数据；基于至少两种目标资产的资产数据生成目标资产的目标资产评估数据，并将目标资产的目标资产评估数据输入资产评估模型，确定出目标资产

2023-07-24

830KB