预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113743613A(43)申请公布日2021.12.03(21)申请号202010475863.X(22)申请日2020.05.29(71)申请人京东城市(北京)数字科技有限公司地址100086北京市海淀区知春路76号(写字楼)1号楼9层1-7-5号(72)发明人朱翔宇詹仙园霍雨森张玥殷宏磊郑宇(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06N20/00(2019.01)权利要求书4页说明书18页附图6页(54)发明名称用于训练模型的方法和装置(57)摘要本公开的实施例公开了用于训练模型的方法和装置。该方法的一具体实施方式包括:获取样本状态转移轨迹数据集合;执行如下训练步骤:从样本状态转移轨迹数据中选择目标状态值,利用目标状态值,执行以下处理步骤:将目标状态值输入初始动作选择模型,获得目标动作值;将目标状态值和目标动作值输入环境模型,获得仿真后续状态值和仿真奖励值;将仿真后续状态值作为目标状态值,重复执行处理步骤,直至满足预设处理条件,获得仿真状态转移轨迹数据;将样本单步状态转移数据和仿真单步状态转移数据组成训练样本集合;利用训练样本集合对初始动作选择模型进行训练,获得训练后动作选择模型。该实施方式可以训练获得泛化能力更强的动作选择模型。CN113743613ACN113743613A权利要求书1/4页1.一种用于训练模型的方法,包括:获取预置的样本状态转移轨迹数据集合,其中,样本状态转移轨迹数据包括至少一个样本单步状态转移数据,样本单步状态转移数据包括样本状态值、样本动作值、后续样本状态值以及样本奖励值;获取初始动作选择模型和环境模型;基于初始动作选择模型和环境模型,执行如下训练步骤:从所述样本状态转移轨迹数据集合包括的样本状态转移轨迹数据中选择样本状态值作为目标状态值,以及利用目标状态值,执行以下处理步骤:将目标状态值输入初始动作选择模型,获得动作值作为目标动作值;将目标状态值和所获得的目标动作值输入所述环境模型,获得仿真后续状态值和仿真奖励值;将所获得的仿真后续状态值作为目标状态值,重复执行所述处理步骤,直至满足预设处理条件,获得仿真状态转移轨迹数据;将样本状态转移轨迹数据中的样本单步状态转移数据和仿真状态转移轨迹数据中的仿真单步状态转移数据组成训练样本集合;利用所组成的训练样本集合对初始动作选择模型进行训练,获得训练后动作选择模型。2.根据权利要求1所述的方法,其中,所述方法还包括:确定是否满足预设训练完成条件;响应于不满足预设训练完成条件,将训练后动作选择模型作为初始动作选择模型,继续执行所述训练步骤。3.根据权利要求1所述的方法,其中,所述获取环境模型包括:获取至少两个环境模型;以及所述将目标状态值和所获得的目标动作值输入所述环境模型,获得仿真后续状态值和仿真奖励值包括:将目标状态值和所获得的目标动作值分别输入所述至少两个环境模型,获得至少两个候选后续状态值和至少两个候选奖励值;基于所述至少两个候选后续状态值,生成仿真后续状态值,以及基于所述至少两个候选奖励值,生成仿真奖励值。4.根据权利要求1所述的方法,其中,所述获取环境模型包括:获取初始环境模型;利用所述样本状态转移轨迹数据集合中的样本单步状态转移数据对所述初始环境模型进行训练,获得环境模型。5.根据权利要求1所述的方法,其中,所述将样本状态转移轨迹数据中的样本单步状态转移数据和仿真状态转移轨迹数据中的仿真单步状态转移数据组成训练样本集合包括:从所述样本状态转移轨迹数据集合中选择与仿真状态转移轨迹数据相匹配的样本状态转移轨迹数据;将所选择的样本状态转移轨迹数据中的样本单步状态转移数据和仿真状态转移轨迹数据中的仿真单步状态转移数据组成训练样本集合。6.根据权利要求5所述的方法,其中,所述从所述样本状态转移轨迹数据集合中选择与2CN113743613A权利要求书2/4页所获得的仿真状态转移轨迹数据相匹配的样本状态转移轨迹数据包括:从所述样本状态转移轨迹数据集合中选择所包括的轨迹起点与仿真状态转移轨迹数据的轨迹起点相同的样本状态转移轨迹数据。7.根据权利要求5所述的方法,其中,所述从所述样本状态转移轨迹数据集合中选择与所获得的仿真状态转移轨迹数据相匹配的样本状态转移轨迹数据包括:从所述样本状态转移轨迹数据集合中选择所对应的轨迹长度与所获得的仿真状态转移轨迹数据对应的轨迹长度相同的样本状态转移轨迹数据。8.根据权利要求1-7之一所述的方法,其中,所述利用所组成的训练样本集合对初始动作选择模型进行训练,获得训练后动作选择模型包括:从所组成的训练样本集合中选择训练样本;确定初始动作选择模型服从的分布与所选择的训练样本中的数据服从的