预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113822441A(43)申请公布日2021.12.21(21)申请号202111155713.1(22)申请日2021.09.29(71)申请人平安付科技服务有限公司地址518000广东省深圳市福田区福田街道福华路319号兆邦基金融大厦26层2605单元(72)发明人李子佳(74)专利代理机构深圳中一联合知识产权代理有限公司44414代理人任敏(51)Int.Cl.G06N20/00(2019.01)G06N3/08(2006.01)G06N3/04(2006.01)G06F11/07(2006.01)权利要求书3页说明书13页附图5页(54)发明名称决策模型训练方法、装置、终端设备及存储介质(57)摘要本申请实施例适用于人工智能技术领域,提供了一种决策模型训练方法、装置、终端设备及存储介质,该方法包括:获取仿真系统处于任一故障下的第一状态信息;仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统;将第一状态信息输入至初始决策模型中,得到初始决策模型预测的目标恢复动作;获取仿真系统执行目标恢复动作后的第二状态信息,以及仿真系统的系统健康度;将第一状态信息、目标恢复动作、第二状态信息以及系统健康度作为一组仿真经验数据;根据仿真经验数据,对初始决策模型进行强化学习训练,得到目标决策模型。采用上述方法训练决策模型可以提高模型的训练效率。CN113822441ACN113822441A权利要求书1/3页1.一种决策模型训练方法,其特征在于,包括:获取仿真系统处于任一故障下的第一状态信息;其中,所述仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统;将所述第一状态信息输入至初始决策模型中,得到所述初始决策模型预测的目标恢复动作;获取所述仿真系统执行所述目标恢复动作后的第二状态信息,以及所述仿真系统的系统健康度;将所述第一状态信息、所述目标恢复动作、所述第二状态信息以及所述系统健康度作为一组仿真经验数据;根据所述仿真经验数据,对所述初始决策模型进行强化学习训练,得到目标决策模型。2.根据权利要求1所述的决策模型训练方法,其特征在于,在所述获取仿真系统处于任一故障下的第一状态信息之前,还包括:根据所述真实系统中包含的多个节点设备,分别对每个所述节点设备设置对应的节点仿真模型;从所述真实系统的所述运行产线环境中分别采集每个所述节点设备的真实数据;根据所述真实数据计算所述节点仿真模型中的系数矩阵,得到目标节点仿真模型;其中,所述目标节点仿真模型用于根据输入的数据模拟节点设备运行时的状态信息的变化情况;基于每个所述节点设备之间的拓扑连接结构,将所述目标节点仿真模型作为虚拟节点进行连接,得到所述仿真系统。3.根据权利要求1所述的决策模型训练方法,其特征在于,所述仿真系统包括多个虚拟节点,所述目标恢复动作为所述多个虚拟节点中的目标节点执行的恢复动作;所述将所述第一状态信息输入至初始决策模型中,得到所述初始决策模型预测的目标恢复动作,包括:确定在所述第一状态信息下所述多个虚拟节点分别可执行的恢复动作;确定所述仿真系统由故障状态转为健康状态的多种恢复动作组合;每种恢复动作组合至少包括一个虚拟节点执行的一种恢复动作;根据所述初始决策模型,计算每种所述恢复动作组合的长期回报价值;确定所述长期回报价值的最大值对应的目标恢复动作组合,并将所述目标恢复动作组合中的恢复动作确定为所述目标恢复动作,以及,将执行所述目标恢复动作的虚拟节点确定为所述目标节点。4.根据权利要求3所述的决策模型训练方法,其特征在于,所述确定所述仿真系统由故障状态转为健康状态的多种恢复动作组合,包括:S1、针对所述仿真系统中的任一虚拟节点的任一恢复动作,确定所述虚拟节点在执行恢复动作后的所述第二状态信息,以及所述仿真系统在所述第二状态信息下的系统健康度;S2、若根据所述第二状态信息下的系统健康度判定所述仿真系统的状态为健康状态,则将所述仿真系统从所述故障状态到所述健康状态下的多个虚拟节点分别执行的恢复动作,作为一种恢复动作组合;2CN113822441A权利要求书2/3页S3、若根据所述第二状态信息下的系统健康度判定所述仿真系统的状态依然为所述故障状态,则将所述第二状态信息作为新的第一状态信息,并确定所述仿真系统在所述新的第一状态信息下所述多个虚拟节点分别可执行的恢复动作,重复执行S1‑S3步骤;S4、若所述仿真系统在多次重复执行所述S1‑S3步骤后,未能得到一组所述恢复动作组合,则重新选择所述虚拟节点的其余恢复动作,或针对其余所述虚拟节点的任一恢复动作执行所述S1‑S3步骤,直至所有所述虚拟节点的所有恢复动作均已执行所述S1‑S3步骤,以得到所述多种恢复动作组合。5.根据权利要求4所述的决策模型训练方法,