预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114742231A(43)申请公布日2022.07.12(21)申请号202210282413.8(22)申请日2022.03.22(71)申请人中国人民解放军国防科技大学地址410073湖南省长沙市开福区德雅路109号(72)发明人冯旸赫阳方杰黄红蓝施伟马扬程光权黄金才刘忠(74)专利代理机构长沙国科天河知识产权代理有限公司43225专利代理师彭小兰(51)Int.Cl.G06N20/00(2019.01)G06N7/00(2006.01)权利要求书2页说明书9页附图2页(54)发明名称基于帕累托优化的多目标强化学习方法和装置(57)摘要本发明涉及强化学习领域,公开了一种基于帕累托优化的多目标强化学习方法和装置,本发明通过采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;从所述帕累托前沿集中随机选择动作与环境进行交互;生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新,通过将深度Q网络直接推广到多目标来逼近所有帕累托最优确定性策略的集合,表现出更好的性能、快速收敛、相对较好的稳定性,并提供了更多样化的解决方案。CN114742231ACN114742231A权利要求书1/2页1.一种基于帕累托优化的多目标强化学习方法,其特征在于,所述方法包括:采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;从所述帕累托前沿集中随机选择动作与环境进行交互;生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;根据所述策略网络对所述帕累托前沿的子目标Q值的期望进行更新。2.如权利要求1所述的方法,其特征在于,所述采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值的步骤,包括:根据多目标强化学习问题定义策略π1严格支配策略π2,π1>π2,当且仅当该策略π1在每个目标上的表现不比π2策略差并且至少在其中一个目标上严格优于π2策略;基于Q‑learning的强化学习使用并行学习每个目标的Q值。3.如权利要求1所述的方法,其特征在于,所述使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集的步骤,包括:在多目标马尔可夫决策过程中,假设所有目标都最大化,定义为包含多目标马尔可夫决策过程p中的策略π集合;属于的策略中的至少一个目标方面优于其他策略π',如下式所示:其中Op是任务p中设置的目标,Πp表示任务p的策略集,εo定义了一个最小正值,该集合是多目标马尔可夫决策过程中的帕累托前沿集合。4.如权利要求1所述的方法,其特征在于,所述从所述帕累托前沿集中随机选择动作与环境进行交互的步骤,包括:从Pareto前沿集中随机选择动作以使用如下公式与环境交互:a=randoma{Q(s,a|θ)}patero_front。5.如权利要求1所述的方法,其特征在于,所述生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络的步骤,包括:采用增量更新的方法在空间连续任务中学习,生成基于帕累托前沿集的多目标DQN方程,如下所示:其中,表示目标网络的估计值Q,Q(st,at)展示行为网络的估计值Q,γ是折扣因子;利用所述DQN方程对目标网络进行训练以生成策略网络。6.如权利要求5所述的方法,其特征在于,所述利用所述DQN方程对目标网络进行训练以生成策略网络的步骤,包括:利用所述DQN方程对目标网络进行训练,从帕累托前沿集中随机选择动作;根据下式对每个目标使用方程的期望进行确定:2CN114742231A权利要求书2/2页其中,每个目标可以有不同的折现因子γ。7.如权利要求1至6任一项所述的方法,其特征在于,在强化学习中,动作值是根据状态s中的策略π选择动作所获得的预期回报,用贝尔曼方程表示为:qπ(s,a)=∑s',rp(s',r|s,a)[r+γmaxa'qπ(s',a')]。8.一种基于帕累托优化的多目标强化学习装置,其特征在于,所述装置包括:计算模块,用于采用概括的方式处理多目标强化学习问题,为每个策略计算每个子目标的Q值;前沿集模块,用于使用帕累托支配理论对所述子目标Q值进行非支配排序以获得帕累托前沿集;交互模块,用于从所述帕累托前沿集中随机选择动作与环境进行交互;训练模块,用于生成基于帕累托前沿集的多目标DQN算法,并利用所述DQN算法对目标网络进行训练以生成策略网络;更新模块,用于根据所述策略网络对所述帕累托前沿的