预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115827108A(43)申请公布日2023.03.21(21)申请号202310034089.2(22)申请日2023.01.10(71)申请人天津工业大学地址300387天津市西青区宾水西道399号(72)发明人柴争义刘旭李亚伦袁东侯昊乐(74)专利代理机构天津盛理知识产权代理有限公司12209专利代理师王利文(51)Int.Cl.G06F9/445(2018.01)G06N20/00(2019.01)权利要求书3页说明书11页附图5页(54)发明名称基于多目标深度强化学习的无人机边缘计算卸载方法(57)摘要本发明涉及一种基于多目标深度强化学习的无人机边缘计算卸载方法,包括以下步骤:构建无人机‑移动边缘计算系统,采用深度强化学习的方法对无人机‑移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解,初始化用户偏好空间;对深度强化学习中的Q网络和目标Q网络进行初始化;偏好经验池更新;选择当前状态下的动作,并执行动作得到向量值奖励和下一个状态;经验存储操作;经验样本训练:输出卸载决策。本发明将UAV‑MEC系统的COP建模为一个多目标马尔可夫决策过程,并采用多目标深度强化学习方法进行求解,得到满足用户需求的最优解,提高了求解效率和灵活性,可广泛用于对无人机边缘计算环境进行计算卸载。CN115827108ACN115827108A权利要求书1/3页1.一种基于多目标深度强化学习的无人机边缘计算卸载方法,其特征在于:包括以下步骤:步骤1、构建无人机‑移动边缘计算系统,该无人机‑移动边缘计算系统由F个终端设备和M架无人机组成,每个无人机搭载MEC服务器在固定区域内进行任务卸载,使用表示第p个终端设备中的应用程序,p={1,2,…,F},F表示终端设备的个数,,其中表示为任务集,表示任务依赖约束,该无人机‑移动边缘计算系统的最小化时延和能耗的任务卸载模型:其中MUT和MUE分别表示总时延和总能耗,表示任务在无人机执行完成并返回数据的完成时间,表示任务在本地执行时的完成时间,其中q={1,2,…,n},n是要卸载的应用中相关的密集型任务的个数,表示任务的完成时间,如果在无人机上执行,则等于,否则等于;表示任务集中最后一个任务的完成时间;和分别表示任务在无人机执行和在本地执行的能耗,表示无人机的飞行能耗;步骤2、采用深度强化学习的方法对无人机‑移动边缘计算系统的最小化时延和能耗的任务卸载模型进行求解,求解方法为:通过多目标马尔可夫决策过程对采用深度强化学习进行求解的每一个卸载任务构建任务卸载模型,所构建的任务卸载模型表示为(S,A,r,Ψ,f),该任务卸载模型的目标是最大化向量值奖励r;其中S表示状态空间;A表示动作空间;是向量值奖励,和分别表示时延的奖励值和能耗的奖励值;Ψ是偏好空间,用于存储不同的偏好方案;是任务卸载策略下的标量化函数,其中、是指当前偏好;步骤3、为了求得最小化时延和能耗,需初始化用户偏好空间:采用NBI法生成均匀分布的N个权重向量,从而为时延和能耗两目标分配当前用户偏好空间;步骤4、对深度强化学习中的Q网络和目标Q网络进行初始化:所述Q网络采用DoubleDQN与DuelingDQN相结合的方法,用来选择动作以及对步骤2建立的任务卸载模型进行训练优化;所述目标Q网络用于计算目标Q值,所述目标Q网络的网络参数每隔一段时间从当前Q网络复制过来;所述Q网络和目标Q网络的结构是完全相同的,均包括一个输入层、两个隐藏层以及一个输出层,其中第二个隐藏层通过DuelingDQN的方法将网络结构分为Value层和Advantage层;步骤5、深度强化学习中的智能体与MEC环境开始交互,一方面智能体从MEC环境中获取2CN115827108A权利要求书2/3页当前状态,另一方面MEC环境通过智能体选择的动作返回当前奖励向量值和下一个状态,智能体从MEC环境中获得当前状态,并进行偏好经验池更新,所述偏好经验池更新的方法为:从偏好空间Ψ中选择当前偏好,并判断当前偏好是否在遇到的偏好经验池W中,如果不存在,则将当前偏好添加到偏好经验池W,否则利用当前迭代次数对偏好经验池W进行更新;步骤6、深度强化学习中的智能体通过Q网络训练得到当前Q值,从动作空间A中选择当前状态s下的动作a,并执行动作得到向量值奖励r和下一个状态s´,所述动作空间A包括如下两个动作:在终端设备执行任务和卸载到无人机‑移动边缘计算系统上执行任务;步骤7、进行经验存储操作:将Q网络输出的当前状态s、动作a、向量值奖励r以及下一个状态s´作为一条经验存入经验缓冲池Φ;步骤8、进行经验样本训练:首先从经验缓冲池Φ中随机选择一部分作为经验样本;然后从偏好经验池W中利用非支配排序的方法选择经验偏好,通过Q网络和目标Q