预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116009990A(43)申请公布日2023.04.25(21)申请号202310088345.6(22)申请日2023.02.01(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人王晓飞刘铸滔仇超赵云凤(74)专利代理机构深圳众邦专利代理有限公司44545专利代理师丁曹凯(51)Int.Cl.G06F9/445(2018.01)权利要求书3页说明书13页附图3页(54)发明名称基于宽注意力机制的云边协同元强化学习计算卸载方法(57)摘要本发明公开了一种基于宽注意力机制的云边协同元强化学习计算卸载方法,包括:根据用户设备生成的各计算任务之间的依赖关系构建任务执行图;以任务总延迟、任务处理总能耗以及计算任务与所卸载资源池之间的匹配度的权衡为目标构建卸载目标函数;将任务的卸载过程建模为马尔可夫决策过程,根据卸载目标函数、执行任务图定义状态、动作和奖励函数;构建宽注意力机制的seq2seq神经网络,将任务执行图输入seq2seq神经网络中,利用近端策略优化方法对卸载目标函数进行优化输出最优调度决策,同时利用元强化学习算法对近端策略优化方法的参数进行更新。本发明使具有依赖关系的任务可以在本地执行,也可在细粒度资源池上执行,提高了能效。CN116009990ACN116009990A权利要求书1/3页1.基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,包括如下步骤:S1,根据用户设备生成的各计算任务之间的依赖关系利用有向无环图构建任务执行图;S2,以任务总延迟、任务处理总能耗以及计算任务与所卸载资源池之间的匹配度的权衡为目标构建卸载目标函数;S3,将任务的卸载过程建模为马尔可夫决策过程,根据步骤S2得到的卸载目标函数、步骤S1建立的执行任务图定义状态、动作和奖励函数;S4,构建宽注意力机制的seq2seq神经网络,将任务执行图输入seq2seq神经网络中,利用近端策略优化方法对卸载目标函数进行优化输出最优调度决策,同时利用元强化学习算法对近端策略优化方法的参数进行更新。2.根据权利要求1所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,在步骤S2中,所述卸载目标函数的表达式为:式中,α1表示任务总延迟的权重,α2表示任务处理总能耗的权重,α3表示匹配度的权重,表示任务调度决策A1:T的任务总延迟,表示任务调度决策A1:T的任务处理总能耗,表示任务调度决策A1:T的匹配度,任务调度决策A1:T={ai,i=1,2,...,T},ai表示任务ti的卸载决策,T表示任务总数。3.根据权利要求2所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,所述任务调度决策A1:T的任务总延迟的计算公式为:式中,表示任务tk的结果在无线下行链路信道上传输完成的时间,表示任务tk卸载到UE上本地执行时任务处理完成的时间,且k∈P(ti),P(ti)表示任务执行图中任务ti的父任务集合,表示资源池的集合。4.根据权利要求2所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,所述任务调度决策A1:T的任务处理总能耗的计算公式为:式中,sgn(·)为指示函数,表示任务ti在UE上运行时本地计算的能耗,表示将任务ti远程卸载到资源池x后并下载结果的能耗。5.根据权利要求4所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,所述将任务ti远程卸载到资源池x后并下载结果的能耗的计算公式为:式中,表示将任务ti通过无线上行链路信道卸载到资源池x的上传能耗,表示资2CN116009990A权利要求书2/3页源池xx计算任务ti所需的处理能耗,表示将任务ti从资源池x通过无线下行链路信道卸载结果的下载能耗;任务ti在UE上运行时本地计算的能耗的计算公式为:UEUE式中,κ表示UE的转换参数,Mi表示任务ti的任务类型,f表示UE分配给任务的计算能力,Ci表示运行任务ti所需的CPU周期。6.根据权利要求2所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,所述任务调度决策A1:T的匹配度的计算公式为:式中,表示任务ti和UE之间的匹配度,表示任务ti和资源池x的之间的匹配度,sgn(·)为指示函数。7.根据权利要求6所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,匹配度采用如下公式计算:di,x=1/(1+d′i,x);式中,d′i,x表示任务ti的因子向量和资源池x的因子向量之间的欧几里得距离,di,x表示任务ti与资源池x之间的匹配度。8.根据权利要求1所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,在步骤S3中,所述状态采用S表示,其表达式为:式