预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114143891A(43)申请公布日2022.03.04(21)申请号202111447130.6(22)申请日2021.11.30(71)申请人南京工业大学地址211816江苏省南京市江北新区浦珠南路30号(72)发明人高志宇王天荆沈航白光伟田一博(74)专利代理机构南京科阔知识产权代理事务所(普通合伙)32400代理人苏兴建(51)Int.Cl.H04W72/08(2009.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书13页附图6页(54)发明名称移动边缘网络中基于FDQL的多维资源协同优化方法(57)摘要现有技术中,移动边缘网络呈现出智能化、多元化、综合化的趋势,使得多维资源最优分配面临诸多挑战。为了提升多维资源优化的精确性,本发明提出一种移动边缘网络中基于FDQL的多维资源协同优化方法。本方法以最小化MOS为优化目标来构建多维资源分配模型,并设计一种双层的决策方案。首先,底层的基站利用双深度Q学习DDQL进行局部模型训练以获得短周期内最优决策;然后,上层的边缘节点利用联邦深度学习FDQL进行全局模型训练以降低长周期内分布式决策的偏差。实验结果表明,所提算法在降低内容服务时延和提高用户体验质量方面都优于其它方法。CN114143891ACN114143891A权利要求书1/2页1.一种移动边缘网络中基于FDQL的多维资源协同优化方法,在移动边缘计算MEC系统中包括多个基站和一个边缘节点,基站与边缘节点以及邻居基站通信,这些基站和边缘节点具有提供计算和缓存服务的能力;其特征是移动边缘网络中基于FDQL的多维资源协同优化方法的步骤包括:1)构建多维资源分配模型表示频谱和计算源的分配以及缓存更新;2)优化多维资源分配模型;所述步骤1)中,以最小化平均意见得分MOS为优化目标来构建多维资源分配模型;MOS模型为:其中线性模型的参数Cn,1,Cn,2使得MOSn∈[1,5],权重因子wn,1,wn,2分别表示内容获取时延和缓存更新对MOS的影响程度;CAn是第n小区内Un个用户的内容获取时延,它包括传输时延和计算时延;psn是第n小区内Un个用户的内容请求集合中内容流行度之和,基站是根据内容请求集来更新缓存;第n小区为基站n覆盖的范围;第n个小区的MOSn分数越高,用户体验质量QoE越高,多维资源优化模型为maxMOSn;所述步骤2)中,2.1)对底层的基站利用双深度Q学习DDQL进行局部模型训练以获得短周期内最优决策:2.1.1)以基站n为智能体,将局部资源分配问题建模为一个马尔科夫决策过程MDP;2.1.2并采用DDQL以不断试错方式与环境交互,通过最大化累计奖赏寻找一个最优策略;2.2)对上层的边缘节点利用联邦深度强化学习FDQL进行全局模型训练以降低长周期内分布式决策的偏差:按照时间周期{1,…,t,…,T,T+1,…,t+T,…,2T,…}进行多维资源协同优化;在t≠kT的短周期内,各基站实施DDQL模型训练来获得本地最优的多维资源分配策略;在第t=kT个长周期内由边缘节点实施FDQL模型训练来获得全局最优的多维资源分配策略,并反馈给各基站以增强局部DDQL的泛化能力,从而用更优的资源分配策略提升用户内容获取体验。2.根据权利要求1所述的移动边缘网络中基于FDQL的多维资源协同优化方法,其特征是所述步骤2.1.1)中,马尔科夫决策过程MDP表示为一个四元组<Sn,An,PRn,Rn>,其中Sn表示状态空间,An表示动作空间,PRn表示状态转移概率,Rn表示奖励函数;状态空间:智能体决定动作选择前需要了解用户和基站的信息,则状态空间Sn由用户请求和基站缓存状态组成;在时隙i,系统状态其中r和c分别表示内容请求和内容缓存,和分别表示第1个和第Un个用户的状态,表示基站n的缓存状态;动作空间:动作空间为智能体采取的行为集合;行动向量包括通信、计算资源的分配及缓存更新,则动作空间An定义为多维资源协同优化模式:其中表示信道连接矩阵,表示功率分配向量,表示计算单元分配向量,表示更新的内容缓存向量;奖励函数:当环境处于状态时执行动作系统进入下一个状态并获得即时奖励则设置MOS得分为奖励函数2CN114143891A权利要求书2/2页状态空间Sn到动作空间An的一个映射构成策略π:当前状态下由策略π采取动作的动作‑状态值函数表示为:其中γ∈(0,1)为折扣因子;由Bellmanequation贝尔曼方程,Q函数的更新为其中η∈(0,1)是控制学习速度的学习率。3.根据权利要求2所述的移动边缘网络中基于FDQL的多维资源协同优化方法,其特征是所述步骤2.1.2)中,使用DDQL寻找局部多维资源协同优化策略,通