预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113784410A(43)申请公布日2021.12.10(21)申请号202111120444.5(22)申请日2021.09.24(71)申请人吉林大学地址130012吉林省长春市前进大街2699号(72)发明人杨晓萍刘水王雪丛玉良钱志鸿谢明桐张菁(74)专利代理机构重庆市信立达专利代理事务所(普通合伙)50230代理人刘洁(51)Int.Cl.H04W36/14(2009.01)H04W36/00(2009.01)权利要求书3页说明书6页附图1页(54)发明名称基于强化学习TD3算法的异构无线网络垂直切换方法(57)摘要本发明专利公开了基于强化学习TD3算法的异构无线网络垂直切换方法,具体涉及通讯技术领域。包括如下步骤:采用熵权法计算网络状态参数的权重,构造奖励函数;初始化策略网络以及两个估计网络,对上述网络对应的目标网络初始化,并初始化经验池;演员当前网络根据网络状态参数做出切换决策,求得奖励值;采用梯度下降法训练评论家当前网络,采用梯度上升法训练演员当前网络,更新演员目标网络参数和评论家目标网络参数;在每个决策时刻进行S4‑S5的操作步骤,训练更新网络参数;根据训练好的策略网络来确定最优的切换策略。采用本发明技术方案解决了深度强化学习汇总网络参数状态动作值过高估计的问题,可用于快速选出最优切换决策。CN113784410ACN113784410A权利要求书1/3页1.基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:包括如下步骤:S1、采用熵权法计算网络状态参数的权重,并根据所述权重构造奖励函数;S2、初始化TD3算法中的策略网络以及两个估计网络,再对所述策略网络和两个估计网络对应的目标网络进行初始化,同时初始化一个经验池;S3、所述策略网络包括演员当前网络和演员目标网络,所述估计网络包括评论家当前网络和评论家目标网络;S4、所述演员当前网络根据所述网络状态参数做出切换决策,然后,通过所述奖励函数求得一个奖励值,同时得到演员当前网络的下一个状态,并将所述策略网络中做出的切换决策数据存储到所述经验池中;S5、采用梯度下降法训练评论家当前网络,更新评论家当前网络参数后,采用梯度上升法训练演员当前网络,更新演员当前网络参数后,使用软更新方式,更新演员目标网络参数和评论家目标网络参数;S6、进行L次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直到循环结束;在每个决策时刻进行S4‑S5的操作步骤,训练更新网络参数;S7、根据训练好的策略网络来确定最优的切换策略。2.根据权利要求1所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S1中,所述熵权法计算网络状态参数权重的具体步骤为:所述网络状态参数包括:可用带宽(B)、时延(D)、误码率(E)和时延抖动(J);根据不同的网络状态参数在切换判决中所占的比重构造实时业务和非实时业务的决策矩阵Z:Z=(zij)4×4,zij为第i个备选网络的第j个网络参数的值,将矩阵Z标准化得到矩阵H:H=(hij)4×4,其中将矩阵H进行归一化得到矩阵P:P=(pij)4×4,其中对于第j个网络参数而言,计算信息熵得到矩阵E:‑1其中j=1,2,3,4,k=(lnn),信息效用值dj=1‑ej,将dj进行归一化,得到每个网络参数的客观权重βj:其中j=1,2,3,4。3.根据权利要求2所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S1中,所述奖励函数的构造步骤为:奖励函数表示为:R(s,a)=βBRB(s,a)+βDRD(s,a)+βERE(s,a)+βJRJ(s,a);其中,β为网络B参数的权重因子并与客观权重βj保持一致,并且(0≤β≤1);R(s,a)为可用宽带的奖励函数、RD(s,a)为时延的奖励函数、RE(s,a)为误码率的奖励函数、RJ(s,a)为时延抖动的奖励函2CN113784410A权利要求书2/3页数。4.根据权利要求2所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S2‑S3中,所述策略网络和估计网络的组建步骤为:所述演员当前网络、演员目标网络、评论家当前网络、评价目标网络均由输入层、隐藏层和输出层构成;所述策略当前网络和策略目标网络的网络参数分别用θ和θ'表示;所述评论家当前网络和评论家目标网络的网络参数分别用w1,w2和w'1,w'2表示;所述策略网络中的演员当前网络通过梯度上升法更新当前网络,在神经网络作用下进行网络状态到切换动作的映射得到切换策略:π(s;θ);估计网络中的评论家当前网络,通过神经网络近似Q函数得到Q值:Q(s,a;w);演员目标网络和评论家目标网络在延时学习作用下,通过软更新的方