预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114938543A(43)申请公布日2022.08.23(21)申请号202210753100.6(22)申请日2022.06.29(71)申请人内蒙古大学地址010021内蒙古自治区呼和浩特市赛罕区大学西街235号(72)发明人刘洋赵鑫连尹博宋海鹏龙旭东罗易(74)专利代理机构北京卓特专利代理事务所(普通合伙)11572专利代理师段旺(51)Int.Cl.H04W72/04(2009.01)H04W72/08(2009.01)权利要求书3页说明书14页附图10页(54)发明名称一种基于深度强化学习的蜂窝异构网络资源分配方法(57)摘要本申请公开了一种基于深度强化学习的蜂窝异构网络资源分配方法,包括如下步骤:S1:构建三层异构网络模型,获得三层异构网络模型的参数信息,其中,参数信息至少包括:可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量;S2:完成构建后,通过MAPD3QN算法完成三层异构网络模型中的用户关联和信道分配的联合优化。本申请的能够在没有CSI的情况下进行优化,同时也能在大量用户和基站的情况下完成策略收敛。CN114938543ACN114938543A权利要求书1/3页1.一种基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,包括如下步骤:S1:构建三层异构网络模型,获得三层异构网络模型的参数信息,其中,参数信息至少包括:可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量;S2:完成构建后,通过MAPD3QN算法完成三层异构网络模型中的用户关联和信道分配的联合优化。2.根据权利要求1所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,MAPD3QN算法的具体步骤如下:S201:输入三层异构网络模型中的可选行动列表,其中,可选行动列表包括:各个用户设备关联的基站的列表和信道的列表;S202:假设智能体后,对状态、动作、SumTree记忆存储器权值更新间隔N进行初始化;S203:通过在线网络的权值θ对在线网络Qu(s,au;θ)和DoubleQ网络QDoubleQNet(s′,au;θ)进行初始化;S204:通过在线网络的权值θ更新目标网络的权值θ‑,根据目标网络的权值θ‑初始化目‑标网络Qu(s′,a′u;θ);S205:通过将消息传递至连接的基站初始化状态;S206:智能体在状态s下通过ε‑greedy算法从在线网络Qu(s,au;θ)中以概率ε随机选择一个动作au;S207:智能体向选定的基站发送请求,以访问选定的信道;如果基站向用户设备发送可用信道频率的反馈信号,用户设备将获得即时奖励μu(s,au);否则,基站将不回复任何内容,用户设备将获得负奖励;S208:智能体通过将消息传递至连接的基站获取状态s′;S209:智能体将数据(s,au,μu(s,au),s′)以概率pu的最大优先级顺序存储在编号为H的SumTree记忆存储器中;S210:智能体将SumTree记忆存储器H中的数据(s,au,μu(s,au),s′)按最小批次的大小分成B个部分,根据概率pu从B个部分中进行采样,获得多个样本;S211:计算所有样本的TD偏差η,更新SumTree记忆存储器H中所有节点的优先级;‑S212:通过目标网络Qu(s′,a′u;θ)获取最大Q值的动作au;S213:根据最大Q值的动作au进行学习,获得更新的目标网络S214:对损失函数进行更新,获得最小化损失函数;S215:每学习N次,智能体替换目标网络参数θ‑=θ;S216:当完成N次学习后,获得学习N次的状态集合s={1,...,1},完成一轮学习,若当前不是最后一轮学习,则重新执行S201进行新一轮的学习,直到所有轮的学习均完成,则输出最优行动序列。3.根据权利要求2所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,三层异构网络模型至少包括:Bm个宏基站、Bp个微型基站、Bf个毫微微基站和U个随机定位的用户设备。4.根据权利要求3所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在2CN114938543A权利要求书2/3页于,利用用户设备的最终的奖励Ru(t)来表示即时奖励μu(s,au),用户设备最终的奖励Ru(t)的表达式如下:Ru(t)=wu(t)‑ψu;其中,Ru(t)为最终的奖励;wu(t)为用户的收益;为与Bl相关联的总传输成本,Bl表示索引集合B中的第l个基站;ψu为行动选择的成本,ψu>0。5.根据权利要求4所述的基于深度强化学习的蜂窝异构网络资源分配方法,其特征在于,通过绝对偏差|η|表示TD偏差η的大小,绝对偏差|η|的表达式为:‑|ηu|=|μu(s,au)+γQu(s′,a′u;θ)‑Qu(s,au;θ)|;其中,|η