预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110798842A(43)申请公布日2020.02.14(21)申请号201911005686.2H04W16/32(2009.01)(22)申请日2019.10.22G06N3/08(2006.01)G06N3/04(2006.01)(66)本国优先权数据H04W84/04(2009.01)201910098490.62019.01.31CNH04W84/06(2009.01)(71)申请人湖北工业大学地址430068湖北省武汉市洪山区南李路28号(72)发明人赵楠刘泽华刘畅裴一扬刘聪曾春艳谭惠文贺潇(74)专利代理机构武汉帅丞知识产权代理有限公司42220代理人朱必武刘丹(51)Int.Cl.H04W16/18(2009.01)H04W16/22(2009.01)权利要求书2页说明书6页附图1页(54)发明名称一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法(57)摘要本发明属于无线通信技术领域,具体涉及一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法。在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出基于多智能体深度强化学习的网络流量卸载方法,采用分布执行与集中训练相结合的深度强化学习框架,通过小型基站相互之间消息传递以获得全局状态空间,结合宏蜂窝满意度和运营商追求利益的条件,以获得小型基站最优的服务热点区域和部署位置。CN110798842ACN110798842A权利要求书1/2页1.一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法,其特征在于,所述方法包括如下步骤:步骤1,针对下行链路异构蜂窝网络流量卸载优化问题,在考虑到优化问题的非凸性和组合特性的前提下,建立异构蜂窝网络系统模型;步骤2,在此基础上,结合宏蜂窝满意度和运营商追求利益的条件,建立基于多智能体深度强化学习的网络流量卸载模型;步骤3,在步骤2的基础上,建立分布执行与集中训练相结合的深度强化学习框架,以获得小型基站最优的服务热点区域和部署位置。2.根据权利要求1所述的基于多用户深度强化学习的异构蜂窝网络流量卸载方法,其特征在于:步骤1中,建立异构蜂窝网络系统模型的实现过程包括:考虑由宏基站MBSs、小型基站SBSs和若干个随机分布的移动用户组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在N个SBSs,即SBS1,...,SBSN,其中有N1个地面小基站和N2个无人机小基站组成,N1+N2=N。3.根据权利要求2所述的基于多用户深度强化学习的异构蜂窝网络流量卸载方法,其特征在于:步骤2中,建立基于多智能体深度强化学习的网络流量卸载模型的过程包括:由于SBSs的自私性,每个SBS选择各自的流量卸载策略以获得长期奖励的最大化,考虑到每个SBS在每期仅服务一个热点区域,SBS的流量卸载策略不可避免会受到其他SBSs流量卸载策略的影响,SBS的奖励依赖于网络环境的当前状态和其他SBSs的动作,因此,将多SBSs联合流量卸载优化问题建模为随机博弈(N,S,Ai,Ri,Pss′),其中,N为SBS的数量,S为状态空间,Ai为动作空间,Ri为奖励函数,Pss′为状态转移概率;在本方法中,每个SBS作为参与者,也就是一个智体;状态空间:状态空间S由N个SBSs的流量卸载服务质量综合确定s(t)={s1(t),s2(t),...,sN(t)},当SBSi满足MBS提出的流量卸载需求时,si(t)=1,否则si(t)=0;动作空间:不同类型的SBSs,其动作空间Ai存在差异,地面小基站选择服务的热点区域,其动作空间为{hotReg1,hotReg2,...,hotRegK},无人机小基站选择服务的热点区域以及部署的位置,其动作空间为{hotReg1,...,hotRegK}*{pos};奖励函数:SBSi的奖励函数Ri为SBSs选择流量卸载策略时获得的奖励,即当SBSi满足MBS提出的流量卸载需求时,则SBSi的奖励就是其效用wi(t),否则,SBSi的奖励就是其动作的选择成本ψi;考虑到网络信息不完全因素,提出分布式多智能体深度强化学习方法,SBSs通过消息传递告知其他SBSs其当前状态,来获得全局状态空间,并基于全局状态空间以获得满足累计奖励最大化的流量卸载策略;第i个SBS的累计奖励定义为:其中,E表示学习期望,它与时间t无关;γ是折扣因子,且γ∈[0,1),表示更重视长期2CN110798842A权利要求书2/2页收益;由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关,于是,值函数简化为:其中,ui(s,ai)是Ri(s,ai)的数学期望,Pss'(ai)表示在状态s采取动作ai到状态s'的转移概