预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107995034A(43)申请公布日2018.05.04(21)申请号201711236163.X(22)申请日2017.11.30(71)申请人华北电力大学(保定)地址071003河北省保定市永华北大街619号(72)发明人李保罡吕亚波赵伟刘涛(74)专利代理机构北京卓岚智财知识产权代理事务所(特殊普通合伙)11624代理人任漱晨(51)Int.Cl.H04L12/24(2006.01)H04W72/04(2009.01)权利要求书1页说明书8页附图1页(54)发明名称一种密集蜂窝网络能量与业务协作方法(57)摘要本发明实施例公开了一种密集蜂窝网络能量与业务协作方法,能够应用于在线的多基站的资源分配,首先利用匹配理论,实现用户和相应基站的分组。即利用匹配理论实现以用户为中心的分簇,以簇为单位从而减小基站群的规模,然后使用多代理强化学习算法实现基站功率的分配和基站间能量合作。CN107995034ACN107995034A权利要求书1/1页1.一种密集蜂窝网络能量与业务协作方法,其特征在于,所述方法包括:根据效用函数,生成关于用户终端和基站的偏好列表;根据偏好列表,利用多对多匹配算法,得到用户基站簇;在用户基站簇中,使用强化学习算法,得到基站功率分配和基站间能量的合作策略。2.根据权利要求1所述的方法,其特征在于,所述根据效用函数,生成关于用户终端和基站的偏好列表,具体包括:定义效用函数Vnk,m,表示第n个基站在第k个信道上到终端m能发送的数据量,依据发送数据速率Vnk,m和信道增益gnk,m,生成基站和用户的偏好列表。3.根据权利要求1所述的方法,其特征在于,所述在用户基站簇中,使用多代理强化学习算法,得到基站功率分配和基站间能量的合作策略,具体包括:第一步,确定动作集,即代理输出的所有可能的行为值;从环境中抽取状态表示,作为代理对环境的观察;第二步,每个代理观察当前环境的状态,进入探索阶段;第三步,代理以最大化系统平均和速率为目标,根据自己的观察进行理性的行为选择,其中,行为包括基站的发送功率和能量协作,本部分可用来决策的策略有两个,随机性的实验策略和确定性的基准策略;第四步,所有基站都决策完成后,计算环境的奖励信息,每个代理更新其对应的状态行为值;第五步,重复执行第三、四步,直至探索阶段结束,比较新学习到的策略和基准策略的优劣,将较优的策略作为本状态的输出策略。2CN107995034A说明书1/8页一种密集蜂窝网络能量与业务协作方法技术领域[0001]本发明涉及无线通信领域,尤其涉及一种密集蜂窝网络能量与业务协作方法。背景技术[0002]超密集网络被认为是5G中最有前景的技术之一,小的蜂窝覆盖半径可以实现较小的干扰,高的频谱重用,高的数据速率,与此同时,大量的蜂窝基站也带来了前所未有的能量开销,针对基站节能问题的研究已成为近些年的研究热点。[0003]目前,现有技术中只是针对基于能量捕获的单蜂窝和两个蜂窝下的资源分配,而对于密集网络场景下的多基站能量合作情况的研究较少,如何进行密集蜂窝网络能量与业务的协作是本领域技术人员亟待解决的技术问题。发明内容[0004]为解决上述技术问题,本发明实施例提供了一种密集蜂窝网络能量与业务协作方法。[0005]本发明实施例提供了如下技术方案:[0006]一种密集蜂窝网络能量与业务协作方法,所述方法包括:[0007]根据效用函数,生成关于用户终端和基站的偏好列表;[0008]根据偏好列表,利用多对多匹配算法,得到用户基站簇;[0009]在用户基站簇中,使用强化学习算法,得到基站功率分配和基站间能量的合作策略。[0010]其中,所述根据效用函数,生成关于用户终端和基站的偏好列表,具体包括:定义效用函数表示第n个基站在第k个信道上到终端m能发送的数据量,依据发送数据速率和信道增益生成基站和用户的偏好列表。[0011]其中,所述在用户基站簇中,使用多代理强化学习算法,得到基站功率分配和基站间能量的合作策略,具体包括:[0012]第一步,确定动作集,即代理输出的所有可能的行为值,从环境中抽取状态表示,作为代理对环境的观察;[0013]第二步,每个代理观察当前环境的状态,进入探索阶段;[0014]第三步,代理以最大化系统平均和速率为目标,根据自己的观察进行理性的行为选择,其中,行为包括基站的发送功率和能量协作,本部分可用来决策的策略有两个,随机性的实验策略和确定性的基准策略;[0015]第四步,所有基站都决策完成后,计算环境的奖励信息,每个代理更新其对应的状态行为值;[0016]第五步,重复执行第三、四步,直至探索阶段结束,比较新学习到的策略和基准策略的优劣,将较优的策略作为本状态的输出策略。[0017]与现有技术相