预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108521673A(43)申请公布日2018.09.11(21)申请号201810309020.5(22)申请日2018.04.09(71)申请人湖北工业大学地址430068湖北省武汉市洪山区南李路28号(72)发明人赵楠贺潇范孟林田超樊鹏飞裴一扬武明虎蒋云昊李利荣常春(74)专利代理机构武汉帅丞知识产权代理有限公司42220代理人朱必武(51)Int.Cl.H04W72/04(2009.01)H04W72/08(2009.01)权利要求书3页说明书6页(54)发明名称一种异构网络中基于强化学习的资源分配和功率控制联合优化方法(57)摘要本发明属于无线通信技术领域,具体涉及一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。针对传输信道和传输功率等因素的动态和时变特性,在考虑异构网络中用户的自私性和运营商利益的前提下,在建立异构蜂窝网络系统模型基础上,通过建立多智能体强化学习框架,结合用户满意度和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络的长期系统效用的最大化。CN108521673ACN108521673A权利要求书1/3页1.一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:针对传输信道和传输功率的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体强化学习优化策略,结合用户满意度Qos和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。2.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述建立异构蜂窝网络系统模型实现过程包括:考虑由MBS、FBS和用户设备组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示为BS={MBS,FBS1,...,FBSL},假设所有的基站和N个UEs都只有一个通信天线,BS可以在K个信道上工作;对于任意一个UE,定义二元信道分配变量为:其中,在时间t,如果第i个UE使用信道Ck,则否则虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道,因此,对于每一个UE,有此外,定义二元联合基站变量:其中,在时间t,如果第i个用户连接到第l个基站,则否则,考虑到每个UE只能接入一个基站,对于每一个UE,有假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内,于是,第i个UE处的瞬时信号干扰比SINR为:其中,是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽,N0是噪声谱功率;于是,第i个UE在信道Ck上收到的下行数据率为因此,第i个UE获得的总数据率:同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用户服务的最低要求Ωi,即2CN108521673A权利要求书2/3页此外,假设第k个信道下行链路的数据传输成本为:其中,λ1是BS传输功率的单位价格,于是,第i个UE总传输成本为:于是,第i个UE的效用定义为:其中,ρ>0为每个用户单位速率的收益;于是,对于任意时间t,UE的长期效用由用户关联、信道分配和基站传输功率控制共同决定,即:其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。3.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述多智能体强化学习优化策略实现过程包括:联合优化问题可以形式化地定义为MDP(S;Ai;Ri;P),其中,S是一组离散的环境状态,A1,...,AN是一组离散的可能动作,R1,...,RN是奖励函数,P是状态转移矩阵,首先描述强化学习的基本模型,接着,提出基于多智能体强化学习的联合优化算法。定义状态空间,行动空间和奖励函数有关的基本强化学习元素,在这种异构蜂窝网络中,每个UE都扮演着一个智能体的角色,因此,提出分布式多智能体强化学习优化策略;状态空间:目标状态s(t)由N个UE的服务质量综合确定,s(t)={s1(t),s2(t),...,sN(t)},当用户对服务质量满意时就等于1,不满意就是0,所有可能状态的数量是2N,随着N的增加,这个数目可能非常大;动作空间:每个UE选择附近的BS、传输信道和功率水平,考虑到实际应用场景,发射功率一般为离散值,于是,考虑M个功率水平,即P1,...,PM,功率水平选择变量定义为:其中,如果BS选择传输功率pm,则否则,考虑到BS传输时只能选择一种