预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115103372A(43)申请公布日2022.09.23(21)申请号202210691649.7G06N3/04(2006.01)(22)申请日2022.06.17G06N3/08(2006.01)(71)申请人东南大学地址211189江苏省南京市江宁区东南大学路2号(72)发明人许威张薇(74)专利代理机构南京瑞弘专利商标事务所(普通合伙)32249专利代理师唐少群(51)Int.Cl.H04W16/22(2009.01)H04W72/12(2009.01)H04B17/391(2015.01)H04B7/0452(2017.01)G06K9/62(2022.01)权利要求书3页说明书7页附图2页(54)发明名称一种基于深度强化学习的多用户MIMO系统用户调度方法(57)摘要本发明公开了一种基于深度强化学习的多用户MIMO系统用户调度方法,包括:首先构建多用户MIMO系统模型,提出用户调度数学优化问题,以最大化系统和速率为目标,以基站总发射功率为限制条件;接着,将优化问题建模为马尔可夫决策过程,将基站视为智能体,将经过处理的基站到用户的信道矩阵以及一个指示矩阵拼接作为状态,将选择的用户索引作为动作,并设计合适的奖励函数;然后设计深度强化学习神经网络结构并初始化深度强化学习相关参数;随后,开始训练神经网络直至收敛;最后,保存网络参数,用训练好的神经网络来进行用户调度,验证本方法的性能。本发明能够在降低实现复杂度的情况下获得较高的系统性能。CN115103372ACN115103372A权利要求书1/3页1.一种基于深度强化学习的多用户MIMO系统用户调度方法,其特征在于,所述方法包括:步骤S1、构建多用户MIMO系统,该系统包括基站和多个单天线用户,其中,基站到用户的信道矩阵建模为瑞利衰落模型;步骤S2、针对步骤S1中构建的多用户MIMO系统,进行用户调度优化的建模,以最大化系统和速率为目标,且以基站总发射功率为约束,构建优化问题;步骤S3、根据步骤S2中构建的优化问题,建立马尔可夫决策过程,其包括:设计智能体、状态、动作空间、动作、奖励函数以及折扣因子;步骤S4、基于深度Q学习方法,构建深度强化学习网络,该强化学习网络包括本地Q网络和目标Q网络,其中,该两个网络具有相同的结构,均包括两个卷积层,三个全连接层,网络的输出均为动作空间中每个动作对应的Q值,维度等于动作空间的维度;步骤S5、初始化深度强化学习的参数,该参数包括:经验池、学习率、网络更新时每次采样的样本数量、折扣因子、强化学习网络总的训练回合、每个回合包含的时隙;再随机初始化本地Q网络的网络参数和目标Q网络的网络参数,并获取初始状态;步骤S6、对步骤S4中构建的深度强化学习网络进行训练,获得训练好的深度强化学习网络,再基于该训练好的深度强化学习网络直接选择最优的调度用户组合。2.根据权利要求1所述的一种基于深度强化学习的多用户MIMO系统用户调度方法,其特征在于,所述的多用户MIMO系统包括一个配备有天线数为Nt的基站和K个单天线用户;所述的基站到用户的信道矩阵,其是维度为K×Nt的复数矩阵。3.根据权利要求2所述的一种基于深度强化学习的多用户MIMO系统用户调度方法,其特征在于,在所述步骤S2中,所述优化问题具体表示为:s.t.Tr(VHV)≤P(1a)在公式(1)和(1a)中,hk为信道矩阵H的第k行,表示基站到用户k的信道,zk∈{0,1}表示2用户k是否被调度,V为相应的预编码矩阵,vk为预编码矩阵V的第k列,σ为噪声方差,公式(1a)为基站发射功率限制,P为基站最大发射功率,上标(·)H为取共轭转置操作,Tr(·)为取迹操作,||·||为取模操作。4.根据权利要求3所述的一种基于深度强化学习的多用户MIMO系统用户调度方法,其特征在于,所述步骤S3包括:步骤S301、将基站作为马尔可夫决策过程中的智能体;步骤S302、设计一三维矩阵作为马尔可夫决策过程中的状态,该三维矩阵的大小为(3,K,Nt);其中,(2,K,Nt)包括基站到所有用户的信道矩阵H,并将其实部和虚部分别存储,另一部分为一个(1,K,Nt)的指示矩阵,这个矩阵初始化为全1矩阵,当某个用户被选择时,相应的行置0;步骤S303、设计马尔可夫决策过程中的动作,其包括:将用户集合{1,2,…,K}作为动作空间,每次选择的动作为动作空间中的一个,即所选用户的索引;步骤S304、设计马尔可夫决策过程中的奖励函数,其包括:R=R1+R2+R3,其中R1表示系统2CN115103372A权利要求书2/3页和速率,R2表示和速率的增长值,R3表示智能体受到的惩罚,根据情况R3取‑50或0;步骤S305、设计马尔可夫决策过程中的折扣因子γ。5.