预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115087117A(43)申请公布日2022.09.20(21)申请号202210676655.5(22)申请日2022.06.15(71)申请人西安邮电大学地址710061陕西省西安市长安南路563号(72)发明人姜静王洁晨甄立杜剑波王宠召岳志宇(74)专利代理机构西安亚信智佳知识产权代理事务所(普通合伙)61241专利代理师张西娟(51)Int.Cl.H04W72/08(2009.01)H04B7/0413(2017.01)G06N20/00(2019.01)权利要求书2页说明书10页附图6页(54)发明名称基于多智能体深度强化学习的动态协作簇选择方法及装置(57)摘要本公开实施例是关于一种基于多智能体深度强化学习的动态协作簇选择方法及装置。该方法包括:建立系统模型;对全局状态动作值Q函数进行分解;收集智能体的状态、动作、奖励以及下一状态作为网络的训练数据,并存入缓冲区;训练Q网络;利用所述最佳协作簇选择方案为用户进行服务。本公开实施例在深度强化学习算法的基础上结合了多智能体系统来解决去蜂窝大规模MIMO系统中AP与用户之间的组合优化问题。利用值函数分解网络改善多智能体系统的环境非平稳问题。通过值分解避免由智能体独立学习造成的非稳态环境,降低了计算量,使每个智能体的训练过程更有针对性。为系统中的多用户同时选择出最佳协作簇进行服务,使系统的频谱效率得到提升。CN115087117ACN115087117A权利要求书1/2页1.一种基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,包括以下步骤:步骤S100,建立系统模型:根据去蜂窝大规模MIMO系统建立多智能体深度学习系统模型,并定义所述系统模型的状态空间、动作空间和即时奖赏;在所述步骤S100中,所述系统模型的动作空间Ak={aj|j=1,...ζk}为用户k在接入点候选集中的每种选择的组合,ζk为动作的数量,aj为所述智能体的一个可选动作向量,所述向量中的每个元素值为0或1,其中,1代表对应接入点服务于用户k,0代表对应接入点没有服务于用户k;步骤S200,对全局状态动作值Q函数进行分解;步骤S300,收集智能体的状态、动作、奖励以及下一状态作为网络的训练数据,并存入缓冲区;步骤S400,训练Q网络,获取当前状态下最佳协作簇选择方案;步骤S500,利用所述最佳协作簇选择方案为用户进行服务。2.根据权利要求1所述基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,将被用户选择的接入点的数量视为不同状态值,则所述智能体的状态为Sk={sl|l=1,...Ωk},其中,Ωk为状态的数量。3.根据权利要求2所述基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,所述即时奖赏的奖励函数为其中Rk为用户k的频谱效率。4.根据权利要求2所述基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,所述即时奖赏的奖励函数为其中,B为带宽,P总为总功率,Rk为用户k的频谱效率。5.根据权利要求3所述基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,所述步骤S200中,采用值函数分解的方法对全局状态动作值Q函数Qtotal进行线性分解,分解出的子值函数的数量对应于去蜂窝大规模MIMO系统中用户的数量K,每个智能体的子值函数Qk对应于每个用户的频谱效率函数Rk。6.根据权利要求1所述基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,所述步骤S300包括以下步骤:步骤S301,通过去蜂窝大规模MIMO系统模型产生信道数据集;步骤S302,初始化状态,根据协作簇选择策略执行不同动作,选取概率最大的动作并接收即时奖励且转移到下一状态;步骤S303,将智能体的状态、动作、奖励以及下一状态存入经验回放缓冲区;步骤S304,判断当前状态是否为终止状态或者是否达到最大迭代次数,若是,则执行步骤S400;若否,则将下一状态作为神经网络的输入数据,返回步骤S302。7.根据权利要求1所述基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,所述步骤S400包括以下步骤:步骤S401,从缓冲区中均匀随机采样抽取样本数据点;2CN115087117A权利要求书2/2页步骤S402,计算损失函数并利用梯度下降法将权重传给每个智能体;步骤S403,智能体各自更新子值Q函数,得到当前状态下最佳协作簇选择方案。8.根据权利要求7所述基于多智能体深度强化学习的动态协作簇选择方法,其特征在于,所述步骤S403中,利用经验回放机制从缓冲区中均匀随机采样抽取数据点来训练值函数估计网络,通过在线值函数估计网络得到预测的Q值,同时利用目标网络计算出目标网络Q值,然后通过梯度下降法对损失函数进行更新,并利用反向传播来更新值函数估计网