预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115913836A(43)申请公布日2023.04.04(21)申请号202211412635.3(22)申请日2022.11.11(71)申请人中国人民解放军陆军工程大学地址210007江苏省南京市秦淮区后标营路88号(72)发明人林鑫刘爱军梁小虎李洋洋高志祥(74)专利代理机构南京纵横知识产权代理有限公司32224专利代理师刘艳艳(51)Int.Cl.H04L25/02(2006.01)H04L27/26(2006.01)G06N3/0464(2023.01)G06N3/08(2023.01)权利要求书3页说明书8页附图3页(54)发明名称一种基于深度强化学习的自适应导频方法(57)摘要本发明公开了一种基于深度强化学习的自适应导频方法,方法包括:发送端获取接收端返回的信道统计信息;基于信道统计信息,利用预训练好的基于深度强化学习的导频决策模型进行决策,得到导频决策结果;根据所述导频决策结果,调整时‑频域的导频间距和导频功率;其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络;采用ε‑greedy贪婪算法来进行训练至达到预设条件,得到训练好的基于深度强化学习的导频决策模型。该模型能够根据信道时变的统计特性调整导频分布和功率来适应非平稳的信道特性,在保证信道估计精度的同时,有效地减少了导频数量和功率开销,提高了通信系统工作效率。CN115913836ACN115913836A权利要求书1/3页1.一种基于深度强化学习的自适应导频方法,其特征在于,包括:发送端获取接收端返回的信道统计信息;基于所述信道统计信息,利用预训练好的基于深度强化学习的导频决策模型进行决策,得到导频决策结果;根据所述导频决策结果,调整时‑频域的导频间距和导频功率;其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络;采用ε‑greedy贪婪算法来进行训练至达到预设条件,得到训练好的基于深度强化学习的导频决策模型。2.根据权利要求1所述的基于深度强化学习的自适应导频方法,其特征在于,获取接收端返回的信道统计信息,包括:将第k个帧中的状态表示为其中分别表示第k个帧中时域相关向量、频域相关向量以及信噪比统计特性;信道统计信息的计算公式如下所示:时域上的相关性系数:频域上的相关性系数:信噪比统计特性:其中,表示第n帧中的非平稳信道矩阵,其中包含了ND个OFDM符号和NS个子载波;diagm[X]表示矩阵X中第m个对角线进行向量化;{diagm[X]}q表示第m个对角线向量中的第q个元素;pk和分别表示第k帧的发送功率和平均信道增益;根据信道时、频域上的相关性系数,获得非平稳信道在时、频域上的相关向量:3.根据权利要求1所述的基于深度强化学习的自适应导频方法,其特征在于,基于深度强化学习的导频决策模型的训练方法,包括:步骤S1.初始化深度强化学习DQN网络参数和迭代数k=1,设定经验回放单元大小和最大帧数kmax;步骤S2.智能体接收第k帧中的信道统计信息sk,以概率1‑ε随机选择一个动作ak=ak',否则选择输出Q值最大的动作其中θ为评估网络参数;步骤S3.执行动作ak,并更新下一个状态为sk+1;2CN115913836A权利要求书2/3页步骤S4.评估第k帧的信道归一化估计误差函数NMSEk和代价函数基于所述信道归一化估计误差函数NMSEk和代价函数得到奖励函数rk(sk,ak);步骤S5.将(sk,ak,rk,sk+1)存入经验回放单元;步骤S6.从经验回放单元随机抽取mini‑batch小批量大小的历史数据计算目标值,利用RMSProp优化器最小化损失函数,并迭代更新评估网络参数θ;在1000次迭代后,用评估网络参数θ替代目标网络参数θ‑;步骤S7.k=k+1,若k>kmax,则训练结束;否则,返回步骤2。4.根据权利要求3所述的基于深度强化学习的自适应导频方法,其特征在于,将第k帧的动作表示为ak={Df(k),Dt(k),ρ(k)},其中Df(k)和Dt(k)分别表示导频符号在时域和频域的间隔;基于可能出现的相干带宽和相干时间用和分别表示可选的时频域导频间隔集合;ρ(k)是导频符号功率和数据符号功率的比值,其可选空间为因此智能体的动作空间大小为T*F*Q,T和F分别为时域和频域可选导频间隔数量,Q为可选功率比数量。5.根据权利要求3所述的基于深度强化学习的自适应导频方法,其特征在于,第k帧的信道归一化估计误差函数NMSEk,包括:其中,和分别表示第u个OFDM符号中第v个子载波处的实际信道响应和估计得到的信道响应,ND和NS分别表示OFDM符号和子载波的个数。6.根据权利要求3所述的基于深度强化学习的自适应导频方法,其特征在于