一种基于深度强化学习的自适应导频方法-豆柴文库

一种基于深度强化学习的自适应导频方法.pdf

2023-06-04

10金币

2MB

15页

灵慧****89

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115913836A(43)申请公布日2023.04.04(21)申请号202211412635.3(22)申请日2022.11.11(71)申请人中国人民解放军陆军工程大学地址210007江苏省南京市秦淮区后标营路88号(72)发明人林鑫刘爱军梁小虎李洋洋高志祥(74)专利代理机构南京纵横知识产权代理有限公司32224专利代理师刘艳艳(51)Int.Cl.H04L25/02(2006.01)H04L27/26(2006.01)G06N3/0464(2023.01)G06N3/08(2023.01)权利要求书3页说明书8页附图3页(54)发明名称一种基于深度强化学习的自适应导频方法(57)摘要本发明公开了一种基于深度强化学习的自适应导频方法，方法包括：发送端获取接收端返回的信道统计信息；基于信道统计信息，利用预训练好的基于深度强化学习的导频决策模型进行决策，得到导频决策结果；根据所述导频决策结果，调整时‑频域的导频间距和导频功率；其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络；采用ε‑greedy贪婪算法来进行训练至达到预设条件，得到训练好的基于深度强化学习的导频决策模型。该模型能够根据信道时变的统计特性调整导频分布和功率来适应非平稳的信道特性，在保证信道估计精度的同时，有效地减少了导频数量和功率开销，提高了通信系统工作效率。CN115913836ACN115913836A权利要求书1/3页1.一种基于深度强化学习的自适应导频方法，其特征在于，包括：发送端获取接收端返回的信道统计信息；基于所述信道统计信息，利用预训练好的基于深度强化学习的导频决策模型进行决策，得到导频决策结果；根据所述导频决策结果，调整时‑频域的导频间距和导频功率；其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络；采用ε‑greedy贪婪算法来进行训练至达到预设条件，得到训练好的基于深度强化学习的导频决策模型。2.根据权利要求1所述的基于深度强化学习的自适应导频方法，其特征在于，获取接收端返回的信道统计信息，包括：将第k个帧中的状态表示为其中分别表示第k个帧中时域相关向量、频域相关向量以及信噪比统计特性；信道统计信息的计算公式如下所示：时域上的相关性系数:频域上的相关性系数：信噪比统计特性：其中，表示第n帧中的非平稳信道矩阵，其中包含了ND个OFDM符号和NS个子载波；diagm[X]表示矩阵X中第m个对角线进行向量化；{diagm[X]}q表示第m个对角线向量中的第q个元素；pk和分别表示第k帧的发送功率和平均信道增益；根据信道时、频域上的相关性系数，获得非平稳信道在时、频域上的相关向量：3.根据权利要求1所述的基于深度强化学习的自适应导频方法，其特征在于，基于深度强化学习的导频决策模型的训练方法，包括：步骤S1.初始化深度强化学习DQN网络参数和迭代数k＝1，设定经验回放单元大小和最大帧数kmax；步骤S2.智能体接收第k帧中的信道统计信息sk，以概率1‑ε随机选择一个动作ak＝ak'，否则选择输出Q值最大的动作其中θ为评估网络参数；步骤S3.执行动作ak，并更新下一个状态为sk+1；2CN115913836A权利要求书2/3页步骤S4.评估第k帧的信道归一化估计误差函数NMSEk和代价函数基于所述信道归一化估计误差函数NMSEk和代价函数得到奖励函数rk(sk,ak)；步骤S5.将(sk,ak,rk,sk+1)存入经验回放单元；步骤S6.从经验回放单元随机抽取mini‑batch小批量大小的历史数据计算目标值，利用RMSProp优化器最小化损失函数，并迭代更新评估网络参数θ；在1000次迭代后，用评估网络参数θ替代目标网络参数θ‑；步骤S7.k＝k+1，若k＞kmax，则训练结束；否则，返回步骤2。4.根据权利要求3所述的基于深度强化学习的自适应导频方法，其特征在于，将第k帧的动作表示为ak＝{Df(k),Dt(k),ρ(k)}，其中Df(k)和Dt(k)分别表示导频符号在时域和频域的间隔；基于可能出现的相干带宽和相干时间用和分别表示可选的时频域导频间隔集合；ρ(k)是导频符号功率和数据符号功率的比值，其可选空间为因此智能体的动作空间大小为T*F*Q，T和F分别为时域和频域可选导频间隔数量，Q为可选功率比数量。5.根据权利要求3所述的基于深度强化学习的自适应导频方法，其特征在于，第k帧的信道归一化估计误差函数NMSEk，包括：其中，和分别表示第u个OFDM符号中第v个子载波处的实际信道响应和估计得到的信道响应，ND和NS分别表示OFDM符号和子载波的个数。6.根据权利要求3所述的基于深度强化学习的自适应导频方法，其特征在于

相关资料

一种基于深度强化学习的自适应导频方法.pdf

本发明公开了一种基于深度强化学习的自适应导频方法，方法包括：发送端获取接收端返回的信道统计信息；基于信道统计信息，利用预训练好的基于深度强化学习的导频决策模型进行决策，得到导频决策结果；根据所述导频决策结果，调整时‑频域的导频间距和导频功率；其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络；采用ε‑greedy贪婪算法来进行训练至达到预设条件，得到训练好的基于深度强化学习的导频决策模型。该模型能够根据信道时变的统计特性调整导频分布和功率来适应非平稳的信道特性，在保证信道估

2023-06-04

2MB

一种基于深度强化学习的自适应众包方法.pdf

本发明公开了一种基于深度强化学习的自适应众包方法。方法具体为：1)首先从众包系统中采样需要分配的任务和候选的众包工人；2)通过深度学习方法获得待分配任务和候选工人的低维特征表示；3)通过强化学习方法确定任务分配策略；4)众包系统根据分配策略分配任务，根据任务完成结果评估本次分配获得的收益，将该收益反馈给强化学习方法，更新强化学习参数；5)从1)开始继续下一轮的任务分配。和现有技术相比，本发明结合了深度强化学习方法，系统地对任务分配问题进行建模，针对不同任务本身的特征选择合适的众包工人，形成了自适应的智能众

2023-08-31

523KB

一种基于深度强化学习的帧级码率自适应控制方法.pdf

本发明提供了一种基于深度强化学习的帧级码率自适应控制方法,其步骤如下:(1)由内容提供端生成原始视频,并将原始视频划分为决策单元;(2)针对每个决策单元,利用神经网络根据当前的决策给出视频编码的量化参数值;然后对每个决策单元进行编码后打包传输;(3)视频发送端以帧为单位依次发送决策单元的视频流,接收端在本地维护一个接收缓冲区和一个播放缓冲区;(4)根据回传的状态信息计算用户体验质量,更新神经网络的参数,输出下一个量化参数的决策;(5)重复上述步骤(1)至(4),直至收敛到最优决策策略。本发明的方法直接对编

2023-06-07

612KB

一种基于深度学习的自适应经济调度系统及方法.pdf

本发明公开了一种基于深度学习的自适应经济调度系统，其特征在于：它包括负荷矩阵构建模块、自适应学习模型及训练样本集构建模块、学习模型的训练目标构建模块、差异化训练样本集构建模块、长短期记忆网络构建模块和实时经济调度自适应学习模型构建模块；本发明基于完美调度理念生成学习模型训练目标，并利用系统中存储的海量历史数据对LSTM‑IIU网络对进行训练，一旦学习模型构建完成，将目标调度时刻的预测数据输入即可得到对应的实时经济调度方案。

2023-07-24

644KB

一种QUIC协议下基于深度强化学习的视频流自适应传输方法.pdf

一种QUIC协议下基于深度强化学习的视频流自适应传输方法，结合基于门控循环单元(GRU)和卷积(CNN)的神经网络建立网络轨迹特征的提取模型，利用注意力机制学习不同特征对带宽的影响，预测未来时刻带宽信息；将预测的带宽信息作为码率决策的状态输入，建立QoE奖励模型，采用PPO算法训练强化学习网络，决策最优码率；客户端根据码率自适应决策模块的反馈结果将相应视频下载并播放，实现QUIC下的视频流自适应传输框架。本发明能够保证在QUIC协议下，带宽预测模块能够充分提取网络状态信息，实现长窗口的带宽预测，为码率自适

2023-07-21

997KB