一种基于深度强化学习的帧级码率自适应控制方法.pdf
一吃****春晓
在线预览结束,喜欢就下载吧,查找使用更方便
相关资料
一种基于深度强化学习的帧级码率自适应控制方法.pdf
本发明提供了一种基于深度强化学习的帧级码率自适应控制方法,其步骤如下:(1)由内容提供端生成原始视频,并将原始视频划分为决策单元;(2)针对每个决策单元,利用神经网络根据当前的决策给出视频编码的量化参数值;然后对每个决策单元进行编码后打包传输;(3)视频发送端以帧为单位依次发送决策单元的视频流,接收端在本地维护一个接收缓冲区和一个播放缓冲区;(4)根据回传的状态信息计算用户体验质量,更新神经网络的参数,输出下一个量化参数的决策;(5)重复上述步骤(1)至(4),直至收敛到最优决策策略。本发明的方法直接对编
面向边缘蜂窝网络基于强化学习的视频码率自适应方法.pdf
一种面向边缘蜂窝网络基于强化学习的视频码率自适应方法,通过构建能够多址边缘计算(MEC)转码的服务端及内置缓存的客户端作为视频流会话仿真环境,采用并行协作联合多视频切片码率转码和传输的ABR方法(PCMC)模型,以视频数据集和无线带宽轨迹数据集在视频流会话仿真环境中进行基于异步强化学习(A3C)的训练,在在线阶段通过该模型对视频码率进行自适应调整。本发明在配置MEC的无线网络场景下,充分利用RAN侧的信息以及MEC计算资源和存储资源的同时,使用传输和转码并行执行的策略,减少MEC带来的额外计算延迟和计算能
一种基于深度强化学习的自适应导频方法.pdf
本发明公开了一种基于深度强化学习的自适应导频方法,方法包括:发送端获取接收端返回的信道统计信息;基于信道统计信息,利用预训练好的基于深度强化学习的导频决策模型进行决策,得到导频决策结果;根据所述导频决策结果,调整时‑频域的导频间距和导频功率;其中所述基于深度强化学习的导频决策模型包括两个结构相同的评估神经网络和目标神经网络;采用ε‑greedy贪婪算法来进行训练至达到预设条件,得到训练好的基于深度强化学习的导频决策模型。该模型能够根据信道时变的统计特性调整导频分布和功率来适应非平稳的信道特性,在保证信道估
一种基于深度强化学习的自适应众包方法.pdf
本发明公开了一种基于深度强化学习的自适应众包方法。方法具体为:1)首先从众包系统中采样需要分配的任务和候选的众包工人;2)通过深度学习方法获得待分配任务和候选工人的低维特征表示;3)通过强化学习方法确定任务分配策略;4)众包系统根据分配策略分配任务,根据任务完成结果评估本次分配获得的收益,将该收益反馈给强化学习方法,更新强化学习参数;5)从1)开始继续下一轮的任务分配。和现有技术相比,本发明结合了深度强化学习方法,系统地对任务分配问题进行建模,针对不同任务本身的特征选择合适的众包工人,形成了自适应的智能众
一种基于深度强化学习的个性化自适应巡航系统及其控制方法.pdf
本发明公开了一种基于深度强化学习的个性化自适应巡航系统及其控制方法,基于深度强化学习设计个性化的多目标自适应巡航控制系统,基于改进的深度确定性梯度策略,通过设计三种不同控制风格的控制模块,以及对该系统的安全性、跟车性及舒适性进行模块化奖励函数的设计满足不同风格驾驶员对于ACC系统各性能的需求,通过构建相似度函数,将其用于在线动作网络的更新,使其更加符合人类驾驶员的驾驶习惯,通过经验更新模块,提高了各类型驾驶员高价值经验样本的复用率,有效提升了网络的收敛速度,总体提升了ACC系统的个性化及综合性能。