预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115826013A(43)申请公布日2023.03.21(21)申请号202310115785.6G06N3/096(2023.01)(22)申请日2023.02.15G06N3/045(2023.01)G06N3/047(2023.01)(71)申请人广东工业大学G06N3/0495(2023.01)地址510060广东省广州市越秀区东风东G06N7/01(2023.01)路729号大院(72)发明人唐健浩李珍妮马垣德郑咏雯王千明谢胜利(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师任文生(51)Int.Cl.G01S19/42(2010.01)G06N3/092(2023.01)G06N3/082(2023.01)G06N3/084(2023.01)权利要求书3页说明书10页附图2页(54)发明名称基于轻量化强化学习的城市多径环境下北斗卫星定位方法(57)摘要本发明涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。具体包括以下步骤:引入部分可观测马尔可夫决策过程建立环境交互模型;构建包括一个主智能体及多个子智能体的模型框架,得到高性能主智能体作为深度强化学习教师模型;对教师模型策略剪枝,得到稀疏化学生模型,测量冗余度后对稀疏化学生模型进行重构并重新训练,得到高性能学生轻量化模型;将高性能学生轻量化模型部署在车载定位设备上,实时定位校正卫星参数并获取校正后的定位信息;将校正后的定位信息按照时间序列输出到真实路面;本发明能够实现对城市复杂环境的动态学习,并能够设置于车载定位设备上,大幅提升车载动态变化定位精度。CN115826013ACN115826013A权利要求书1/3页1.一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,具体包括以下步骤:X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间,观测状态空间,信念状态空间,奖励函数,其中:动作空间;式中:为校正动作参数,m为纬度校正步长,n为经度校正步长;通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;观测状态空间;式中:为t‑N‑1时刻的定位预测校正信息,为t‑1时刻的定位预测校正信息,为t时刻的所述定位设备播报的定位信息;信念状态空间;通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息来替换,更新信念状态空间;奖励函数;式中:为状态值,为校正动作参数;所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。2.根据权利要求1所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,所述主智能体和所述子智能体均包括:策略网络与价值网络;所述策略网络用于更新主智能体和所述子智能体的动作策略,通过寻找一个最优动作策略来最大化期望回报值;所述智能体的价值网络用来评价动作策略的优劣,通过输出状态价值为策略网络提供反馈。2CN115826013A权利要求书2/3页3.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,具体为:引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至所述子智能体训练结束,得到定位纬度与经度的原始特征参数;对定位纬度与经度的原始特征参数进行归一化处理,