预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114153216A(43)申请公布日2022.03.08(21)申请号202111530627.4(22)申请日2021.12.14(71)申请人浙江大学湖州研究院地址313000浙江省湖州市西塞山路819号南太湖新区科技创新综合体B1、B2幢2-3层(72)发明人张育林胡瑞军张斌斌李传祥(74)专利代理机构上海新隆知识产权代理事务所(普通合伙)31366代理人刘兰英(51)Int.Cl.G05D1/02(2020.01)权利要求书4页说明书10页附图4页(54)发明名称基于深度强化学习和块规划的月面路径规划系统和方法(57)摘要本发明公开了一种基于深度强化学习和块规划的月面路径规划方法,用于月面机器人在大范围月面地形中的快速路径规划。基于深度强化学习方法,提出了一种端到端的路径规划器,能够基于特定尺寸的月面可穿越性地图和机器人位置、目标位置,直接求解当前最佳运动方向。基于分层思想,设计一种块规划应用架构,首先利用块规划器在缩小地图上进行粗略初始路径规划,然后利用块规划器沿着初始路径进行分块精确路径规划。块规划应用架构能够有效压缩求解空间,显著降低路径规划时耗。本发明主要用于月面大范围遥测地形图上的机器人路径规划,通过端到端规划器和块规划应用架构的设计使得本发明的方法具有规划速度快的优势。CN114153216ACN114153216A权利要求书1/4页1.一种基于深度强化学习和块规划的月面路径规划系统,其特征在于,所述月面路径规划系统包括一个基于深度Q网络的块规划器和一个块规划应用架构;所述基于深度Q网络的块规划器用于月面可穿越性地图上的路径规划,所述可穿越性地图是基于月面数字高程模型生成的二值化地图,其像素值取“1”的位置为可穿越区域,像素值取“0”的位置为不可以穿越区域;所述基于深度Q网络的块规划器采用一种双通道输入的深度Q网络来建立全局状态信息到最佳运动方向的映射关系,包括全局通道和局部通道两个通道;所述块规划应用架构采用分层设计,首先将可穿越性地图的缩小为可规划图,利用块规划器进行粗略初始路径求解;其次,沿着初始粗略路径均匀地选取导航点;然后,利用块规划器依次在每两个相邻导航点之间进行精确路径求解;最后依次将每两个相邻导航点之间的路径进行拼接,得到可穿越性地图上的路径规划结果。2.如权利要求1所述的一种基于深度强化学习和块规划的月面路径规划系统,其特征在于,所述全局通道用于提取全局信息,包括全局可穿越性地图、机器人的当前位置和目标位置,在全局可穿越性地图的基础上,增加一层机器人位置层和一层目标位置层,机器人位置层和目标位置层是在空白图上标记位置信息构成的;所述全局通道通过一个18层的残差卷积神经网络进行特征提取。3.如权利要求2所述的一种基于深度强化学习和块规划的月面路径规划系统,其特征在于,所述局部通道用于进行机器人瞬时位置周边近距离的X个单元格范围内障碍物信息提取和推理,其输入矩阵维度为1×X×X,记为Tlocal;所述局部通道采用一个6层的残差卷积神经网络进行信息推理。4.如权利要求3所述的一种基于深度强化学习和块规划的月面路径规划系统,其特征在于,所述全局通道和局部通道通过两个全连接层进行融合,进而进行机器人运动方向评价值的估计;网络输出为指向机器人周边8个方向动作的评价值;经训练,Q网络输出的最大评价值所对应动作即为当前全局和局部状态输入情况下的最优动作;经块规划器的迭代求解,求出全局可穿越性地图上的轨迹。5.一种基于深度强化学习和块规划的月面路径规划方法,其特征在于,采用如权利要求1~4中任一权利要求所述的基于深度强化学习和块规划的月面路径规划系统。6.如权利要求5所述的一种基于深度强化学习和块规划的月面路径规划方法,其特征在于,所述月面路径规划方法包括块规划器训练方法、块规划器算法和块规划应用架构的操作方法,所述块规划器训练方法包括训练奖励方法和训练地图集构建方法。7.如权利要求6所述的一种基于深度强化学习和块规划的月面路径规划方法,其特征在于,所述训练奖励方法采用稠密奖励机制,包括目标到达奖励、目标趋近奖励、触障奖励、能量成本奖励以及平滑奖励,最终的奖励是这五项奖励的求和,具体包括以下步骤:目标到达奖励,记为如果时刻k机器人到达目标位置,则其取值为1,否则为0;目标趋近奖励,记为将其设计为机器人趋近目量的线性函数,表示为其中其中,λ线性放大系数,(rxk,ryk)为k时刻机器人的位置,(gx,gy)为目标位置;如果在时刻k机器人趋近了目标,则取值为正,否则为负;2CN114153216A权利要求书2/4页触障奖励,记为当机器人到达障碍物区域时,其取值为‑1,否则取值为0;能量成本奖励,记为其设置的目的是优化路径长度,其取值