预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共34页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115016496A(43)申请公布日2022.09.06(21)申请号202210772926.7(22)申请日2022.06.30(71)申请人重庆大学地址400044重庆市沙坪坝区沙正街174号(72)发明人陈超杨劲冲王星辰李瑞远古富强郭松涛蒲华燕罗均谢志江(74)专利代理机构重庆博凯知识产权代理有限公司50212专利代理师张乙山(51)Int.Cl.G05D1/02(2020.01)权利要求书3页说明书21页附图9页(54)发明名称基于深度强化学习的水面无人艇路径跟踪方法(57)摘要本发明具体涉及基于深度强化学习的水面无人艇路径跟踪方法,包括:将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,设置对应的状态空间、动作空间和奖励函数;获取目标无人艇的规划路径;根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值;将目标无人艇当前的状态值输入经过训练的策略模型中,输出最优的动作值;策略模型基于柔性演员评论家算法构建;将最优动作值发送给目标无人艇执行;直至完成规划路径的跟踪控制。本发明无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。CN115016496ACN115016496A权利要求书1/3页1.基于深度强化学习的水面无人艇路径跟踪方法,其特征在于,包括以下步骤:S1:将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,设置对应的状态空间、动作空间和奖励函数;S2:获取目标无人艇的规划路径;S3:根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值;S4:将目标无人艇当前的状态值输入经过训练的策略模型中,输出最优的动作值;策略模型基于柔性演员评论家算法构建;训练时,基于状态空间、动作空间和奖励函数计算目标无人艇执行最优的动作值后返回的奖励值,用以更新策略模型的网络参数;S5:将最优动作值发送给目标无人艇执行;S6:重复执行步骤S3至S5,直至完成规划路径的跟踪控制。2.如权利要求1所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:步骤S1中,马尔可夫决策过程通过如下公式表示:1)状态空间表示为:式中:表示目标无人艇当前航向角和参考航向角之间的差值;d表示路径跟踪误差;β表示漂移角;δnd表示舵角指令大小;表示目标无人艇当前航向误差和上一时刻的航向误差的差值;Δd表示当前路径跟踪误差和上一个时刻路径跟踪误差的差值;2)动作空间表示为:式中:δnd表示舵角指令;3)奖励函数表示为:式中:表示与航向角相关的奖励;rd表示与路径跟踪误差相关的奖励;表示与控制稳定性相关的奖励;k1,k2,k3表示设置的常数项系数;σδ表示预设时段内20次舵角命令值的标准差;w1,w2,w3表示设置的每部分奖励项的权重系数。3.如权利要求1所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:步骤S2中,规划路径包括直线规划路径和曲线规划路径;1)直线规划路径表示为:2Ps=<p0,...,pi,pi+1,...pT>,pi∈R;式中:T表示直线规划路径的路径点数目;pi=(xpi,ypi),1<=i<=T表示第i个路径点2CN115016496A权利要求书2/3页的位置坐标,R表示任意实数;曲线规划路径表示为:22Pc:(x‑xc)+(y‑yc)=Rc;式中:pc=(xc,yc)表示曲线规划路径的圆心坐标;Rc表示曲线规划路径的路径半径。4.如权利要求3所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:定义pt=(xt,yt)为目标无人艇在t时间的位置坐标表示;1)对于直线规划路径,通过如下公式计算方位角和路径跟踪误差:式中:χp表示直线规划路径下目标无人艇的方位角;表示直线规划路径下目标无人艇的路径跟踪误差;pi=(xpi,ypi)表示为第i个路径点的位置坐标;pi+1=(xpi+1,ypi+1)表示为第i+1个路径点的位置坐标;2)对于曲线规划路径,通过如下公式计算方位角和路径跟踪误差:χc=arctan(yt‑yc,xt‑xc);式中:χc表示曲线规划路径下目标无人艇的方位角;表示曲线规划路径下目标无人艇的路径跟踪误差;pc=(xc,yc)表示曲线规划路径的圆心坐标;Rc表示路径半径;表示pc到p的向量。5.如权利要求3所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征在于:步骤S3中,通过矢量场算法根据目标无人艇的规划路径结合实时位姿信息计算参考航向角。6.如权利要求5所述的基于深度强化学习的水面无人艇路径跟踪方法,其特征