预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110083165A(43)申请公布日2019.08.02(21)申请号201910425677.2(22)申请日2019.05.21(71)申请人大连大学地址116622辽宁省大连市经济技术开发区学府大街10号(72)发明人邹启杰刘世慧张跃侯英鹂熊康(74)专利代理机构大连智高专利事务所(特殊普通合伙)21235代理人毕进(51)Int.Cl.G05D1/02(2006.01)权利要求书2页说明书4页附图3页(54)发明名称一种机器人在复杂狭窄环境下路径规划方法(57)摘要本发明公开了一种机器人在复杂狭窄环境下路径规划方法,将RRT-Connect算法和强化学习算法相结合,保留了随机树的一定随机性,并根据障碍物密度程度选择合适的步长,既可以实现机器人在障碍物密集环境快速随机探索,在障碍物稀疏环境快速通过,并增加了随机树分布的导向性,提高收敛速度,又具能够在与环境的交互过程中提升规划性能,使规划出的路径接近最优路径,避免陷入局部最小值;本发明改进算法与原始标准算法相比,规划出来的路径更优,耗费时间更少。CN110083165ACN110083165A权利要求书1/2页1.一种机器人在复杂狭窄环境下路径规划方法,其特征在于,具体包括如下步骤:步骤一:初始化地图信息;步骤二:创建双树;步骤三:基于SARSA算法随机采样节点xrand;步骤四:搜索最近邻节点xnear;步骤五:搜索扩展新节点xnew;步骤六,扩展双树;步骤七,反向搜索规划最终路径。2.根据权利要求1所述一种机器人在复杂狭窄环境下路径规划方法,其特征在于,在步骤一中,初始化地图信息,导入环境地图,包括环境边界和大小不一的障碍物信息,定义二维平面上X∈R2为配置节点空间,X的元素称为配置节点;同时二维空间中分布着有限静态2障碍物区域集合则无障碍物区域为Xfree:=X-Xobs,R为二维空间。3.根据权利要求1所述一种机器人在复杂狭窄环境下路径规划方法,其特征在于,在步骤二中,初始化双树T1和T2,根据机器人的相对起始点,配置节点xinit(xs,ys)及偏角θs,即起始点的位姿信息Xinit(xs,ys,θs),再配置相对目标节点xgoal(xg,yg)及偏角θg,即目标点的位姿信息Xgoal(xg,yg,θg),以及根据障碍物密集情况的不同选择不同的步长ρ1、ρ2。4.根据权利要求3所述一种机器人在复杂狭窄环境下路径规划方法,其特征在于,在步骤三中,同时以初始点Xinit(xs,ys,θs)和目标点Xgoal(xg,yg,θg)为起点分别扩展随机树T1和T2,采用强化学习SARSA算法学习避障策略在无障碍区域内生成随机采样点xrand,,设R:∑free→R≥0为回报函数,将每个无碰撞轨迹映射到非负回报;随机节点xrand是根据扩展函数选择随机树的新节点,节点回报函数R(x)通过计算每个节点到目标和障碍物的回报值来影响随机节点的选取,根据障碍物的出现与否设置两种不同的权值,当出现障碍物则躲避障碍物动作函数优先级最高,其次是目标动作函数,再考虑导向目标,选择的原则是使受到正的奖惩的概率增大;R(x)公式表示为:其中,为避障动作回报值,目标动作回报值,k是动作回报函数的权值,取值范围0到1,k越接近1则表示越重视躲避障碍物情况,k越接近0则表示越重视目标回报;e设xt表示节点当前位置,当xt<d1时,表示会发生碰撞,会获得rt=-1,R=-2k-(1-k)=-k-1的回报值;当d1<xt<d2时,表示需要先躲避障碍物,执行避障动作,如果离目e标越来越近即rt=1,会获得R=2k+(1-k)=k+1的回报值;当d2<xt时,表示节点周围没有障碍物,执行导向目标动作,如果到达目标点时,会获得最大回报值,其他情况会获得的回报值;即5.根据权利要求1所述一种机器人在复杂狭窄环境下路径规划方法,其特征在于,在步2CN110083165A权利要求书2/2页**骤五中,在选择新的点xnew时,首先根据xnear找到随机树上Q值介于Q(s,a)-ΔQ到Q(s,a)的节点,然后通过计算从节点中选择符合机器人角度约束条件|θ(x)|≤θmax以及满足避障条件的节点,最后根据障碍物密集情况的可变步长ρ1、ρ2,选择最近邻节点xnear的点即xnew,其中Q*(s,a)为最佳Q值,ΔQ为Q值变化范围;扩展新的点xnew是根据E(x)扩展函数,E(x)包含R(x)节点回报函数,L(x)目标距离函数以及角度约束条件θ,表示为如下:E(x)=R(x)+L(x)+θ(3)L(x)目标距离函数通过计算随机扩展点与当前目标节点的距离来影响新节点的选取,L(x)公式表示为:其中,ρ为随机树生长的可变步长,xrand和xnear分别