预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113664828A(43)申请公布日2021.11.19(21)申请号202110941149.X(22)申请日2021.08.17(71)申请人东南大学地址210096江苏省南京市玄武区四牌楼2号(72)发明人李俊房子韩冯超(74)专利代理机构南京众联专利代理有限公司32206代理人许小莉(51)Int.Cl.B25J9/16(2006.01)B25J15/08(2006.01)权利要求书3页说明书8页附图3页(54)发明名称一种基于深度强化学习的机器人抓取-抛掷方法(57)摘要本发明公开一种基于深度强化学习的机器人抓取‑抛掷方法。首先利用抓取端相机获取抓取工作空间场景的图像信息,并转换为深度俯视图和彩色俯视图,接着输入到深度Q网络中,输出抓取示力图筛选得到抓取位置;然后机器人在目标抓取位置处执行抓取动作,并根据手爪闭合情况来判断物体抓取是否成功;若抓取成功则根据抓取位置提取目标物体的局部深度和彩色图像输入至抛掷网络,根据该物体对应的落点目标框,得到物体所需的抛出速度;机器人以该速度执行抛掷动作,根据物体实际落点位置,判定被抛掷体是否落入目标框的内部,以此作为抛掷动作的奖励。循环训练以上步骤得到抓取‑抛掷网络模型。本发明能够在非结构化环境下执行抓取‑抛掷任务。CN113664828ACN113664828A权利要求书1/3页1.一种基于深度强化学习的机器人抓取‑抛掷方法,其特征在于,该方法包括如下步骤:步骤S1:首先利用抓取端相机获取抓取工作空间场景的图像信息,并按照相机外参矩阵把相机采集的图像信息转换为深度俯视图和彩色俯视图;步骤S2:将深度俯视图和彩色俯视图输入到抓取深度Q网络中,输出抓取示力图,并选取抓取示力图的最大值点作为抓取位置;步骤S3:机器人在步骤S2目标抓取位置处执行抓取动作,并根据机器人的手爪是否闭合来判断物体抓取是否成功;步骤S4:若抓取成功,则根据S2中选取的抓取位置提取目标物体深度俯视图和彩色俯视图输入至抛掷网络中,该网络输出所有目标框的抛出速度,给定任一目标框的索引得到机器人抛掷物体到该目标框的对应的抛出速度;步骤S5:机器人按照步骤S4中的抛出速度执行抛掷动作;步骤S6:根据抛掷端的相机判定被抛掷的物体是否落入目标框,如果落入目标框,设置抓取动作奖励为1,反之为0;步骤S7:以上步骤S1‑S3为DQN算法训练步骤,步骤S4‑S6为DDPG算法训练步骤,利用DQN和DDPG算法循环训练步骤S1‑S6得到抓取和抛掷模型。2.根据权利要求1所述的一种基于深度强化学习的机器人抓取‑抛掷方法,其特征在于,步骤S1具体包括如下步骤:步骤1‑1:通过手眼标定获取相机的内外参矩阵;步骤1‑2:获取相机传输的工作场景内部的RGB‑D数据,在采集图像时应将深度图像对齐到彩色图像上,进行图像配准;步骤1‑3:先利用相机内外参矩阵将深度图像转换为3D点云图像,通过透视变换将深度图像和彩色图像转换为深度俯视图和彩色俯视图。3.根据权利要求1所述的一种基于深度强化学习的机器人抓取‑抛掷方法,其特征在于,步骤S2具体包括如下步骤:步骤2‑1:搭建基于深度残差网络ResNet101和全卷积神经网络的抓取深度Q网络;步骤2‑2:将深度俯视图和彩色俯视图输入至深度Q网络当中,获取与输入图像尺度相同的输出,形成抓取示力图,图中像素值越大的点表示抓取该点对应的期望抓取成功率越高;步骤2‑3:选择抓取示力图中值最大的点的坐标作为抓取位置;步骤2‑4:机器人每次通过抓取网络抓取成功时,则设置抓取动作的奖励为1,否则设置抓取动作的奖励为0,以此作为抓取网络标签来评判抓取成功率。4.根据权利要求1所述的一种基于深度强化学习的机器人抓取‑抛掷方法,其特征在于,步骤S3具体包括如下步骤:步骤3‑1:机器人携带手爪移动至指定步骤2选取的抓取位置上,并张开手爪准备抓取;步骤3‑2:机器人携带手爪向下移动至深度俯视图上抓取坐标所对应的深度位置,闭合手爪,执行抓取动作;步骤3‑3:闭合手爪后,若手爪能完全闭合,则说明手爪内部没有物体,则抓取动作失败,此时判断抓取执行前后场景中的视觉信息是否发生改变,若改变则表明抓取动作触碰2CN113664828A权利要求书2/3页到了物体,给予抓取智能体一个值为0.5的回报;否则表示抓取动作完全抓空,给予抓取智能体一个值为0的回报;如果手爪没有完全闭合,则表明抓到了物体,给予抓取智能体一个值为1的回报。5.根据权利要求1所述的一种基于深度强化学习的机器人抓取‑抛掷方法,其特征在于,步骤S4具体包括如下步骤:步骤4‑1:搭建基于深度残差网络ResNet50、动作网络和价值网络的抛掷网络;步骤4‑2:根据步骤2的抓取位置,从步骤1中的场景图像提出