预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114119999A(43)申请公布日2022.03.01(21)申请号202111456493.6(22)申请日2021.12.02(71)申请人河北工业大学地址300130天津市红桥区丁字沽光荣道8号河北工业大学东院330#(72)发明人陈鹏郑逐隧(74)专利代理机构天津翰林知识产权代理事务所(普通合伙)12210代理人付长杰(51)Int.Cl.G06V10/46(2022.01)G06V10/26(2022.01)G06V10/82(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书6页附图2页(54)发明名称基于深度学习的迭代6D位姿估计方法及装置(57)摘要本发明为基于深度学习的迭代6D位姿估计方法及装置,该方法对3D‑2D关键点对应关系提取网络的输出进行编码处理,将3D‑2D关键点对应关系提取网络的输出编码为位姿粗估计网络的输入格式;然后输入到利用MLP、池化层、全连接层搭建的位姿粗估计网络中,从而结合为一个整体网络,能直接输出物体6D姿态,形成了端到端的6D物体位姿估计网络,6D物体位姿估计网络的损失函数为能够直接反映解算物体6D位姿参数的函数;利用正交迭代算法用于对6D物体位姿估计网络输出的6D姿态参数进行优化。本发明解决了当存在许多异常值时基于PnP算法计算目标姿态耗时长、可重复性差的问题,提高了位姿估计的效率及位姿估计的鲁棒性和准确性。CN114119999ACN114119999A权利要求书1/2页1.一种基于深度学习的迭代6D位姿估计方法,其特征在于,该方法包括3D‑2D关键点对应关系提取网络、位姿粗估计网络和正交迭代算法,对3D‑2D关键点对应关系提取网络的输出进行编码处理,将3D‑2D关键点对应关系提取网络的输出编码为位姿粗估计网络的输入格式;然后输入到利用MLP、池化层、全连接层搭建的位姿粗估计网络中,从而结合为一个整体网络,能直接输出物体6D姿态,形成了端到端的6D物体位姿估计网络,6D物体位姿估计网络的损失函数为能够直接反映解算物体6D位姿参数的函数;利用正交迭代算法用于对6D物体位姿估计网络输出的6D姿态参数进行优化。2.根据权利要求1所述的基于深度学习的迭代6D位姿估计方法,其特征在于,6D物体位姿估计网络的损失函数loss为:其中,loss3D‑2D为3D‑2D关键点对应关系提取网络的损失函数,R表示目标真实旋转矩阵,t表示目标真实平移向量,和分别表示位姿粗估计网络预测的旋转矩阵和平移向量,n为目标关键点的数量,pi为3D关键点坐标。3.根据权利要求1所述的基于深度学习的迭代6D位姿估计方法,其特征在于,所述位姿粗估计网络由三层MLP以及一层最大池化层、三层全连接层组成,三层MLP的参数分别设置为(4,128,1),(128,128,1),(128,128,1)。4.根据权利要求1所述的基于深度学习的迭代6D位姿估计方法,其特征在于,所述编码处理的过程是:3D‑2D关键点对应关系提取网络输出的语义分割以及单位向量的格式分别为[H,W]和[H,W,16],H,W代表输入网络的图像的宽和高;读取语义分割结果,选取语义分割中的E个前景点,同时记录前景点在图像中的坐标,从而将前景点格式改为[E,2];然后根据前景点寻找对应的单位向量,格式为[E,16],将得到的单位向量格式拆分为[E×8,2];为将前景点及对应的单位向量结合为整体输入到位姿粗估计网络,将前景点格式通过复制改为[E×8,2],从而前景点及对应单位向量结合的整体格式为[E×8,4],即位姿粗估计网络的输入格式。5.根据权利要求4所述的基于深度学习的迭代6D位姿估计方法,其特征在于,所述前景点个数E=80~200,优选E=100,目标关键点数n取值为8,使用MLP从3D‑2D关键点对应关系信息中提取得到128维的局部特征,通过使用三层全连接层,获得物体的6D位姿估计参数,即预测的旋转四元数和预测的平移向量通过预测的旋转四元数获得预测的旋转矩阵三层全连接层参数设置为(1024,512),(512,256),(256,7)。6.根据权利要求1所述的基于深度学习的迭代6D位姿估计方法,其特征在于,6D姿态参数进行优化的过程是:根据透视投影模型,物体3D关键点的世界坐标及其在归一化图像平面的投影坐标存在线性关系,正交迭代算法基于最小化物体空间共线性误差而设计,其中物体空间共线性误差E(R,t)定义为:式中,pi为3D关键点坐标,n为目标关键点的数量,I为单位矩阵,视线投影矩阵定义2CN114119999A权利要求书2/2页为:式中,为pi归一化到图像平面的坐标,若已知旋转矩阵R,则求得平移向量t为:正交迭代算法