预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114170286A(43)申请公布日2022.03.11(21)申请号202111297537.5G06N3/04(2006.01)(22)申请日2021.11.04G06N3/08(2006.01)(71)申请人西安理工大学地址710048陕西省西安市碑林区金花南路5号(72)发明人宋霄罡胡浩越梁莉黑新宏(74)专利代理机构西安弘理专利事务所61214代理人徐瑶(51)Int.Cl.G06T7/50(2017.01)G06V10/80(2022.01)G06V10/82(2022.01)G06V10/44(2022.01)G06V10/42(2022.01)G06K9/62(2022.01)权利要求书3页说明书8页附图4页(54)发明名称一种基于无监督深度学习的单目深度估计方法(57)摘要本发明公开了一种基于无监督深度学习的单目深度估计方法,首先构建基于无监督深度学习的深度估计以及位姿估计网络框架;然后将建立的神经网络进行训练;最后将训练好的网络进行测试;本发明的一种基于无监督深度学习的单目深度估计方法在保证良好精度的基础上,解决监督学习在实际应用中的局限性。CN114170286ACN114170286A权利要求书1/3页1.一种基于无监督深度学习的单目深度估计方法,其特征在于,具体按以下步骤实施:步骤1,构建基于无监督深度学习的深度估计以及位姿估计网络框架;步骤2,将经步骤1建立的神经网络进行训练;步骤3,将经步骤2训练好的网络进行测试。2.根据权利要求1所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述步骤1中构建过程为特征编码模块与特征解码模块,具体按以下步骤实施:步骤1.1,构建深度估计网络的编解码结构;步骤1.2,构建位姿估计网络的编解码结构。3.根据权利要求2所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述步骤1.1中深度估计网络的编解码结构构建具体按以下步骤实施:步骤1.1.1,图片输入,进行一次普通的7*7卷积操作,并将图片通道数调整为64通道,进行批量归一化与Relu激活;步骤1.1.2,将步骤1.1.1中所得特征图FM1进行最大池化操作后传入残差块中,得到通道数为256的特征图FM2;步骤1.1.3,将步骤1.1.2中所得特征图FM2传入残差块中,得到通道数为512的特征图FM3;步骤1.1.4,将步骤1.1.3中所得特征图FM3传入残差块中,得到通道数为1024的特征图FM4;步骤1.1.5,将步骤1.1.4中所得特征图FM4传入残差块中,得到通道数为2048的特征图FM5;步骤1.1.6,将FM5输入,进行上采样恢复至FM4尺寸称为FM5’,然后将FM4和FM5’进行特征融合后生成的特征图称为FM45,再进行卷积操作后,输出估计的视差图Disparity1,再将FM45作为输入,之后不断重复上述操作,分别生成不同尺度深度图Disparity2、Disparity3以及Disparity4作为深度估计网络的输出。4.根据权利要求3所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述深度估计网络的编解码结构构建过程中残差块构造具体为:输入特征图,经过一个1*1卷积进行降维操作,调整通道个数,进行批量归一化与Relu激活;之后经过蓝图深度卷积模块对输入进行卷积操作,进行批量归一化与Relu激活;再进行一次1*1卷积,调整通道个数;然后经过通道注意力模块学习通道之间的相关性,筛选出针对通道的注意力;将最初的输入特征图与经过通道注意力后的输出进行近路连接后使用Relu激活。5.根据权利要求4所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述蓝图深度卷积模块构造过程为:进行逐点卷积,将特征图在深度方向上进行加权组合,卷积核的尺寸为1*1*M,M为上一层通道数,输出通道数为M*p,p为缩放参数,此处p=0.5;再进行逐点卷积,卷积核尺寸为1*1*M*p,将上层输出特征图在深度方向上再次进行加权组合,输出通道数为M;最后进行逐通道卷积,其中卷积操作使用空洞卷积,卷积核为3*3,四层不同的残差块中分别设置注入空洞为1,1,2,3。6.根据权利要求4所述的一种基于无监督深度学习的单目深度估计方法,其特征在于,所述通道注意力模块构造过程为:2CN114170286A权利要求书2/3页设输入特征图大小为W*H*C,其中W、H、C分别代表特征图的宽、高、通道数;第一步是压缩操作,经过一个全局平均池化,特征图被压缩为1*1*C向量;然后进行激励操作,经过一个全连接层,卷积核尺寸为1*1,有C*R个神经元,其中R为一个缩放参数,输出为1*1*C*R;再经过一个全连接层,输入为1*1*C*R,输出