预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115908521A(43)申请公布日2023.04.04(21)申请号202211174892.8G06N3/0464(2023.01)(22)申请日2022.09.26G06N3/08(2023.01)(71)申请人南京逸智网络空间技术创新研究院有限公司地址210012江苏省南京市雨花台区大周路34号科创城B3栋第8层及第7层702、703室(72)发明人唐晨啸方效林杨明吴文甲罗军舟(74)专利代理机构南京经纬专利商标代理有限公司32200专利代理师陆烨(51)Int.Cl.G06T7/50(2017.01)G06N3/0455(2023.01)权利要求书2页说明书7页附图3页(54)发明名称一种基于深度区间估计的无监督单目深度估计方法(57)摘要本发明公开了一种基于深度区间估计的无监督单目深度估计方法,具体为:采用深度估计模型对视频帧进行如下处理:1:提取当前帧的特征图像F;2:对F的空间张量进行空间重构,得到向量xp;3:根据xp得到编码序列;4:将编码序列馈入Transform模块,得到深度区间分布b和和范围注意力图P;5:根据P和b计算得到当前帧的深度估计值。本发明可以在各个场景下提高深度估计的质量和准确度。CN115908521ACN115908521A权利要求书1/2页1.一种基于深度区间估计的无监督单目深度估计方法,其特征在于,该方法为:构建深度估计模型,并对深度估计模型进行训练,训练好的深度估计模型对视频帧序列进行如下处理:步骤1:将视频帧序列中的第t帧图像帧作为当前帧It,卷积神经网络提取当前帧的特征图像F;F的长度为H,宽度为W,通道数为C;步骤2:将F输入至Transform模块中,Embedding卷积层输出与F对应的空间张量,然后对该空间张量进行空间重构,得到一维向量xp;步骤3:随机产生一个与一维向量xp等长的向量,并将xp与该随机产生的向量相加,得到编码序列;步骤4:将编码序列馈入Transform模块中,Transform模块输出深度子区间分布b和范围注意力图P;步骤5:根据范围注意力图P和N维的深度子区间分布b计算得到当前帧的深度估计值2.根据权利要求1所述的一种基于深度区间估计的无监督单目深度估计方法,其特征在于,所述步骤5具体为:根据如下公式计算当前帧中第x个像素的深度估计值其中,P[x]表示范围注意力图P的第x个向量,S(bk)表示深度子区间分布b的统计结果,表达式如下所述:其中,k=1,…,N,bk是N维向量形式的深度子区间b的第k维数值,dmin表示预设的最小深度值,dmax表示预设的最大深度值。3.根据权利要求2所述一种基于深度区间估计的无监督单目深度估计方法,其特征在于,在对深度估计模型进行训练时引用位姿估计网络以及编解码网络;所述位姿估计网络用于估计相邻两帧之间的位姿变化估计矩阵t’表示与当前帧相邻的帧;所述编解码网络用于构建移动物体遮罩模块Mask;具体构建移动物体遮罩模块Mask为:根据如下公式计算光测度误差信息结构体Cost–Volume:其中,Ct'[x,d]表示在随机深度d下当前帧与重建帧之间第x个像素的光度误差;d的取值范围为[dmin,dmax]之间的所有整数深度值;将当前帧与根据每个相邻帧得到的重建帧之间所有像素的光度误差作为集合Ct’(d),将所有的光度误差集合Ct’(d)相加得到光测度误差信息结构体Cost–Volume;上述公式中pet'[x,d]的表达式如下所示:2CN115908521A权利要求书2/2页其中,SSIM(.)表示图像结构相似性计算函数,||·||1表示图像像素的L1距离,表示当前帧的重建帧中第x个像素,It[x]表示当前帧中的第x个像素,表示当前帧的重建帧,的表达式为:其中,It’表示与当前帧相邻的帧,K为相机内参,的函数表达式为:将Cost–Volume以及当前帧输入至编解码网络中,得到移动物体遮罩模块Mask。4.根据权利要求3所述一种基于深度区间估计的无监督单目深度估计方法,其特征在于,在对深度估计模型进行训练时,损失函数L为:其中,Lrec为图像重建损失函数,Lpixel为单元中心密度损失函数,Lbins为双向倒角损失函数,为系数;Lrec的表达式为:Lrec=∑t’pe(It,It’→r)其中It’→t的表达式如下所示:函数pe(.)的表达式如下所示:其中,Ia和Ib分别表示任意两帧图像帧;Lpixel的表达式如下所示:其中,T表示具有有效深度值的像素数目,λ为常数,dx表示当前帧中第x个像素的实际深度值;Lbins的表达式为:LBins=chamfer(X,S(b))+chamfer(S(b),X)*其中,X表示所有d的统计分布值,chamfer(.)表示倒