预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114666564A(43)申请公布日2022.06.24(21)申请号202210288938.2H04N13/15(2018.01)(22)申请日2022.03.23H04N13/106(2018.01)G06N3/04(2006.01)(71)申请人南京邮电大学G06N3/08(2006.01)地址210003江苏省南京市鼓楼区新模范马路66号(72)发明人霍智勇郭权(74)专利代理机构南京正联知识产权代理有限公司32243专利代理师张玉红(51)Int.Cl.H04N13/221(2018.01)H04N13/293(2018.01)H04N13/282(2018.01)H04N13/111(2018.01)H04N13/156(2018.01)权利要求书2页说明书6页附图2页(54)发明名称一种基于隐式神经场景表示进行虚拟视点图像合成的方法(57)摘要本发明公开了一种在多视图立体跨视图损失的基础上利用隐式神经场景表示进行虚拟视点图像合成的方法,适用于计算机视觉领域。本方法包括:获取需产生虚拟视点的图像数据集;对训练图像数据集进行预处理,在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点提取和匹配;将获得的训练图像数据和所提取特征点信息经处理后输入多层感知器网络中进行训练;将测试图像数据输入训练好的多层感知器网络,后通过体渲染得到测试的渲染图像;基于训练好的多层感知器网络生成虚拟视点图像。由此通过减少神经网络在训练拟合场景表示时的数据量,及结合图像深度信息进行集中采样,能提高神经场景表示的运算速度与性能,生成高质量虚拟视点图像。CN114666564ACN114666564A权利要求书1/2页1.一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,包括如下步骤:步骤1:获取需要产生虚拟视点的训练图像数据集和测试图像数据集;步骤2:利用colmap工具将步骤1中得到的训练图像数据集进行预处理,在预处理阶段基于特征匹配算法Sift对输入的训练图像数据集进行特征点的提取和匹配;步骤3:将步骤1获得的训练图像数据和步骤2所提取的特征点信息经过处理后输入多层感知器网络中进行训练,并通过体渲染计算训练图像数据的渲染颜色值;步骤4:将测试图像数据输入训练好的多层感知器网络,得到网络的输出值后,通过体渲染得到测试的渲染图像;步骤5:基于训练好的多层感知器网络生成虚拟视点的图像。2.根据权利要求1所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,步骤1所述训练图像数据集为摄像机拍摄的大型场景数据集或只拥有单一对象的场景。3.根据权利要求1所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,步骤2中所述预处理操作是指通过Colmap工具从输入的训练图像数据集中计算每张图像对应的摄像机的内外参数以及场景的最大、最小边界;同时Colmap工具将计算场景的稀疏点云,基于特征匹配算法Sift提取图像之间的特征点,该特征点对应于稀疏点云中的点。4.根据权利要求3所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,所述步骤2还包括利用MiDas深度估计算法估计每张训练图像对应的深度值。5.根据权利要求4所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,步骤3中所述对已获取的训练图像数据和提取的特征点信息的具体处理过程如下:步骤3‑1:计算从摄像机位置向二维成像平面投射到三维空间的射线;步骤3‑2:结合步骤2所获取的深度估计值在步骤3‑1所获取的射线上进行集中采样来获取多层感知器网络的输入值;步骤3‑3:对已获取的多层感知器网络的输入值进行位置编码,然后将编码后的采样点和深度值连接后送入多层感知器中进行学习;同时射线的方向向量d也需进行位置编码。6.根据权利要求1‑5任一项所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,步骤3中所述多层感知器包括两部分的全连接层,每部分包含四层全连接层,每个连接层包括256个通道和一个ReLU激活函数;当数据送入多层感知器经过四层的全连接层后,然后将得到的256维张量连同编码完的数据送入剩余的四层全连接层,最终多层感知器的输出值与编码完的方向向量连接,最后输出一维的体积密度σ;所述多层感知器的输出值和编码后的射线方向向量γ(d)连接后经过128通道的全连接层,输出颜色值c。7.根据权利要求6所述的一种基于隐式神经场景表示进行虚拟视点图像合成的方法,其特征在于,所述体渲染的公式如下:2CN114666564A权利要求书2/2页其中其中c表示每个采样点的颜色值,σ表示每个采样点的体积密度值,tn和tf分别表示射线上采样的最近点和最远点