预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112907736A(43)申请公布日2021.06.04(21)申请号202110265313.X(22)申请日2021.03.11(71)申请人清华大学地址100084北京市海淀区清华园(72)发明人刘烨斌邵睿智于涛戴琼海(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人韩海花(51)Int.Cl.G06T17/00(2006.01)G06K9/00(2006.01)G06K9/34(2006.01)G06K9/46(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书6页附图2页(54)发明名称基于隐式场的十亿像素场景人群三维重建方法和装置(57)摘要本发明提出一种基于隐式场的十亿像素场景人群三维重建方法和装置,其中,方法包括:获取十亿像素场景图像;检测出十亿像素场景中的人和并将其分割出来;对于分割出的场景图片,使用深度神经网络进行特征提取,并估计出人的形状和姿态;使用高精度扫描的人体模型渲染出观察人体不同视角的图片作为训练数据;训练遮挡情况下的人体重建;使用基于可见性的重要性采样,对三维人体可见部分加强采样点密度并提高权重,加强模型的细节。使用卷积神经网络提取训练图片的特征,并使用注意力机制关联三维人体先验与隐式场模型,在遮挡情况下完成对人体的高精度重建。将十亿像素场景中得到的三维人体与隐式场模型结合,生成高分辨率的人群三维重建模型。CN112907736ACN112907736A权利要求书1/1页1.一种基于隐式场的十亿像素场景人群三维重建方法,其特征在于,包括以下步骤:利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像;分割所述场景图像中的人体区域;获取所述人体区域的形状和姿态参数;根据预设的卷积神经网络提取所述人体区域的几何特征;根据所述形状和姿态参数、所述几何特征构建所述场景图像对应的人群三维模型。2.如权利要求1所述的方法,其特征在于,所述分割所述场景图像中的人体区域,包括:利用人体检测和分割模型检测出所述场景图像中的人体区域。3.如权利要求1所述的方法,其特征在于,所述长焦局部相机的长焦焦距为135mm,所述短焦全局相机的短焦为25mm。4.如权利要求1所述的方法,其特征在于,所述获取所述人体区域的形状和姿态参数,包括:根据迭代求解算法获取所述人体区域的形状和姿态参数。5.一种基于隐式场的十亿像素场景人群三维重建装置,其特征在于,包括:第一获取模块,用于利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像;分割模块,用于分割所述场景图像中的人体区域;第二获取模块,用于获取所述人体区域的形状和姿态参数;提取模块,用于根据预设的卷积神经网络提取所述人体区域的几何特征;模型构建模块,用于根据所述形状和姿态参数、所述几何特征构建所述场景图像对应的人群三维模型。6.如权利要求5所述的装置,其特征在于,所述分割模块,用于:利用人体检测和分割模型检测出所述场景图像中的人体区域。7.如权利要求5所述的装置,其特征在于,所述长焦局部相机的长焦焦距为135mm,所述短焦全局相机的短焦为25mm。8.如权利要求5所述的装置,其特征在于,所述第二获取模块,具体用于:根据迭代求解算法获取所述人体区域的形状和姿态参数。9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1‑4中任一所述的方法。10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑4中任一所述的方法。2CN112907736A说明书1/6页基于隐式场的十亿像素场景人群三维重建方法和装置技术领域[0001]本发明涉及计算机视觉中的三维重建技术领域,尤其涉及一种基于隐式场的十亿像素场景人群三维重建方法和装置。背景技术[0002]近年来随着计算机视觉技术的发展与计算硬件性能的提高,计算机视觉中三维重建领域发展迅速,其中人体三维重建是一个研究热点。高精度准确的人体三维重建在智能通讯、安防监控、娱乐服务等领域有着重大应用价值。[0003]随着隐式场的提出与深度学习的发展,单RGB图片人体三维重建技术已取得了重大进步。然而隐式场方法的精确性受到分辨率的限制,对于多人、密集人群场景等也难以应用,在不同光照环境下也难以得到稳定的重建结果,存在很多局限性。发明内容[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。[0005]为此,本发明的第一个目的在于提出一种基于隐式场的十亿像素场景人群三维重建方法,以实现系统采用长焦和短焦相