基于隐式场的十亿像素场景人群三维重建方法和装置-豆柴文库

基于隐式场的十亿像素场景人群三维重建方法和装置.pdf

2024-01-06

10金币

409KB

10页

是你****盟主

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112907736A(43)申请公布日2021.06.04(21)申请号202110265313.X(22)申请日2021.03.11(71)申请人清华大学地址100084北京市海淀区清华园(72)发明人刘烨斌邵睿智于涛戴琼海(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人韩海花(51)Int.Cl.G06T17/00(2006.01)G06K9/00(2006.01)G06K9/34(2006.01)G06K9/46(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书6页附图2页(54)发明名称基于隐式场的十亿像素场景人群三维重建方法和装置(57)摘要本发明提出一种基于隐式场的十亿像素场景人群三维重建方法和装置，其中，方法包括：获取十亿像素场景图像；检测出十亿像素场景中的人和并将其分割出来；对于分割出的场景图片，使用深度神经网络进行特征提取，并估计出人的形状和姿态；使用高精度扫描的人体模型渲染出观察人体不同视角的图片作为训练数据；训练遮挡情况下的人体重建；使用基于可见性的重要性采样，对三维人体可见部分加强采样点密度并提高权重，加强模型的细节。使用卷积神经网络提取训练图片的特征，并使用注意力机制关联三维人体先验与隐式场模型，在遮挡情况下完成对人体的高精度重建。将十亿像素场景中得到的三维人体与隐式场模型结合，生成高分辨率的人群三维重建模型。CN112907736ACN112907736A权利要求书1/1页1.一种基于隐式场的十亿像素场景人群三维重建方法，其特征在于，包括以下步骤：利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像；分割所述场景图像中的人体区域；获取所述人体区域的形状和姿态参数；根据预设的卷积神经网络提取所述人体区域的几何特征；根据所述形状和姿态参数、所述几何特征构建所述场景图像对应的人群三维模型。2.如权利要求1所述的方法，其特征在于，所述分割所述场景图像中的人体区域，包括：利用人体检测和分割模型检测出所述场景图像中的人体区域。3.如权利要求1所述的方法，其特征在于，所述长焦局部相机的长焦焦距为135mm，所述短焦全局相机的短焦为25mm。4.如权利要求1所述的方法，其特征在于，所述获取所述人体区域的形状和姿态参数，包括：根据迭代求解算法获取所述人体区域的形状和姿态参数。5.一种基于隐式场的十亿像素场景人群三维重建装置，其特征在于，包括：第一获取模块，用于利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像；分割模块，用于分割所述场景图像中的人体区域；第二获取模块，用于获取所述人体区域的形状和姿态参数；提取模块，用于根据预设的卷积神经网络提取所述人体区域的几何特征；模型构建模块，用于根据所述形状和姿态参数、所述几何特征构建所述场景图像对应的人群三维模型。6.如权利要求5所述的装置，其特征在于，所述分割模块，用于：利用人体检测和分割模型检测出所述场景图像中的人体区域。7.如权利要求5所述的装置，其特征在于，所述长焦局部相机的长焦焦距为135mm，所述短焦全局相机的短焦为25mm。8.如权利要求5所述的装置，其特征在于，所述第二获取模块，具体用于：根据迭代求解算法获取所述人体区域的形状和姿态参数。9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1‑4中任一所述的方法。10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1‑4中任一所述的方法。2CN112907736A说明书1/6页基于隐式场的十亿像素场景人群三维重建方法和装置技术领域[0001]本发明涉及计算机视觉中的三维重建技术领域，尤其涉及一种基于隐式场的十亿像素场景人群三维重建方法和装置。背景技术[0002]近年来随着计算机视觉技术的发展与计算硬件性能的提高，计算机视觉中三维重建领域发展迅速，其中人体三维重建是一个研究热点。高精度准确的人体三维重建在智能通讯、安防监控、娱乐服务等领域有着重大应用价值。[0003]随着隐式场的提出与深度学习的发展，单RGB图片人体三维重建技术已取得了重大进步。然而隐式场方法的精确性受到分辨率的限制，对于多人、密集人群场景等也难以应用，在不同光照环境下也难以得到稳定的重建结果，存在很多局限性。发明内容[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。[0005]为此，本发明的第一个目的在于提出一种基于隐式场的十亿像素场景人群三维重建方法，以实现系统采用长焦和短焦相

相关资料

基于隐式场的十亿像素场景人群三维重建方法和装置.pdf

本发明提出一种基于隐式场的十亿像素场景人群三维重建方法和装置，其中，方法包括：获取十亿像素场景图像；检测出十亿像素场景中的人和并将其分割出来；对于分割出的场景图片，使用深度神经网络进行特征提取，并估计出人的形状和姿态；使用高精度扫描的人体模型渲染出观察人体不同视角的图片作为训练数据；训练遮挡情况下的人体重建；使用基于可见性的重要性采样，对三维人体可见部分加强采样点密度并提高权重，加强模型的细节。使用卷积神经网络提取训练图片的特征，并使用注意力机制关联三维人体先验与隐式场模型，在遮挡情况下完成对人体的高精度

2024-01-06

409KB

一种大场景稀疏光场十亿像素级智能重建方法及装置.pdf

本发明公开了一种大场景稀疏光场十亿像素级智能重建方法及装置，该方法包括：基于多视角三维重建系统得到粗糙三维几何模型；在粗糙三维几何模型上构建形变元隐式表征；对形变元隐式表征进行优化，以得到大场景光场的自由视点渲染的光场重建结果。本发明在光场理解中采用了基于元形变的隐式表征，在稀疏的视角观测下，充分利用十亿像素级感知分辨率，通过元表面的特征映射与隐式光照建模，优化场景的精细几何结构与材质属性，实现十亿像素级超高分辨率的大场景稀疏光场重建与渲染。

2024-01-04

2.7MB

十亿像素交互式场景直播系统的任务书.docx

十亿像素交互式场景直播系统的任务书一、任务背景随着数字技术的快速发展，人们对高分辨率图像的需求也越来越大。尤其是在视频直播领域，高清、高清晰度显得尤为重要，尤其是在场景直播领域中的实时处理更是如此。传统的场景直播系统无法满足高分辨率、高清晰度的需求，这给观众带来了不舒适的观感，影响了直播的观感效果和用户体验。因此，开发一种千亿像素交互式场景直播系统，以提供更高清晰度的场景展示，成为迫切需要解决的问题。二、任务目标本任务的目标是开发一款千亿像素交互式场景直播系统，以提供更高清晰度的场景展示，并提高观众的体验

2024-10-15

11KB

基于语义场景的隐式篇章关系检测方法.docx

基于语义场景的隐式篇章关系检测方法摘要：隐式篇章关系检测是自然语言处理中一个重要的任务，它在文本理解、信息抽取等领域具有广泛的应用。现有的方法主要基于句法和词汇特征进行建模，忽略了篇章上下文的语义信息。为了解决这个问题，本论文提出了一种基于语义场景的隐式篇章关系检测方法。该方法通过对文本进行语义分析，构建语义场景表示，利用神经网络模型进行篇章关系的预测。实验结果表明，该方法在隐式篇章关系检测任务上取得了优秀的性能，表明语义场景对于隐式篇章关系的建模具有重要的作用。关键词：隐式篇章关系检测；语义场景；神经网

2024-11-12

11KB

十亿像素视频的直播方法、装置、介质及设备.pdf

本文是关于一种十亿像素视频的直播方法、装置、介质及设备，其方法应用于服务端，包括：获取阵列相机拍摄的全部相机视频，其中，每路相机视频包括M个不同分辨率的视频流；将全部相机视频中相同分辨率的视频流进行融合，融合为M层不同分辨率的画布，M≥2；接收到客户端的直播请求后，将M层不同分辨率的画布的相关信息提供给客户端，以使客户端根据选择区域和显示分辨率，在M层不同分辨率的画布中，确定与选择区域和显示分辨率对应的目标分辨率的画布，并拉取与目标分辨率的画布对应的视频流。实现服务端提供固定算力，将计算工作下放到客户端，

2023-07-25

663KB