< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

靠网上晒的景点照就能还原3D建模，浙大团队这是要带我们云旅游？｜SIGGRAPH 2022直接用于电影游戏和VR生产线

梦晨 2022-05-27 15:55:34 来源：量子位

可直接用于电影游戏和VR生产线

梦晨发自凹非寺
量子位 | 公众号 QbitAI

以NeRF为代表的神经渲染技术高速发展，学界已经不满足合成几个新视角让照片动起来了。

接下来要挑战的是根据照片直接输出3D模型，可以直接导入到电影、游戏和VR等图形生产线里的那种。

所用照片不是出自高质量数据库，就是直接从网上搜集游客拍摄的各大景点，设备、天气、距离角度等都会不一致。

生成的结果远看结构完整，近看细节丰富，如果你有VR设备也可以在Demo中直接预览3D版。

这项最新突破由浙江大学和康奈尔大学团队合作完成，登上图形学顶会SIGGRAPH 2022。

而在这之前，同类技术生成的3D模型连形状完整都做不到。

看到这里，网友纷纷表示这个领域的进展比人们想象的要快。

“慢点学，等等我”。

那么，这项研究靠什么取得了突破？

融合两种采样方式

具体来说，这项研究的基本框架借鉴了NeurIPS 2021上的NeuS，一种把隐式神经标准和体积渲染结合起来的方法。

但是NeuS使用基于球体的采样（Sphere-based sampling）方法，对于近景、小物体来说还算适合。

用于结构复杂的大型建筑物的话会有大量采样点采在空白区域，增加大量不必要的计算压力。

为解决这个问题，研究人员提出体素引导（Voxel-guided）和表面引导（Surface-guided）混合的新采样方法。

体素引导可以避免不必要的浪费，训练时所需射线（Traning ray）可以减少30%。

再结合表面引导增加真实曲面周围的采样密度，帮助神经网络更好拟合，避免丢失细节。

在消融实验中可以看到，仅使用体素引导方法收敛的比基于球体的方法快，但不如混合方法细节丰富。

与之前同类研究对比，新方法生成模型的完整性和细节方面更出色。

训练速度上也有明显优势，特别是在大型场景墨西哥城美术宫（PBA）。

△Ours为完全收敛结果，带小人图标的是训练过程中一个检查点

当然，新方法也不是完全没有缺点。

一个继承自NeRF的局限性是，如果相机位置校准有偏差会影响最终结果。

还有一个难以解决的问题，就是照片拍不到的建筑物背面和内部就无法精确重建了。

One More Thing

最后再补充一点，浙大团队中一些成员，之前还研究了神经3D人体重建。

可应用于为体育比赛提供自由视角的视频重放。

也是666了。

论文地址：
https://arxiv.org/abs/2205.12955

GitHub仓库：
https://zju3dv.github.io/neuralrecon-w/

参考链接：
[1]https://zju3dv.github.io/neuralbody/

3D重建神经渲染

梦晨

亚太唯一！阿里云跻身Gartner可观测魔力象限“挑战者”象限2026-07-24
业内首款超算+智算的大规模计算底座，在WAIC上我们找到了2026-07-22
AI语音进入“表演时代”：阿里Qwen-Audio-3.0-TTS登顶全球权威榜单2026-07-20
这，可能是今年WAIC最惊艳的图片！2026-07-19

靠网上晒的景点照就能还原3D建模，浙大团队这是要带我们云旅游？｜SIGGRAPH 2022直接用于电影游戏和VR生产线

融合两种采样方式

One More Thing

相关阅读

2张图2秒钟3D重建！这款AI工具火爆GitHub，网友：忘掉Sora

一张照片就能生成3D模型，GAN和自动编码器碰撞出奇迹，苏黎世联邦理工学院出品

「过拟合」也能废物利用了：有人用它高清重建3D物体表面，参数减少99%

扩散模型还原被遮挡物体，几张稀疏照片也能"脑补"完整重建交互式3D场景｜CVPR'25

单图解锁全景视角！北大/港中文/腾讯等推出ViewCrafter | 已开源

平板摄像头+算力搞定3D空间实时重建和理解，清华和禾多科技新成果入选CVPR 2022 Oral

热门文章

3万小时触觉数据补齐具身智能“手感”！新智具身&复旦报告三连发

陶哲轩在菲尔兹颁奖现场：数学迎来百年新危机

Kimi K3、Unlimited OCR包揽全球前二，中国开源模型持续刷屏海外

智能体走向终端，个人AI时代正在到来

DeepSeek被曝主动叫停了第二轮融资签约