高清视频竟不是线D场景让你难辨真伪
添加时间:2024-12-22 04:22:15
研究团队立下目标★★★:对多张照片拍摄的场景进行实时渲染,并在典型真实场景中实现时间最优化★。此前★,Fridovich-Kei 等人提出的方法虽然实现了快速训练★★★,但难以达到当前 SOTA NeRF 方法所获得的视觉质量,而后者需要长达 48 小时的训练时间。还有研究提出快速但质量较低的辐射场方法,可以根据场景实现交互式渲染(每秒 10-15 帧),但这种方法无法实现高分辨率下的实时渲染。
网格和点是最常见的三维场景表示法,因为它们是显式的★,非常适合基于 GPU/CUDA 的快速光栅化。相比之下,最新的神经辐射场(NeRF)方法建立在连续场景表征的基础上,通常使用体积光线渲染优化多层感知器(MLP),对捕捉到的场景进行新视角合成。虽然这些方法的连续性有助于优化,但渲染所需的随机取样成本很高★★★,而且会产生噪声。
第一,引入 3D 高斯作为一种灵活而富有表现力的场景表征★★★。输入与 NeRF 方法类似★★,即使用结构 - 运动(SfM)校准像机,并且使用稀疏点云初始化 3D 高斯集合★★,点云来自 SfM 过程。此外★,该研究只用 SfM 点作为输入就能获得高质量的结果。需要注意的是,对于 NeRF 合成数据集,即使采用随机初始化,本文方法也能获得高质量的结果。研究表明,3D 高斯是一个很好的选择。
场景自上而下依次为来自 Mip-NeRF360 数据集的自行车★★、花园★、柜台和房间★★;来自深度混合数据集的游戏室(更多对比请阅读原文)★★★。图中把不同方法产生的显著差异已经标出,如自行车的辐条、花园远处的房屋玻璃★★★、铁篮子的杆子以及玩具小熊★。
研究团队采用 Mip-NeRF360 建议的方法,将数据集分为训练 / 测试两部分,每隔 8 张照片进行测试,以便进行一致且有意义的比较,从而生成误差指标,并使用文献中最常用的标准 PSNR、L-PIPS 和 SSIM 指标,详细数据见表 1。
请注意,上述动图完全是由多张照片渲染出来的 3D 场景★★。人类很难发现它们的破绽★★★。
除此之外★★,在图 6 中我们可以看到,即使迭代 7K 次(∼ 5 分钟),本文方法也能很好地捕捉列车的细节。在迭代 30K 次(∼35 分钟)时★,背景伪影明显减少。对于花园场景,差异几乎不明显★★,7K 次迭代(∼8 分钟)已经是非常高的质量了。