马克斯普朗克信息学研究所和大学的研究人员开发了StyleNeRF,这是一种在非结构化2D 图像上训练的 3D 感知生成模型,可合成具有高水平多视图一致性的高分辨率图像。
现有的方法要么难以合成具有精细细节的高分辨率图像,要么产生 3D 不一致的伪影,StyleNeRF 将其神经辐射场 (NeRF) 集成到基于样式的生成器中。通过采用这种方法,StyleNeRF 提供了更高的渲染效率和更好的 3D 生成一致性。
StyleNeRF(第五栏)与四个竞争生成模型之间的比较,包括 HoloGAN、GRAF、pi-GAN 和 GIRAFFE。每个图像都是用四个不同的视点生成的。如您所见,StyleNeRF 与其他替代方案相比,在这里表现异常出色。点击放大。
StyleNeRF 使用体积渲染来生成低分辨率特征图,并逐步应用 2D 上采样来提高质量并生成具有精细细节的高分辨率图像。作为全文的一部分,该团队概述了更好的上采样器(第 3.2 和 3.3 节)和新的正则化损失(第 3.3 节)。
在下面的实时演示视频中,您可以看到 StyleNeRF 运行速度非常快,并提供了一系列令人印象深刻的工具。例如,您可以调整一对图像的混合比例以生成新的混合,并调整生成的图像的俯仰角、偏航角和视野。
与其他 3D 生成模型相比,StyleNeRF 的团队认为其模型在直接相机控制下生成图像时效果最佳。虽然 GIRAFFE 以更好的质量合成,但它也呈现出 3D 不一致的伪影,这是 StyleNeRF 承诺克服的一个问题。该研究指出,“与基线相比,StyleNeRF 实现了最佳的视觉质量,并具有跨视图的高度 3D 一致性。”
通过使用Frechet 初始距离(FID) 和内核初始距离(KID)测量图像生成的视觉质量,StyleNeRF 在三个集合中表现良好。