-
背景
文章介绍了现有的场景生成模型存在的问题,即目标场景的范围受到训练数据集限制的局限性。相比之下,LucidDreamer模型能以更广泛的输入条件生成更为真实、更高分辨率的3D场景。例如,它可以根据仅仅提供的文本提示生成与文本相关的场景,也能在维持输入图像风格的同时生成场景,而不是仅仅复制训练数据集的风格。 -
已有的工作 已有的场景生成模型因为严重依赖特定的训练数据集,所以在风格多样性和适应性上存在限制。现有模型倾向于生成与训练集风格相似的场景,而不是根据输入图像来适应性地生成。
- 提出了一个名为LucidDreamer的模型
-
挑战1:保持输入图像的风格与输入文本的相关性 为了解决这一挑战,LucidDreamer模型能够根据文本提示生成相关场景,并且能够保持输入图像的风格,这是先前的模型所做不到的。
-
挑战2:在移动3D点云时避免形状扭曲与点云与图像的错位 LucidDreamer采用了一种约束点移动的方法,并使用插值算法来保持整体形状,从而缓解了因直接移动点而可能产生的点云形状扭曲和点云与图像不匹配的问题。
-
LucidDreamer模型不需要特定的训练数据集进行模型训练,它是针对每个输入优化的。文本输入是随机生成的文本提示,用于使用Stable Diffusion生成第一张图像。针对RGB输入,它使用真实或生成的高质量图像。在使用RGBD输入的情形下,使用ScanNet和NYUdepth数据集,因为这两个数据集提供了真实的深度图。
在实验中,这项工作展示了LucidDreamer在多个方面的优越性和高度可泛化性,推荐读者查看补充材料中的视频以完整体会模型的强大之处。LucidDreamer能够考虑输入样式生成一致和高质量的3D场景,且支持多种输入类型。无论是通过文本或RGB图像生成,或是通过多种条件组合和变化,LucidDreamer都能更轻松地创造所需的3D场景。
与RGBD2模型相比,LucidDreamer在质量上具有优势。论文中使用了不同领域的三张图像进行评估:使用Stable Diffusion生成的图像、ScanNet以及NYUdepth。评估结果表明,LucidDreamer模型在生成场景方面比RGBD2展现出更好的逼真度。
LucidDreamer是一个能够用于生成逼真而且分辨率更高的3D场景的模型。它优于现有的场景生成模型,因为它不依赖特定的训练数据集,并能够适应多种输入样式。LucidDreamer通过约束点云的移动和使用插值算法,克服了形状扭曲和点云与图像错位的问题,从而在操纵3D空间中的点云时保持了场景的真实感和一致性。在实验中明显展示了其优越性和高泛化能力。