Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 1.92 KB

2312.03793.md

File metadata and controls

20 lines (15 loc) · 1.92 KB

背景

  • 背景
    文章指出了大型文本到视频(T2V)扩散模型近年来在视觉质量、运动和时间连贯性上取得了长足进步。然而,这些模型的生成过程仍然是一个黑箱,缺乏对除粗略文本描述之外的其他属性(例如外观、运动)的精确控制能力。

  • 已有的工作 已有工作无法解决控制问题,因为大多数视频扩散模型(VDMs)在外观和时间方面是联合训练的,使得这两个方面难以分别控制。此外,现有的T2V模型和图像到视频(I2V)模型可能存在域偏差,例如T2I 产生的是动漫图像,而I2V模型只在现实世界的剪辑上进行训练。

核心贡献

  • 提出了一个名为AnimateZero的方法
    • 挑战1:控制外观和运动 已有的T2V模型难以分开控制外观和运动。AnimateZero通过引入空间外观控制和时间上的连贯性控制,允许用户精确控制视频的外观和运动,实现了从T2I到I2V的逐步视频生成。

    • 挑战2:域一致性 为了保证生成视频的域一致性,AnimateZero修改了空间模块,将生成的图像插入到生成视频的第一帧,同时修改了运动模块,保证其他帧与第一帧对齐。这样的方法不仅克服了域偏差的问题,还证明了预训练的VDMs具有成为零样本图像动画生成器的潜力。

实现与部署

AnimateZero的实验结果表明,其在不同的个性化数据域中都表现出色。在视频生成方面,AnimateZero在文本与T2I域相似度方面超过了AnimateDiff。其在与当前的I2V方法相比多个指标上表现优秀,并且在其他指标上与最佳方法不相上下。

总结

AnimateZero为T2V生成提供解耦和精确的外观和动作控制,通过空间外观控制和时间一致性控制,实现了从T2I到I2V的步骤式视频生成,同时维护良好的域一致性。