1)收敛效率:在相同的连续潜空间上进行实验时,大家发现 FAR 相较于 Video DiT 展现出更快的收敛速度以及更优的短视频生成性能。
FAR 与 Video DiT 的收敛对比
2)无需额外的 I2V 微调:FAR 无需针对图像到视频(I2V)任务进行额外微调,即可同时建模视频生成与图像到视频的预测任务,并在两者上均达到 SOTA 水平。
条件 / 非条件视频生成的评测结果
基于条件帧的视频预测的评测结果
3)高效的长视频训练与长上下文建模能力:FAR 支撑高效的长视频训练以及对长上下文建模。在基于 DMLab 的受控环境中进行实验时,大家观察到模型对已观测的 3D 环境具有出色的记忆能力,在后续帧预测任务中首次实现了近乎完美的长期记忆效果。
总结
大家首次系统性地验证了长上下文建模在视频生成中的重要性,并提出了一个基于长短时上下文的帧自回归模型 ——FAR。FAR 不仅在短视频生成任务中,相较于 Video DiT 展现出更快的收敛速度与更优性能,同时也在长视频的 world modeling 场景中,首次实现了显著的长时序一致性。此外,FAR 有效降低了长视频生成的训练成本。在当前文本数据趋于枯竭的背景下,FAR 为高效利用现有海量长视频数据进行生成式建模,提供了一条具有潜力的全新路径。