近日,谷歌与李飞飞的斯坦福团队携手推出了基于Transformer的视频生成模型W.A.L.T。该模型利用因果编码器和窗口注意的变压器架构,成功将图像和视频压缩到一个共享的潜在空间,实现了联合训练和生成。这一创新性的模型不仅在已建立的视频和图像生成基准测试上取得了SOTA,还展示了在文本到视频生成任务中的卓越性能。
这种方法有两个关键的设计决策。首先,它使用因果编码器共同压缩图像和视频,使其在统一的潜在空间内进行训练和生成,支持跨模态操作。其次,为了内存和训练效率,它使用了专为联合空间和时空生成建模量身定制的窗口注意力架构。这些设计决策的结合使得W.A.L.T在已建立的视频(如UCF-101和Kinetics-600)和图像(如ImageNet)生成基准测试中达到了最先进的性能,而且不需要使用无分类器的引导。
W.A.L.T官方演示视频:
W.A.L.T项目地址:https://walt-video-diffusion.github.io/