W.A.L.T Video Diffusion

W.A.L.T Video Diffusion
软件描述
W.A.L.T. 是一种基于变压器的扩散建模方法,用于生成逼真的视频。它使用因果编码器将图像和视频压缩到统一的潜在空间,并采用窗口注意力架构实现联合的空间与时空生成建模。
官方网站
访问软件的官方网站了解更多信息
官方认证
walt-video-diffusion.github.io
安全链接HTTPS
什么是 W.A.L.T Video Diffusion?
W.A.L.T. 是一种基于Transformer的扩散建模方法,用于生成逼真的视频。它采用因果编码器将图像和视频压缩到统一的潜在空间,并使用窗口注意力架构实现联合的空间与时空生成建模。该设计无需分类器自由引导,即可在视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准上达到顶尖性能。我们还采用三模型级联结构进行文本到视频生成,可生成分辨率为512×896、帧率为每秒8帧的视频。


