W.A.L.T Video Diffusion

W.A.L.T Video Diffusion
软件描述
W.A.L.T 是一种基于变换器的扩散模型方法,用于生成逼真的视频。它采用因果编码器将图像和视频压缩到统一的潜在空间,并使用窗口注意力架构实现空间与时空的联合生成建模。
官方网站
访问软件的官方网站了解更多信息
walt-video-diffusion.github.io
安全链接HTTPS
什么是 W.A.L.T Video Diffusion?
W.A.L.T 是一种基于变换器的扩散模型方法,用于生成逼真的视频。它采用因果编码器将图像和视频压缩到统一的潜在空间,并使用窗口注意力架构进行空间和时空联合生成建模。该设计在无需分类器自由引导的情况下,实现了在视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准测试中的最佳性能。我们还采用三模型级联结构实现文本到视频的生成,生成分辨率为512×896、帧率为每秒8帧的视频。