W.A.L.T Video Diffusion

W.A.L.T Video Diffusion
软件描述
W.A.L.T. 是一种基于变压器的扩散建模方法,用于生成逼真的视频。它使用因果编码器将图像和视频压缩到统一的潜在空间,并采用窗口注意力架构实现联合的空间与时空生成建模。
官方网站
访问软件的官方网站了解更多信息
walt-video-diffusion.github.io
安全链接HTTPS
什么是 W.A.L.T Video Diffusion?
W.A.L.T. 是一种基于Transformer的扩散建模方法,用于生成逼真的视频。它采用因果编码器将图像和视频压缩到统一的潜在空间,并使用窗口注意力架构实现联合的空间与时空生成建模。该设计无需分类器自由引导,即可在视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准上达到顶尖性能。我们还采用三模型级联结构进行文本到视频生成,可生成分辨率为512×896、帧率为每秒8帧的视频。
🔄 替代方案
34 个选择通过 Firefly——这一系列即将登陆 Adobe 产品的创意生成式 AI 模型——进行实验、发挥想象,创造无限可能。
付费 • 专有
查看详情
Stable Video Diffusion
★3.7
Stable Video 旨在服务于媒体、娱乐、教育、营销等多个领域的广泛视频应用。它使个人能够将文本和图像输入转化为生动的场景,并将创意概念提升为真实的动作画面与电影级创作。
免费个人 • 开源
查看详情
Mochi AI
遵循物理规律,实现逼真的运动效果,精准响应指令以控制角色与动作,生成流畅的人类表情。作为世界模拟器,它可实现合成现实中的探索,无缝融合文本、音频、图像与3D内容。采用Apache 2.0开源协议。
免费增值 • 开源
查看详情



