W.A.L.T Video Diffusion

W.A.L.T Video Diffusion
软件描述
W.A.L.T. 是一种基于变压器的扩散建模方法,用于生成逼真的视频。它使用因果编码器将图像和视频压缩到统一的潜在空间,并采用窗口注意力架构实现联合的空间与时空生成建模。
官方网站
访问软件的官方网站了解更多信息
walt-video-diffusion.github.io
什么是 W.A.L.T Video Diffusion?
W.A.L.T. 是一种基于Transformer的扩散建模方法,用于生成逼真的视频。它采用因果编码器将图像和视频压缩到统一的潜在空间,并使用窗口注意力架构实现联合的空间与时空生成建模。该设计无需分类器自由引导,即可在视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准上达到顶尖性能。我们还采用三模型级联结构进行文本到视频生成,可生成分辨率为512×896、帧率为每秒8帧的视频。
🔄 替代方案
34 个选择
Sora
Sora 是 OpenAI 开发的文本生成视频模型(该公司还开发了 ChatGPT、DALL-E 3 和 Whisper)。
Wan
性能先进的视频模型,可在消费级GPU上生成480/720p视频,支持文本到视频、图像转换、编辑以及使用强大VAE的双语文本生成等任务。

Dream Machine
下一代视频模型,利用人工智能根据文本指令和图像生成高质量、逼真的画面

Hotshot
Hotshot 是一款 AI 文本转视频/文本转 GIF 模型,旨在深入理解我们最关心的大众人物、地点和事物。

Stable Video Diffusion
Stable Video 旨在服务于媒体、娱乐、教育、营销等多个领域的广泛视频应用。它使个人能够将文本和图像输入转化为生动的场景,并将创意概念提升为真实的动作画面与电影级创作。

Mochi AI
遵循物理规律,实现逼真的运动效果,精准响应指令以控制角色与动作,生成流畅的人类表情。作为世界模拟器,它可实现合成现实中的探索,无缝融合文本、音频、图像与3D内容。采用Apache 2.0开源协议。

Google Veo
谷歌DeepMind的Veo是一种生成式视频技术,可提供高清1080p分辨率视频。
