W.A.L.T Video Diffusion

W.A.L.T Video Diffusion

W.A.L.T Video Diffusion

AI视频生成器

软件描述

W.A.L.T. 是一种基于变压器的扩散建模方法,用于生成逼真的视频。它使用因果编码器将图像和视频压缩到统一的潜在空间,并采用窗口注意力架构实现联合的空间与时空生成建模。

官方网站

访问软件的官方网站了解更多信息

官方认证

walt-video-diffusion.github.io

安全链接HTTPS

什么是 W.A.L.T Video Diffusion?

W.A.L.T. 是一种基于Transformer的扩散建模方法,用于生成逼真的视频。它采用因果编码器将图像和视频压缩到统一的潜在空间,并使用窗口注意力架构实现联合的空间与时空生成建模。该设计无需分类器自由引导,即可在视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准上达到顶尖性能。我们还采用三模型级联结构进行文本到视频生成,可生成分辨率为512×896、帧率为每秒8帧的视频。

🔄 替代方案

34 个选择

Sora 是 OpenAI 开发的文本生成视频模型(该公司还开发了 ChatGPT、DALL-E 3 和 Whisper)。

免费增值 • 专有
查看详情

性能先进的视频模型,可在消费级GPU上生成480/720p视频,支持文本到视频、图像转换、编辑以及使用强大VAE的双语文本生成等任务。

免费 • 开源
查看详情
Dream Machine

Dream Machine

AI视频生成器

4.7

下一代视频模型,利用人工智能根据文本指令和图像生成高质量、逼真的画面

免费增值 • 专有
查看详情
3.3

Hotshot 是一款 AI 文本转视频/文本转 GIF 模型,旨在深入理解我们最关心的大众人物、地点和事物。

免费 • 开源
查看详情

通过 Firefly——这一系列即将登陆 Adobe 产品的创意生成式 AI 模型——进行实验、发挥想象,创造无限可能。

付费 • 专有
查看详情
Stable Video Diffusion

Stable Video Diffusion

AI视频生成器

3.7

Stable Video 旨在服务于媒体、娱乐、教育、营销等多个领域的广泛视频应用。它使个人能够将文本和图像输入转化为生动的场景,并将创意概念提升为真实的动作画面与电影级创作。

免费个人 • 开源
查看详情

遵循物理规律,实现逼真的运动效果,精准响应指令以控制角色与动作,生成流畅的人类表情。作为世界模拟器,它可实现合成现实中的探索,无缝融合文本、音频、图像与3D内容。采用Apache 2.0开源协议。

免费增值 • 开源
查看详情

谷歌DeepMind的Veo是一种生成式视频技术,可提供高清1080p分辨率视频。

免费 • 专有
查看详情
上一页
下一页

支持平台