Wan
Wan
软件描述
性能先进的视频模型,可在消费级GPU上生成480/720p视频,支持文本到视频、图像转换、编辑以及使用强大VAE的双语文本生成等任务。
官方网站
访问软件的官方网站了解更多信息
tongyi.aliyun.com
什么是 Wan?
万:开放且先进的大规模视频生成模型。
在本仓库中,我们发布了 Wan2.1,这是一个全面且开源的视频基础模型套件,推动了视频生成技术的边界。Wan2.1 具备以下关键特性:
SOTA 性能:Wan2.1 在多个基准测试中持续优于现有开源模型及业界领先的商业解决方案。
支持消费级 GPU:T2V-1.3B 模型仅需 8.19 GB 显存,可适配几乎全部消费级显卡。在 RTX 4090 上约 4 分钟即可生成一段 5 秒、480P 的视频(未使用量化等优化技术),性能甚至可媲美部分闭源模型。
多任务支持:Wan2.1 在文生视频、图生视频、视频编辑、文生图和视频生音频等多个任务上表现卓越,显著推进视频生成领域发展。
视觉文本生成:Wan2.1 是首个能够生成中英文文本的视频模型,具备强大的文本生成能力,大幅提升实际应用价值。
强大的视频 VAE:Wan-VAE 实现了卓越的效率与性能,可编码解码任意长度的 1080P 视频并保留时序信息,是视频与图像生成的理想基础。
🔄 替代方案
56 个选择
Sora
Sora 是 OpenAI 开发的文本生成视频模型(该公司还开发了 ChatGPT、DALL-E 3 和 Whisper)。

Dream Machine
下一代视频模型,利用人工智能根据文本指令和图像生成高质量、逼真的画面

Hotshot
Hotshot 是一款 AI 文本转视频/文本转 GIF 模型,旨在深入理解我们最关心的大众人物、地点和事物。

Stable Video Diffusion
Stable Video 旨在服务于媒体、娱乐、教育、营销等多个领域的广泛视频应用。它使个人能够将文本和图像输入转化为生动的场景,并将创意概念提升为真实的动作画面与电影级创作。

Mochi AI
遵循物理规律,实现逼真的运动效果,精准响应指令以控制角色与动作,生成流畅的人类表情。作为世界模拟器,它可实现合成现实中的探索,无缝融合文本、音频、图像与3D内容。采用Apache 2.0开源协议。

Google Veo
谷歌DeepMind的Veo是一种生成式视频技术,可提供高清1080p分辨率视频。

DeepMind Genie
从图像或文本提示创建交互式2D平台游戏环境,支持在从公共视频数据集学习的AI生成世界中进行探索和角色控制,旨在推动通用人工智能和世界模型的研究。


