Wan
Wan
软件描述
具备前沿性能的高级视频模型,可在消费级显卡上生成 480p/720p 视频,支持文本到视频、图像转换、编辑以及利用强大 VAE 实现独特的双语文本生成任务。
官方网站
访问软件的官方网站了解更多信息
tongyi.aliyun.com
什么是 Wan?
万:开放且先进的大规模视频生成模型。
在本仓库中,我们推出了 Wan2.1,这是一个全面且开放的视频基础模型套件,显著推动了视频生成技术的发展。Wan2.1具备以下核心特性:
领先性能:Wan2.1在多个基准测试中均优于现有的开源模型和前沿商业解决方案。
支持消费级显卡:T2V-1.3B 模型仅需 8.19 GB 显存,可兼容几乎所有消费级显卡。其可在 RTX 4090 上约 4 分钟内生成一段 5 秒的 480P 视频(无需使用量化等优化技术)。其性能甚至可与部分闭源模型相媲美。
多任务支持:Wan2.1在文本到视频、图像到视频、视频编辑、文本到图像以及视频到音频等任务上表现卓越,显著推动了视频生成领域的发展。
视觉文本生成:Wan2.1是首个能够生成中英文文本的视频模型,具备强大的文本生成能力,显著提升了其实际应用场景。
强大的视频 VAE:Wan-VAE 实现了极高的效率与性能,能够高效编码和解码任意长度的 1080P 视频,同时完整保留时间信息,是视频和图像生成的理想基础模型。
🔄 替代方案
53 个选择
Stable Video Diffusion
稳定视频旨在服务于媒体、娱乐、教育、营销等多个领域的广泛应用。它使个人能够将文本和图像输入转化为生动的场景,并将概念转化为实景拍摄的影视创作。

Mochi AI
实现了符合物理规律的逼真运动质量,能够高效准确地控制角色与动作,生成流畅的人类表情。作为世界模拟器,它支持在合成现实环境中进行探索,无缝融合文本、音频、图像和3D内容。采用 Apache 2.0 开源协议。
专为人工智能打造的影视制作工具,集成了谷歌Gemini人工智能技术,以及先进的视频生成模型Veo 3和下一代图像生成系统Imagen 4。