Stable Audio

软件描述

由Stability AI开发的Stable Audio是一款音乐生成产品,它采用一种新颖的潜在扩散模型,在文本元数据和时间条件的约束下生成不同长度的音频,具备更快的推理速度,并能对内容和时长进行创造性控制。

官方网站

访问软件的官方网站了解更多信息

官方认证

www.stableaudio.com

安全链接HTTPS

什么是 Stable Audio?

Stable Audio 是由 Stability AI 开发的一款音乐生成产品。该产品利用最新的生成式人工智能技术,通过简洁易用的网页界面,快速生成高质量的音乐和音效。Stability AI 提供免费的基础版本,可用于生成和下载时长不超过45秒的音频片段,以及付费的“Pro”订阅版本,可生成长达90秒的音频,适用于商业项目下载。

Stable Audio 非常适合希望为自己的音乐创作采样素材的音乐人,但创作者的应用场景却远不止于此。用户只需输入描述性的文本提示以及期望的音频时长,即可生成相应的音频片段。例如,输入“后摇滚风格,吉他,鼓组,贝斯,弦乐,充满希望,振奋人心,忧郁,流畅,原始,史诗感,感伤,125 BPM”,并请求生成95秒的音频片段。

使用扩散模型生成音频时面临的主要问题在于,扩散模型通常被训练为生成固定长度的输出。例如,一个音频扩散模型可能被训练在30秒的音频片段上,因此只能生成30秒的音频片段。当需要生成时长差异极大的音频(如完整歌曲)时,这一限制便成为难题。

音频扩散模型通常会从较长的音频文件中随机截取片段,再进行裁剪或填充以适配模型训练所需的时间长度。在音乐生成场景中,这会导致模型倾向于生成歌曲中的任意片段,这些片段可能恰好在乐句的中间开始或结束。

我们推出了 Stable Audio,这是一种基于文本元数据以及音频文件时长和起始时间的音频潜在扩散模型架构,能够对生成音频的内容和时长进行有效控制。这种额外的时间条件输入,使我们能够生成指定长度的音频,时长可达到训练窗口的最大值。

通过使用高度下采样的音频潜在表示,相比原始音频,推理速度显著提升。借助最新的扩散采样技术,我们的旗舰产品 Stable Audio 模型能够在 NVIDIA A100 GPU 上,不到一秒的时间内渲染出44.1 kHz采样率的立体声95秒音频。

🔄 替代方案

45 个选择

利用人工智能,通过文本提示创建声音样本。

付费 • 专有
查看详情

Amper 是一款人工智能作曲、演奏和制作工具,可帮助您立即为您的内容创作并定制原创音乐。

付费 • 专有
查看详情

CALMUS 作曲软件可提升您作为作曲家、演奏者和指挥家的实时作曲能力。

免费 • 专有
查看详情

Calmus Remote 根据人类输入和人工智能技术创作原创且免版权费用的音乐,适用于电影、电视节目或游戏,也适用于个人使用。

免费 • 专有
查看详情

Wotja 是一款高度复杂的“生成音乐”创作工具、实验室、混音器和播放器。可用来生成定制的环境音景与旋律音景、丰富的氛围混音、IDM、文本转音乐、MIDI、创意构思、拼贴音效等更多内容。

免费增值 • 专有
查看详情
Mixtikl

Mixtikl

软件

Mixtikl 是目前最深邃且功能最强大的生成音乐应用之一,它让你能够创建可以互动的、充满魔力的生成音乐混音,还可以添加音频循环,并根据自己的喜好进行各种个性化设置(例如

免费增值 • 专有
查看详情
WaveBots Editor

WaveBots Editor

音乐制作应用

WaveBots 编辑器提供了一种强大且直观的方法,用于程序化地创建音乐和音效,主要应用于复古风格的视频游戏。该编辑器可导出到多种格式,包括常见的 Wav、Mp3 和 MIDI 格式,以及 GoatTracker、Pico-8、Tico-8 等格式。

付费 • 专有
查看详情
Automated Composing System

Automated Composing System

音乐制作应用

ACS 通过提供可自定义的风格,帮助你算法生成 MIDI 音乐。

付费 • 专有
查看详情
上一页下一页
评分5 / 5.0

支持平台