开源音频模型Stable Audio Open，文本生成47秒高清音效

导读 6月6日，著名开源大模型平台Stability.ai在官网宣布，开源最新文生音频模型Stable Audio Open。用户通过文本就能生成最多47秒，钢琴、笛...

6月6日，著名开源大模型平台Stability.ai在官网宣布，开源最新文生音频模型Stable Audio Open。

用户通过文本就能生成最多47秒，钢琴、笛子、鼓点、模拟人声等不同类型的44.1kHz音效。

值得一提的是，Stable Audio Open支持数据微调，歌手、音乐人可以让其生成基于自己的音乐数据，例如，架子鼓手可以根据自己的鼓点来进行微调。

开源地址:https://huggingface.co/stabilityai/stable-audio-open-1.0

在线demo:https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero

根据Stability.ai介绍，Stable Audio Open使用了486，492个录音训练数据，其中472，618个来自Freesound，13874个来自免费音乐档案馆，并且所有音频文件均根据 CC0、CC BY或CC Sampling+获得了商业许可。

就是说通过Stable Audio Open生成的音效无需担心商业化问题，不会受到法律方面的追究。

「AIGC开放社区」根据其提供的在线demo体验了一下，在文本语义理解、生成音效等方面还是相当优秀。

需要注意的是，目前只支持英文提示词，其他任何语言都不行，即便你使用了识别效果也是相当的差。

在生成的过程中，用户可以对时间、扩散步数和CFG进行详细控制，以达到更好的效果。例如，一首非常舒适抒情的钢琴曲。

此外，Stable Audio Open目前只能用于学术研究，还无法商业化。

相关热词：

免责声明：本文由用户上传，如有侵权请联系删除！

生活知识小技巧网

首页

国内研究

国外研究

健康新闻

健康资讯

养生资讯

社会百态

医学前沿

社会动态

生活知识

每日动态

开源音频模型Stable Audio Open，文本生成47秒高清音效

相关推荐

最新文章

头条推荐 | 热门文章 | 精选文章

开源音频模型Stable Audio Open，文本生成47秒高清音效

1毛钱1百万token，写2遍红楼梦！国产大模型下一步还想卷什么？

长智齿的症状有哪些长智齿的症状

耳朵油油的怎么回事耳朵油是什么原因

婚期测算（婚期）

怎样教会小孩跳绳如何教小孩跳绳更有效

药店有哪种药能助睡眠药店里什么助睡眠的药

辣椒减肥有效果吗吃辣椒减肥吗？

肺性脑病如何处理? 肺性脑病怎么治

消息人士称，欧洲央行将批准希腊银行业在16年后恢复派息的请求

吃了打胎药多久有反应吃了打胎药有什么反应

“车路云一体化”备受关注，上市公司积极布局

结婚礼堂是什么意思（婚礼礼堂像灵堂）

马斯克的xAI将在孟菲斯开发新的超级计算机

“第一”旗号满天飞，红利基金“花式”较劲出圈

六个月宝宝血常规有炎症是什么原因六个月宝宝验血有炎症老吐怎么回事

孕羊水少怎么补最有效怀孕羊水少怎么补最快分享四种增加羊水的方法

寻仙积分中心在哪（寻仙积分中心）

DHL全球货运：未来三四个月海运运力紧张问题不会明显缓解

过度疲劳的症状有哪些图片过度疲劳的症状有哪些

牛油果怎么吃最好吃法简单牛油果怎么吃最好吃法

转动脖子有滋滋声是什么原因

成人的最佳睡眠时间是几点到几点成年人的最佳睡眠时间段是什么时候?

食道癌化疗后能活多少年食道癌化疗后能活多久

怀孕后吃了螃蟹怎么办怀孕吃了螃蟹怎么办

梦幻宝石工艺最高多少级（梦幻宝石）

结婚礼堂是什么意思（婚礼礼堂看像灵堂）

cf突围模式算杀敌吗（cf突围模式）

斗鱼退缴主播非法收益超1亿：对日常运营无实质性影响

cf防沉迷身份证