Meta发布生成式AI语音模型Voicebox,告别语音AI模型“单一用途”的历史
分
享
2023-06-20 11:04
不同于过去的语音AI模型一般只有单一用途,Voicebox基于同一通用模型,即可实现基于文本的语音生成、语音编辑和降噪、跨语言转换、多风格语言采样等功能。
美国时间6月16日,Meta正式发布语音生成模型Voicebox。据官网介绍,通过非自回归“流匹配”(Flow Matching)技术,研究人员无需手动标记不同数据,即可利用长达5万小时的语言和有声书文本训练Voicebox。Voicebox生成语音的速度,可到达目前最先进的自回归模型的约20倍。
不同于过去的语音AI模型一般只有单一用途,Voicebox基于同一通用模型,即可实现基于文本的语音生成、语音编辑和降噪、跨语言转换、多风格语言采样等功能。
在英语文本到文字的转换过程中,Voicebox的平均单词错误率与音频相似度(相较于真实语音)分别为1.9%和0.681,而目前最先进的英语模型Vall-E,则分别为5.9%和0.580。
此外,Voicebox还支持合成包括英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言的语音。在跨语言转换的表现上,Voicebox同样优于该领域领先的YourTTS,平均单词错误率从10.9%降低到了5.2%,音频相似度则从0.335提高到了0.481。
Voicebox与其他语音生成模型单词错误率对比。来源:Meta
Voicebox与其他语音生成模型音频相似度对比。来源:Meta
在训练过程中,Voicebox会得到一个音频样本和相应的文本,然后部分音频将被屏蔽,该模型需要根据前后音频和给定的文本,生成被屏蔽的音频片段。
经过这种训练的模型可以直接或在少量微调后,适用于许多任务。以降噪和语音错误修改为例,Voicebox在实现这两项看似不同的功能时,均是首先屏蔽出现噪音或错误的部分,然后基于前后已有的音频和原文本或修改后的文本,重新生成该部分语音。
这也是Meta研发Voicebox的主要目标。在一篇披露Voicebox技术细节的论文中,Meta研究人员写道:“研究目标是建立一个单一模型,通过上下文学习来执行多种基于文本的语音生成任务。”
Voicebox通过前后音频学习生成语音。来源:Meta
Voicebox并非是为特定应用程序训练的生成模型,因此还可以执行许多未经过训练的其他任务。
输入长度仅为两秒的音频样本,Voicebox就可以获得相应的音频样式。而后,使用者只需输入文本就可以生成语音。Meta表示,这项功能可为语言功能障碍人士提供语音,或为NPC和虚拟助手定制声音。
同时,Voicebox跨语言转换的功能也可以帮助不同语言的人们进行顺畅的交流。基于六种语言的语音样本和给出的文本,使用者在Voicebox的帮助下便可以轻松生成目标语言的语音。
Voicebox还可以将其生成的语音用于模型训练。Meta的研究结果表明,与真实语音训练出的模型相比,使用Voicebox生成的语音训练出的语音识别模型表现几乎一样好。
Voicebox与其他主流语音生成模型功能对比。来源:Meta
尽管Meta研究团队已经发布了披露技术细节的相关论文,但Meta并没有公开Voicebox的模型或代码,认为“需要在开放和责任之间找到适当的平衡”。
Meta在社交平台上公开表示:“与其他强大的人工智能创新技术一样,我们认为这项技术也可能会被滥用,造成意外伤害。”
热
门
精
选
亚马逊新规已强制执行!卖家:影响流量分配
近期,亚马逊平台上出现了一个令众多卖家措手不及的情况:部分卖家发现,自己并未对后台标题进行任何修改,前台标题却自动变成了二段式,更让人困惑的是,副标题中还出现了一些无关关键词。
TikTok Shop印尼加强商家资质审查:商家六大认证不全的商品将遭下架
TikTok Shop稳居印尼第二大平台,控股后的Tokopedia排名第三;Lazada等中尾部平台用户流失严重,份额被头部集中。
美国Best Buy开放第三方平台卖家入驻
Lowe’s、Nordstrom、Ulta Beauty、Target 等零售巨头相继跟进或扩大第三方电商,美国线下零售“平台化”浪潮再起。
沃尔玛要打通线上线下 第三方电商卖家也能获取实体店流量了
日前,在美国加利福尼亚州圣地亚哥举行的沃尔玛卖家峰会上,沃尔玛宣布其正在探索将实体超市升级为数字百货商店,顾客可以通过扫描货架上的二维码访问数千种在线商品,包括第三方卖家的产品。
开卖599元外套 霸王茶姬要做“百货店”?
“好好好,果真是百货公司,卖奶茶只是副业吧。”
Temu:Q2海外整体GMV增速或仍保持40%左右 复苏韧性强劲
8月27日消息,日前,拼多多发布了截至6月30日的2025年第二季度财报
绿联科技2025半年报:线下渠道业绩亮眼 充电类产品扛起增长大梁
上半年,公司实现营业收入38.57亿元,同比增长40.60%;毛利润为36.98%,较上年同期微降1.44%;归母净利润达到2.75亿元,同比增长32.74%;扣非归母净利润为2.59亿元,同比增长28.89%。
美国即时零售迎来新玩家:Best Buy接入Uber Eats 电子产品数小时送货上门
日前,移动出行和配送平台公司Uber与美国消费电子零售商百思买(Best Buy)宣布达成合作,百思买800多家门店将正式接入Uber旗下的外卖平台Uber Eats。