您当前的位置:首页 > 电脑百科 > 人工智能

一文带你全面了解Meta的开源人工智能音乐模型——MusicGen

时间:2023-12-08 12:09:24  来源:51CTO  作者:
译者 | 朱先忠

审校 | 重楼

摘要:本文将同你一起探索Meta公司研制的新的开源人工智能音乐模型MusicGen,尤其是分析此模型中一些往往被忽视但实际却代表显著进步方面的内容。

音乐AI产品如何提升每个人的音乐制作水平的图像(通过与ChatGPT和DALL-E-3的对话生成的图像)

简要回顾AI人工智能音乐模型历史

2023年2月,谷歌公司凭借其生成式人工智能音乐模型MusicLM在业界掀起了轩然大波。在这一点上,有两件事变得清晰起来:

  1. 2023年将是基于人工智能的音乐生成的突破性一年
  2. 一个新的模型很快就会让MusicLM黯然失色

许多人预计,就模型参数和训练数据而言,下一个突破性模型的规模将是MusicLM的十倍。当然,它还将提出同样的道德问题,包括限制访问源代码和使用受版权保护的训练材料等。

不过,时至今天,我们知道只有部分是真的。

Meta公司的MusicGen模型于2023年6月发布,这个模型带来了一些巨大的改进,包括以下几个方面:

  1. 更高质量的音乐输出(24kHz→ 32kHz)
  2. 更自然的发声乐器
  3. 以任何旋律为条件生成的选项(我已经写了一篇关于这一点的博客文章:https://medium.com/towards-data-science/how-metas-ai-generates-music-based-on-a-reference-melody-de34acd783)

……同时使用更少的训练数据,开源代码和模型权重,并且只使用商业许可的训练材料等。

六个月后,炒作已经慢慢平息。然而,Meta公司的研究团队FAIR继续发表有关论文并更新相应代码,以便逐步改进MusicGen模型。

模型研究进展

自MusicGen模型发布以来,Meta公司在两个关键方面对MusicGen进行了升级:

  1. 使用多波段扩散实现更高质量的生成
  2. 立体声生成带来更生动的输出

虽然这听起来像是两个小的改进,但却存在很大的不同。你自己听听吧!以下是使用原始MusicGen模型(3.3B参数)生成的10秒作品:

一文带你全面了解Meta的开源人工智能音乐模型——MusicGen

来自MusicGen官方演示页面生成的曲目

使用的提示内容是:

“earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves.”

对应的中文含义大致是:“乡土色调,环境气氛,融入尤克莱利琴,和谐、轻快、随和的音调,有机乐器、节奏柔和。”

接下来,下面给出的是MusicGen模型在六个月后根据上面相同提示生成的输出示例:

一文带你全面了解Meta的开源人工智能音乐模型——MusicGenMusicGen模型生成了作者用MusicGen 3.3B立体声创建的曲目

如果你是通过智能手机扬声器收听,差异可能不会很明显。在其他设备上,你应该能够听到整体声音更加清晰自然,立体声使作品更加生动和令人兴奋。

在这篇博客文章中,我想展示MusicGen模型在上述这些方面的改进,解释它们为什么重要以及它们是如何工作的,并提供一些音乐生成的例子。

多波段扩散——这有什么作用?

为了理解什么是多波段扩散以及为什么它会产生影响,让我们首先来看一看最初的MusicGen模型([参考资料1])是如何产生其输出的。

在一台具有近100万个数字的计算机上,以34kHz的采样率生成30秒的音频。如果一个样本一个样本地生成这样的作品的话,那么,其大小相当于用ChatGPT生成10本完整的小说。

相反,Meta公司使用了神经音频压缩技术。他们的压缩模型EnCodec([参考资料2])可以将音乐从34kHz压缩到大约0.05kHz,同时保持相关信息,并将其重建为原始采样率。EnCodec由一个编码器和一个解码器组成,前者压缩音频,后者再现原始声音(见下图)。

一文带你全面了解Meta的开源人工智能音乐模型——MusicGenEncodec:Meta公司使用的神经音频压缩模型(图片由作者本人提供)

现在,让我们回到MusicGen模型。这个模型不是通过全采样率生成音乐,而是以0.05kHz的频率生成音乐,并让EnCodec“重建”音乐,从而以最小的计算时间和成本获得高保真度输出(见下图)。

一文带你全面了解Meta的开源人工智能音乐模型——MusicGen

MusicGen:用户提示(文本)被转换为编码的音频信号,然后对其进行解码以产生最终结果(图片由作者本人提供)

虽然EnCodec是一项令人印象深刻的技术,但它的压缩并不是无损的。与原始音频相比,重建的音频中存在明显的伪音。你们自己听听就知道了!

原始音频效果

一文带你全面了解Meta的开源人工智能音乐模型——MusicGenEnCodec编码生成的音乐示例(取自EnCodec官方演示页面)

重建后的音频效果

由于MusicGen模型完全依赖EnCodec编码技术,所以这是生成音乐质量的主要瓶颈。这也正是Meta公司决定改进EnCodec解码器部分的原因。2023年8月,他们为EnCodec开发了一种利用多频带扩散的更新解码器([参考资料3])。

Meta公司在EnCodec的原始解码器中发现的一个问题是,它倾向于先生成低频,然后生成高频。不幸的是,这意味着低频中的任何误差/伪音也会使高频失真,从而大幅降低输出质量。

多频带扩散通过在组合频谱之前独立生成频谱的不同部分来解决这个问题。研究人员发现,这一程序显著提高了生成的输出。从我的角度来看,这些差异是显而易见的。使用原始EnCodec解码器和多频带扩散解码器收听同一曲目效果对比如下:

原始解码器效果

一文带你全面了解Meta的开源人工智能音乐模型——MusicGen生成的曲目取自多波段扩散演示网页(https://ai.honu.io/papers/mbd/)

多频带扩散解码器效果

一文带你全面了解Meta的开源人工智能音乐模型——MusicGen生成的曲目取自多波段扩散演示网页(https://ai.honu.io/papers/mbd/)

当前文本到音乐系统的核心问题之一是,它产生的声音总是有一种不自然的品质,尤其是对于声学乐器。多波段扩散使输出声音更加清晰自然,并将MusicGen模型提升到了一个新的水平。

为什么立体声如此重要?

到目前为止,大多数生成音乐模型都是单声道的。这意味着,MusicGen模型不会将任何声音或乐器放在左侧或右侧,从而导致混音不那么生动和令人兴奋。到目前为止,立体声之所以被忽视,是因为生成立体声不是一项微不足道的任务。

作为音乐家,当我们产生立体声信号时,我们可以访问混音中的各个乐器曲目,我们可以将它们放在任何我们想要的地方。MusicGen模型并不单独生成所有乐器,而是生成一个组合音频信号。如果没有这些乐器来源,就很难产生立体声。不幸的是,将音频信号分解为单独的来源是一个棘手的问题(我已经发表了一篇关于这方面的博客文章:https://medium.com/towards-data-science/ai-music-source-separation-how-it-works-and-why-it-is-so-hard-187852e54752),而且这项技术还没有100%准备好。

因此,Meta公司决定将立体声生成直接纳入MusicGen模型。他们使用了一个由立体声音乐组成的新数据集,训练MusicGen产生立体声输出。研究人员声称,与单声道相比,生成立体声没有额外的计算成本。

虽然我觉得论文中没有很清楚地描述立体声过程,但我的理解是这样的(见下图):MusicGen已经学会了生成两个压缩音频信号(左声道和右声道),而不是一个单声道信号。这些压缩信号在组合以构建最终立体声输出之前必须单独解码。这个过程不需要两倍的时间,是因为MusicGen现在可以在与以前一个信号几乎相同的时间产生两个压缩音频信号。

一文带你全面了解Meta的开源人工智能音乐模型——MusicGen

MusicGen立体声更新示意图(请注意,论文中没有充分记录这个过程,我无法100%确定,只是把它当作一个有根据的猜测。此外,图片由作者本人提供)

能够产生令人信服的立体声确实使MusicGen模型与MusicLM模型或Stable Audio等其他最先进的模型不同。在我看来,这种“小”的改进对生成的音乐的生动性产生了巨大的影响。自己听一听(在智能手机扬声器上可能很难听到):

单声道效果

一文带你全面了解Meta的开源人工智能音乐模型——MusicGen

立体声效果

一文带你全面了解Meta的开源人工智能音乐模型——MusicGen

结论

MusicGen模型自从发布之日起就给人留下了深刻印象。然而,从那时起,Meta公司的FAIR团队一直在不断改进他们的产品,实现更高质量的结果,以便听起来更真实。在生成音频信号的文本到音乐模型(而不是MIDI等)方面,从我的角度来看,MusicGen模型领先于其竞争对手(截至2023年11月)。

此外,由于MusicGen模型及其所有相关产品(EnCodec、AudioGen)都是开源的,所以它们也必将构成令人难以置信的新创作的灵感来源,也是有抱负的人工智能音频工程师的首选框架。如果我们看看MusicGen模型在短短6个月内取得的进步,我只能想象2024年将是激动人心的一年。

另一个重要的观点是,Meta公司通过其透明的方法,也在为那些希望将这项技术集成到音乐软件中的开发人员做了基础工作。生成样本、集思广益的音乐创意或改变现有作品的风格——这些都是我们已经开始看到的一些令人兴奋的应用。有了足够的透明度,我们可以确保我们正在建设一个未来,让人工智能让音乐创作变得更加令人兴奋,而不仅仅是对人类音乐才能出现的威胁。

注意:虽然MusicGen模型是开源的,但经过预训练的模型可能不会在商业上使用!访问audiocraft的Github存储库(https://github.com/facebookresearch/audiocraft),你将会了解到有关其所有组件预期用途的更多详细信息。

参考资料

[1]Copet et al. (2023),Simple and Controllable Music Generation,https://arxiv.org/pdf/2306.05284.pdf

[2]Défossez et al. (2022),High Fidelity Neural Audio Compression,https://arxiv.org/pdf/2210.13438.pdf

[3]Roman et al. (2023),From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion,https://arxiv.org/abs/2308.02560

译者介绍

朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。

原文标题:MusicGen Reimagined: Meta’s Under-the-Radar Advances in AI Music,作者:Max Hilsdorf



Tags:Meta   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Meta:Quest 手势追踪不会用于模拟手柄
IT之家 3 月 28 日消息,Meta Quest 用户期待的“空气手柄”功能可能要落空了。近日,Meta 的一位产品经理明确表示,手势追踪功能不会用于模拟传统的实体手柄控制器。据IT之家了...【详细内容】
2024-03-29  Search: Meta  点击:(8)  评论:(0)  加入收藏
Meta:苹果入局证明扎克伯格对AR/VR坚持投入是正确的
(映维网Nweon 2024年01月29日)根据《华尔街日报》报道,对于苹果携Vision Pro正式入局头显市场,Meta实际上非常欢迎,并希望苹果及Vision Pro可以助力他们已投入500亿美元的元宇宙...【详细内容】
2024-01-29  Search: Meta  点击:(46)  评论:(0)  加入收藏
谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5
新智元报道编辑:编辑部【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力...【详细内容】
2024-01-02  Search: Meta  点击:(71)  评论:(0)  加入收藏
股价飙升150%走出市值暴跌阴影,扎克伯格的Meta今年做对了什么?
原文来源:元宇宙新声图片来源:由无界 AI生成2023年对于Facebook母公司Meta来说,是一个转折点。截至第三季度,Meta的股价涨幅已超过150%,这一显著的反弹让人难以想象就在去年,公司...【详细内容】
2023-12-26  Search: Meta  点击:(57)  评论:(0)  加入收藏
Meta头显新增舌头追踪,网友大写震惊:我不问也不想知道为什么
量子位 | 公众号 QbitAI就还挺突然的……Meta的MR头显可以进行舌头追踪了。效果be like:有了这个新功能,咱就可以舔虚拟甜筒冰淇淋,也能更好地表达天气很热,以及___...【详细内容】
2023-12-20  Search: Meta  点击:(103)  评论:(0)  加入收藏
计算机图形学将迎来新突破?Meta 携手斯坦福大学推出 3D 交互模型,VR 时代似乎不远了
作者 | 李冬梅、核子可乐近日,斯坦福大学与 Meta/Facebook AI 研究(FAIR)实验室的工作人员共同开发出一套突破性的 AI 系统,能够仅根据文本描述在虚拟人和物体之间生成自然、协...【详细内容】
2023-12-14  Search: Meta  点击:(129)  评论:(0)  加入收藏
一文带你全面了解Meta的开源人工智能音乐模型——MusicGen
译者 | 朱先忠审校 | 重楼摘要:本文将同你一起探索Meta公司研制的新的开源人工智能音乐模型MusicGen,尤其是分析此模型中一些往往被忽视但实际却代表显著进步方面的内容。音乐...【详细内容】
2023-12-08  Search: Meta  点击:(213)  评论:(0)  加入收藏
Meta、IBM发起AI联盟,“抱团取暖”对抗 OpenAI等巨头?
最新消息称,Meta Platforms和IBM发起了一个由50多家人工智能公司和研究机构组成的人工智能联盟(AI Alliance),意在培养⼀个开放的社区,使开发⼈员和研究⼈员能够加快⼈⼯智能领域...【详细内容】
2023-12-06  Search: Meta  点击:(114)  评论:(0)  加入收藏
Meta 介绍 AI 图像编辑工具 Emu Edit / Video
11 月 20 日消息,Meta 昨日宣布为 Facebook 和 Instagram 推出两款基于 AI 的图像编辑工具,分别是“Emu Edit”和“Emu Video”,适用领域包括照片和视频,目前 Meta 公布了这两项...【详细内容】
2023-11-20  Search: Meta  点击:(222)  评论:(0)  加入收藏
Meta的逆袭:扎克伯格到底做对了什么?
2022年11月初,Meta (当时距离Facebook改名刚好一年)处于摇摇欲坠的窘境:营业收入增长乏力的问题已经持续了三个季度;成本居高不下,导致营业利润急剧下滑;它的总市值也下跌到了2300...【详细内容】
2023-11-15  Search: Meta  点击:(77)  评论:(0)  加入收藏
▌简易百科推荐
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(4)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(7)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03    第一财经网  Tags:AI   点击:(5)  评论:(0)  加入收藏
生成式人工智能有哪些新趋势?
相较于去年,当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台,只要是以搜索结果为导向的内容,都会出现它的身影。但其实,人工智能的应用场...【详细内容】
2024-04-03  品谈教师帮    Tags:人工智能   点击:(6)  评论:(0)  加入收藏
AI世界的新难题:互联网的信息不够用了!
高质量数据的紧缺正成为AI发展的重要障碍。4月1日,据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们...【详细内容】
2024-04-02  硬AI    Tags:AI   点击:(6)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02    量子位   Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
AI时代,面对死亡有了第二种选择?
今年春节期间,罗佩玺瞒着妈妈用AI技术“复活”了外婆,她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年,妈妈和外婆终于又“见面”了,这是她送给妈妈的生日礼物。收...【详细内容】
2024-04-02    中国青年报  Tags:AI时代   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条