零门槛进行绘画创作,文心一格让每个人都能成为“艺术家”;通过简单问答即可尝试编程,ChatGPT让程序员的编码工作不再神秘……生成式人工智能热潮正在席卷整个科技行业。根据文字描述可以生成音乐吗?当然可以。Meta近日开源的Audio-Craft就能做到,旨在帮助研究人员和开发人员训练自己的模型,从而推进该领域的发展。
Meta表示,这款人工智能工具以其拥有和特别授权的音乐作为训练数据,可以把用户的文本描述转化为音乐。AudioCraft融合了AudioGen、MusicGen和EnCodec3种模型。其中,预先训练好的AudioGen模型可以生成环境声音和音效,比如狗叫声、汽车鸣笛声或木地板上的脚步声,结合用两万个小时授权音乐训练而成的MusicGen以及Encodec编码器/量化器/解码器,三者配合下可帮助用户高效生成高质量的音乐。
值得一提的是,AudioCraft使用En-Codec从原始信号中学习并标记音频,通过这一步骤建立音乐样本的“词汇表”(音频标记),然后将其输入到自回归语言模型中。该模型利用标记内容的结构生成新的模型,从而更好捕获数据中的长距离依赖关系,这对于音乐生成至关重要。最后,新模型根据文本描述生成新的标记,这些标记反馈给En-Codec用于合成声音和音乐。
生成任何类型的高质量音频都需要对复杂信号在不同尺度上进行建模。可以说,音乐是一种极具挑战性的音频类型,因为其由不同跨度的音程、多种乐器的音色等复合而成。
如前所述,AudioCraft是开源的,开发人员可以更加方便地获取代码和文档等资源,并且能够在开源社区中与其他开发人员交流、协作和分享经验,Meta希望借此进一步推动音乐生成领域的创新发展。Meta认为,MusicGen或将成为一种新的乐器,就像最初的音乐合成器一样。
但是,Hacker News评论员指出,虽然AudioCraft大部分都是开源的,其模型权重所使用的CC-BY-NC许可协议则要求对原作品进行非商业用途的分享与再创作,对商业使用存在限制,并不符合完全开源的条件。相比之下,完全开源的协议如GPL(General Public License)则没有限制作品的商业使用。
具体来说,非商业使用条款破坏了开源倡议组织(Open Source Initiative)对开源的定义中的第六点,这可能是由于Meta使用了其拥有授权的音乐源去计算模型权重。