< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

ICLR19论文：口哨声变交响乐，神经网络一键改变音乐风格 | 开源

安妮 2019-05-09 13:18:37 来源：量子位

铜灵发自凹非寺

量子位出品 | 公众号 QbitAI

Facebook新开源的炫酷AI项目，能给音符“变装”。

它将海顿的弦乐四重奏转换成巴赫的大合唱、贝多芬的钢琴曲。让经典的吉他演奏，摇身一变成了优雅的莫扎特交响乐。

甚至连你随口哼唱的口哨，经过AI的加工和改造，都能变成莫扎特的交响乐。

这就是音乐界的P音大师么。

目前，这个项目的论文已被ICLR19接收，还获得了图灵奖得主、深度学习大牛Yann LeCun的转推，推特上已经近600赞。

这下，谁还能说你没有音乐天赋？

口哨变音乐的秘密

在论文A Universal Music Translation Network中，FaceBook AI研究院的四位研究人员详细介绍了背后的原理。

让音乐转变风格，甚至将口哨变成交响乐的秘密，都藏在一个通用的音乐转换网络里了。

这是一种横跨乐器、流派和风格的音乐转换方法，在多域Wavenet自编码器的基础上改造而来。这是此前谷歌研究出的一种原始音频波形生成模型，波形生成速度快，并且效果逼真。

除了借助了Wavenet的架构，这个通用转换网络还具有一个共享编码器和进行端到端波形训练的解缠潜空间（disentangled latent space）。

△ FaceBook通用音乐转换模型架构

这个编码器是一个全卷积网络，它由三个块组成，每个块包含10个残差层，可应用到任意序列长度。

其次，每个残差层均包含一个随着核心尺寸增加而增加的扩张卷积、一个非线性单元RELU，还有一个1×1 卷积，固定宽度为128个通道。

通过部署多样的训练数据集和大型网络的容量，独立域的编码器支持将音乐转换成训练过程中未曾见过的音乐域。这种无监督学习方法，不依赖于域或者是音乐的转录间匹配过样本的监督。

研究人员用此前DeepMind发布的声音合成器NSynth和从人类专业音乐家演奏的数据集上的数据评估这种方法。

研究人员记录了改编过音频的MOS分数（平均评价计分），结果显示，模型显示的音频质量略低于人类演奏的音频质量。

随后，研究人员评估了不同条件下人类演奏音乐与模型生成音乐间的归一化相关性。

结果显示，AI生成的音乐高于了人类的得分。

传送门

论文：

https://arxiv.org/abs/1805.07848

开源地址：

https://github.com/facebookresearch/music-translation

Facebook官方博客：

https://research.fb.com/publications/a-universal-music-translation-network/

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

人工智能神经网络

安妮

ICLR19论文：口哨声变交响乐，神经网络一键改变音乐风格 | 开源

相关阅读

单卡就能运行AI画画模型，小白也能看懂的教程来了，还有100万卡时免费NPU算力可用丨昇思MindSpore

懒人福音！谷歌让机器训练机器，用大语言模型定制你的家务机器人

谷歌也扛不住了！医疗AI探索再遇重挫，科技公司们节节败退

每天生产45亿词！GPT-3已渗透进300+应用中，网友：边吃边拉

商汤最新论文登上ICLR 2022：给注意力机制Softmax找个“平替”

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐，连环境背景音也能模仿

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

全新统一流式架构，Vivix灵动时刻正式发布首个实时互动模型

菲尔兹奖得主王虹，也发过NeurIPS