跟郎朗媳妇有得一拼的AI，只看弹琴动作，完美复现原声 | CVPR 2020

十三 2020-06-29 14:06:36 来源：量子位

华人小哥一作

金磊发自凹非寺
量子位报道 | 公众号 QbitAI

见识过「听歌识曲」，体验过看弹奏动作识曲吗？

就像最近的一档综艺节目中，郎朗比划了几个弹钢琴的动作，他媳妇(吉娜·爱丽丝)秒答：《柴可夫斯基第一协奏曲》！

来自华盛顿大学的研究团队提出了一种新方法Audeo，就解锁如此神奇的操作——仅仅根据钢琴师弹奏时的动作，就能直接复现原声音乐。

先来体验下这种神奇的感觉。

下面便是钢琴师演奏时的动图，我们能看到的，仅仅就是手指在钢琴键盘上的变换。

然后，你知道这是哪首曲子吗？

大部分人（或许郎朗级别的大神们可以）应该是猜不到的。

但AI可以，下面便是这项技术复现的原声音乐。

那么，这般神奇的操作是怎么实现的呢？

三步实现「看动作识音乐」

简单来说，Audeo方法主要包括三大步骤，分别是：

钢琴按键检测
生成乐谱内容
合成音乐

钢琴按键检测

这个步骤可以理解为一个多标签（multi一label ）分类问题。

输入是弹钢琴视频中5个连续的帧，将它们输入到Video2Roll Net中，经过ResNet18、特征变换、特征细化（refinement）和相关学习的处理，最后输出中间帧的按键预测。

值得注意的是，在这个步骤中，研究人员没有直接使用ResNet18，而是在此基础上做了算法改良，提出了Video2Roll Net。

这样做的原因很简单，就是ResNet18检测到的「精度」不够细致，下面2张热力图的对比，便一目了然地展示了2种方法的效果。

生成乐谱内容

在第二个步骤中，就需要将 Roll 转换为 Midi（乐器数字接口），以便合成音乐。

但在上步生成出来的 roll ，没办法直接转换成 Midi，一个至关重要的原因就是—— Roll 不包含时间信息。

此外，由于 Midi 比较依赖音频流，所以经常出现的一个现象就是：演奏者按一个钢琴键的时间较长时，相应频率的幅度会逐渐衰减为零，也就是在 Midi 中会被标记为零。

像下面这张图中显示的那样，就会造成不匹配的现象。

并且，研究人员表示：

这种不匹配的现象，是经常发生的。

于是，研究人员便提出了一个叫 Roll2Midi Net的方法解决了这个问题。

主要是在二者之间加入了一个生成对抗网络（GAN），来调节并解决上述问题。

合成音乐

最后一步，就是根据调节好的 Midi 来生成音乐，主要过程如下图所示。

将 Midi 作为输入，经过一个上采样，而后可以选择通过「Midi 合成器软件」，也可以选择使用「PerfNet+Unet+GriffinLim」的组合方式来生成音乐。

至于 Audeo 方法与其它方法的定量比较，主要集中在第二个核心步骤。

可以明显看到，研究人员在第二步骤中提出来的 Roll2Midi Net方法，在各项评测指标中，都具有一定优势。

合成音乐还可以转换成别的乐器

当然，Audeo 除了精准复现视频中的钢琴音乐外，还有一个更有意思的玩法。

它可以将钢琴原声，转换成其他乐器的声音。

例如，可以将钢琴音乐转换成吉他的声音。

还可以将钢琴音乐转换成日本十三弦古筝的声音。

这个有趣的玩法，主要得益于「合成音乐」这个步骤，选择的方法不同，得到的结果便不同。

研究团队

这项研究由华盛顿大学的三位研究人员共同完成，研究还入围了本届CVPR。

△从左至右：Kun Su、Xiulong Liu和Eli Shlizerman

论文一作是Kun Su，本科就读于美国纽约州伦斯勒理工大学（RPI），目前在华盛顿大学攻读电子与计算机工程系攻读硕士。

△Kun Su

研究的另一位作者是Xiulong Liu，本科在上交大就读，硕士毕业于华盛顿大学，目前在OneClick.ai 担任数据科学家。

△Xiulong Liu

论文最后一位作者是Eli Shlizerman，华盛顿大学应用数学及电子与计算机工程助理教授。

目前专攻生物神经网络和人工神经网络的基本特性，通过结合时空数据分析、机器学习和动力系统理论的方法将这两个系统联系起来。

△Eli Shlizerman

那么问题来了，如果以郎朗的手速弹奏钢琴，这个AI的效果还会如此惊艳吗？

传送门：

论文地址：
https://arxiv.org/abs/2006.14348

AI CVPR 计算机视觉

十三

商汤科技日日新大模型亮相巴黎，中国AI共赴奥运之约2024-07-26
智谱AI版Sora来了！人人免费不限次，有手机就能玩，API也开放了2024-07-26
Mac装上字节豆包，艾玛！一下变AI PC了！2024-07-22
英特尔举办2024网络与边缘计算行业大会，推动边缘AI创新发展2024-07-24

跟郎朗媳妇有得一拼的AI，只看弹琴动作，完美复现原声 | CVPR 2020

三步实现「看动作识音乐」

钢琴按键检测

生成乐谱内容

合成音乐

合成音乐还可以转换成别的乐器

研究团队

△从左至右：Kun Su、Xiulong Liu和Eli Shlizerman

△Kun Su

△Xiulong Liu

△Eli Shlizerman

相关阅读

虚拟人春节搞事情！先在央视《对话》，又跟李玉刚组团除夕出道

百度被曝将成立芯片公司！头部互联网玩家，为何纷纷入局造芯？

智能音箱自己把自己黑了：随机购物拨号，自主开灯关门，平均成功率达88%

闵万里“回归”！从大别山到中科大少年班，从阿里到VC创业：未忘工农之本，用AI创造新价值

院士助力！这家上海AI公司，顺着“一带一路”将产品落地到国外

OpenCV+深度学习预训练模型，简单搞定图像识别｜教程

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬