AI已能按音乐风格填词，周杰伦又有御用作词了？｜在线可玩

丰色 2021-06-30 14:27:10 来源：量子位

效果好不好，可以自己动手试一试～

虽然AI在艺术领域一直有不少争议，但它一直也没停下各种尝试的步伐：

写歌、画画、写诗……这不，刚又学会了填词。

我们给这个AI放了一首钢琴曲，曲调非常悠扬平和。

然后，它生成的部分词是这样的：

各位感觉如何？

其中，生成过程的动态效果看着还不错：

当然，它可以很好地分辨不同风格的音乐：给安静的钢琴乐生成的词与给嘈杂的摇滚乐生成的会完全不一样。

不过，鉴于目前的填词效果（比如有时无厘头的上下衔接），研究人员也表示：

这个工具也不是为了取代音乐家，而是成为一个激发音乐家创作灵感的工具，辅助他们创造出满意的作品。

ps.此处在线cue周杰伦，御用词人试试AI？

如何分辨出不同风格的曲子？

这项研究来自滑铁卢大学，研究成果即将发表在ICCC 2021。

项目的动机源于其中一位研究员的个人兴趣。

这名研究员非常喜欢音乐，所以她很好奇机器是否可以生成听起来像她最喜欢的音乐艺术家风格的歌词。

最终做出来的系统叫做LyricJam，已有在线网页版供任何感兴趣的音乐人访问使用。

该系统通过将原始音频文件转换为频谱图，然后使用深度学习模型实时生成与音乐相匹配的歌词。

模型的架构由两个变分自动编码器（VAE）组成，一个用于学习音乐音频的表示，另一个用于学习生成歌词。

训练数据集由18000个原始歌曲的WAV音频片段和7种音乐艺术家的相应歌词组成。

首先使用CNN来根据频谱图将带歌词的音频，按风格分类成不同“艺术家”。

然后训练一个条件VAE(conditional VAE，CVAE)“重建”原始歌词，根据不同类型音乐的歌词用词和表达方式的不同，生成一系列连贯的新歌词。

其中生成条件是前面预先训练的“艺术家”种类。

推理阶段，流程差不多：系统将实时录制的音频片段转换成频谱图，然后进行风格识别，为了生成最匹配的歌词，需要根据“艺术家”的类别从潜在空间中采样并对其进行解码，然后生成对应的歌词表达。

最后，使用基于GAN的对齐模型来对齐两种编码器生成的歌词和音频表示。

最终效果如何呢？

“非批判性的即兴演奏伙伴”

为了评估他们开发的系统，研究人员进行了一项简单的用户研究，请来一批搞音乐创作的人来测试。

测试要求音乐人现场演奏音乐并分享他们对系统所作歌词的反馈。

首先确定该系统是否能更准确地生成与音乐所产生的情绪相匹配的歌词。

研究人员选用了5种不同乐器演奏的不同歌曲的片段，每段约10秒，用该模型的两种变体（下图中每组的第二三行）各生成一行歌词，再用一个基线模型（下图中每组第一行）生成歌词。

生成示例如下：

测试者需对以上3种词，进行打分，选出最匹配当前音乐的一种。

总共有15个人参与了这项研究，从下表可以看出，无论播放的歌曲类型如何，用户都更喜欢后两个模型的歌词，而非基线模型的。

这说明，该系统可以生成匹配音乐风格的歌词。

最后，通过一系列问卷调查显示，大多数参与实验的音乐人都觉得，LyricJam是一个非批判性的即兴演奏“伙伴”，可以鼓励他们即兴创作并尝试不同寻常的歌词表达方式。

另外，即使中间改变音乐风格或尝试加入新的和弦，歌词也能实时做出抒情主题的变化。

最后研究人员表示，如果在更大的数据集上训练，填的词就更具有多样性了。

感兴趣的朋友可戳在线链接试玩，系统操作非常简单，录入一个音频就可以：https://lyricjam.ai/

论文地址：https://arxiv.org/abs/2106.01960

参考链接：

https://techxplore.com/news/2021-06-lyricjam-lyrics-instrumental-music.html

丰色

AI已能按音乐风格填词，周杰伦又有御用作词了？｜在线可玩

如何分辨出不同风格的曲子？

“非批判性的即兴演奏伙伴”

相关阅读

Facebook开源问答系统DrQA：基于单一信源回答开放域提问

不到半年，竹间再获1亿元人民币融资，推出「竹间云」Cloud AI

NLP独角兽被曝停工停产！融了10亿仍难造血，大模型热浪中更难活

一起探讨NLP的边界和未来，学术界与工业界在“语言与智能高峰论坛”上擦出火花

XLNet团队：赢BERT靠的并不是数据集更大，公平对决也碾压对手

6个月火速炼成千亿参数大模型！背后是披荆斩棘的华为云哥哥们

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬