网易伏羲两篇论文入选ICASSP2022，开源全球首个中文精标歌声合成数据集

量子位的朋友们 2022-03-14 10:02:03 来源：量子位

共同促进AI音乐技术的普及和发展

近日，网易伏羲虚拟交互团队与西工大音频语音与语言处理研究组谢磊团队合作的两篇论文被ICASSP 2022接收，并受邀在本届大会上向学术与工业界进行研究报告。同时网易伏羲也将歌声合成方面的最新研究成果，向业界和学术界进行回馈，开源全球首个中文精标歌声合成数据集Opencpop，共同促进AI音乐技术的普及和发展，降低中小型企业、高校、个人的研究门槛。

ICASSP（International Conference on Acoustics, Speech and Signal Processing）即国际声学、语音与信号处理会议，是IEEE主办的全世界最大的，也是最全面的信号处理及其应用方面的顶级会议，在国际上享有盛誉并具有广泛的学术影响力，在全球具有极高的权威性。

网易伏羲入选的两篇论文“VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis”和“One-shot Voice Conversion For Style Transfer Based On Speaker Adaptation”，分别涉及歌声合成和语音转换等领域，体现了其在AI语音技术上的积累和创新。

歌声合成是指输入乐谱生成歌声音频的技术，与语音合成相比，歌声合成不仅需要根据乐谱内容进行正确发音，还要需要生成符合乐谱的标注（如音高、歌唱节奏等）的信息。由于歌唱的基频等声学特征的变化范围更广，而且存在颤音等歌唱技巧，建模歌声的难度会更大。论文中提出了一种完全端到端建模歌声合成的一种方法，简化歌声合成的训练流程，合成的歌声逼真生动。

语音转换是一个在不改变语音内容的前提下，改变语音中说话人音色的一项技术，是语音研究领域中热门的研究方向。网易伏羲所提出的是一种仅仅使用10秒左右的一句话，就可以复刻音色并且保持较高转换质量以及表现力的方法，大大降低了技术落地复杂度与成本，让更多用户与场景能够获得语音转换的能力。

实际上，这项技术与传统变声器是类似的，都可以做到在保留说话内容和情绪的同时，对音色进行变换；与传统变声器不同的是，语音转换技术可以实现到目标音色的精确转换，也不需要调节一系列参数，在提高转换质量的同时降低使用门槛。

目前，歌声合成和语音转换技术已经逐步落地应用，并在虚拟偶像、音乐创作、游戏配乐等场景中崭露出巨大的应用潜力。此前，利用相关技术网易伏羲已成功打造《醒来》、《月满景山》等多首受欢迎的AI原创歌曲，在网易云音乐上线就获得好评不断，被认为媲美专业歌手。不久前上线的一站式音乐创作平台网易天音小程序，也利用了相关技术，只需输入关键词，10秒就能搞定词曲编唱，生成一首歌曲。

与此同时，网易伏羲也将与多所高校联合开源全球首个中文精标歌声合成数据集Opencpop，和歌声合成方面的最新研究成果，回馈行业。歌声合成是一项极具挑战性的任务，音域覆盖，唱法建模等问题亟待解决，但由于缺少高质量的歌声合成数据，仅有少量能够自建数据的工业界玩家能够参与其中。为了推进AI音乐技术的普及与发展，全球首个高质量中文歌声合成数据集Opencpop应运而生，Open寓意开源、开放，C-pop则是指华语流行音乐。

数据集由100首纯中文歌曲构成，其中训练集包含95首，另外5首则为测试集。音频在录音棚环境录制，音频采样率44.1kHz，24位深度，有效时长超5.2小时。同时，网易伏羲还提供了人工精标的信息，包括MIDI、句子边界、音符边界、音素边界、连音信息、呼吸声、歌词等信息。数据集单句时长控制在8秒内，共3756句。为方便研究者们快速进行实验，还在原始数据外，提供了分句音频、训练集/测试集的抄本文件。

网易云音乐团队曾在过年期间使用该数据集，创作了AI单曲《攒钱回家过大年》，成为了该开源数据集的首批成果。Opencpop的诞生将降低中文歌声合成研究道路上的数据门槛，更多人的加入也将促进AI音乐技术的普及和发展。

网易伏羲