有内味了!MIT文本转语音神器,少量数据集还原角色声音 | 在线免费

十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI

文本转语音,又出了个神器。

这个工具来自MIT,并且还是在线、免费,可以用它来生成各种字符的44.1 kHz声音。

这些声音是使用多种音频合成算法定制的深层神经网络实时生成的。

最惊艳的是,这个工具只需要少量的文本数据,还能保留文本所表达出来的韵律,可以说是相当的“声情并茂”了。

使用起来非常简单,主页中的“Source”提供了几部电影或动画,“Character”提供了里面的一些角色。

只需要在文本框中输入不多于140字符的文本,点击生成,就能很快输出对应角色、带有韵律的语音。

文本转语音,有内味儿了

效果怎么样?我们先来看看几个例子。

首先是《Portal 2》中的GLaDOS的声音。

The Enrichment Center would like to announce a new employee initiative (inishutive) of forced voluntary participation. If any Aperture Science employee would like to opt out of this new voluntary testing program, please remember, science rhymes with compliance.

接下来是《My Little Pony》中Fluttershy的声音。

As we speak I am contacting (cawnt tacting) my secret network of spies across the USA (you ess ay) and your IP (iypea) is being traced right now so you better prepare for the storm, maggot. The storm that wipes out the pathetic (puh thetic) little thing you call your life.

最后,是来自《Doctor Who》中Tenth Doctor的声音。

Harry tells me you’re quite the science whiz. You know, I’m something of a scientist myself.

嗯,确实有内味儿了!

好玩,但可以更完美

当然,我们也可以从一些例子中听出来,出来的声音并不是完美的,作者对此也做出了解释。

为什么有些句子听起来像机器人或者声音比较嘶哑?

这个工具生成音频文件的采样率为44100 Hz,而大多数深度学习文本到语音实现使用的是传统采样率,为16000 Hz。

这样处理的一个优点就是产生的音频质量比较高,但是代价也是明显的。

使用一个外部程序(例如 Audacity)来降低音频的采样率,这样就可以让声音听着不那么像机器人。

为什么有些字发音不正确?

这是因为和标准数据集相比,字符数据集非常小,标准音频通常有超过40小时的对话,包含许多不同的词汇。

而这个工具的字符数据集,每个字符只有30至120分钟的对话。

当然,作者也表示,由于英语拼写的不一致,即使是人类也无法100% 准确地说出不熟悉的单词。其中一些问题将来可能会得到解决。

传送门

工具地址:
https://fifteen.ai/app

版权所有,未经授权不得以任何形式转载及使用,违者必究。