OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用
还帮助病患恢复了声音
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
OpenAI雪藏的新产品——语音合成引擎Voice Engine,终于被正式揭幕。
有了它,只需15秒的语音样本,就能克隆出一个人的声音,而且还能跨越语言!
APP版ChatGPT中的语音对话功能,也正是由这项技术所驱动。
![OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用](/wp-content/uploads/replace/6cfd59b4bc72aa4bfb39384600bb61bd.png)
效果如何?先来听段DEMO:
Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.
盐分也可以保持人体内的水分,确保其满足正常功能的需要。
【音频效果请移步公众号】
而OpenAI通告显示,他们在2022年底就已经开发出了这项技术,但出于安全考虑一直没有正式发布。
这次,OpenAI终于官宣了Voice Engine,并展示了小规模测试中的几个应用案例。
比如,一家非营利医疗机构就利用这项技术,为一名年轻的病人恢复了她的声音。
![OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用](/wp-content/uploads/replace/b3e255629c5fd50f367cf1ab2b1a5967.png)
另外值得一提的是,去年爆火的视频翻译软件HeyGen,采用的语音引擎也正是Voice Engine。
![OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用](/wp-content/uploads/replace/6e331ccef5d94cb1c6041ba5453032ef.png)
那么,这次OpenAI还展现了哪些效果,下面就来一睹为快。
用AI帮助病患恢复声音
首先是利用基础的语音合成能力,为儿童等不具备文字阅读能力的群体提供阅读辅助。
比如一家儿童教育技术公司,就一直在使用Voice Engine来给编写好的画外音内容配音。
DEMO中生成的大段内容,都是基于这样一段15秒的样本:
【音频效果请移步公众号】
然后,就可以合成相同音色的长段语音:
【音频效果请移步公众号】
![OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用](/wp-content/uploads/replace/83885b37ef5c56f89fc79cb495828753.png)
再来看看HeyGen中用到的的语音翻译技术,原始素材是一段英语的音频:
【音频效果请移步公众号】
它被用原始的音色,翻译成了普通话、法语、德语等多种语言。
忽略译文的质量,只听声音,中文的效果是这样的:
【音频效果请移步公众号】
音色保持的还算不错,不过腔调很明显一听就是外国人在说中文。
至于这到底是个bug还是个feature,就见仁见智了(手动狗头)。
![OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用](/wp-content/uploads/replace/fa56f21df66f94e47b11f23633bc2798.png)
此外,一款名为Livox的残障人士辅助应用,也利用Voice Engine为不能说话的残障人士“发出声音”——
在有了Voice Engine之后,TA们可以选择专属的真人音色,而不再是机械感明显的合成音,并且在各种语言之间都能保持音色的一致性。
不只是帮助残障人士拥有自己的声音,Voice Engine还可以为因疾病导致声音发生在重大改变的人群,恢复患病之前声音,只要有以前的声音样本就能实现。
一名年轻的患者因罹患血管性脑肿瘤,失去了流利讲话的能力,说话变成了这样:
【音频效果请移步公众号】
医生从她所在学校录制的视频中提取到了她患病前的声音作为样本,在Voice Engine的帮助下为她恢复了此前的音色。
【音频效果请移步公众号】
![OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用](/wp-content/uploads/replace/0eab83247efb1996e282dd281029dcef.png)
此次发布的案例,特别是为不便人士提供帮助的场景受到了不少好评,但也有网友对这项技术的滥用表达了担忧。
![OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用](/wp-content/uploads/replace/d22b06c94226a423b7b14b5304e43f41.png)
安全问题需要全社会共同关注
实际上,安全问题也是OpenAI迟迟未将这项技术公之于众的主要考量。
出于安全考虑,前面案例的开发者都经过了OpenAI的严格筛选,并且需要承诺遵守使用协议。
这些开发者被要求必须明确说明声音是合成的,并且设定了黑名单以防止克隆公众人物声音。
此外,OpenAI还向合成的声音中添加了水印,以便出现问题时可以进行检测监控,同时呼吁人们采取措施共同应对这一问题:
- 在银行等敏感信息的安全验证措施中逐步淘汰语音验证方式
- 探索AI时代下个人声音的保护措施
- 教育公众理解AI的局限性,并了解其被用于欺诈的可能
- 加速开发跟踪溯源技术,让人们能够清晰辨别出真人和AI
![OpenAI藏了1年多的技术公开!15秒素材克隆声音,HeyGen也在用](/wp-content/uploads/replace/f0ebaef86d5d6047f716571ea687bcdf.png)
参考链接:
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
- 几何朗兰兹猜想被解决!历时30年、证明论文达800余页,中国学者陈麟系主要作者2024-07-23
- 开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1,“新趋势已显而易见”2024-07-25
- GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费2024-07-24
- 英特尔CPU疯狂崩溃,测评大佬揭露工艺缺陷,官方回应:修复补丁下月上线2024-07-23