< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

小冰超级自然语音技术发布！PK真人真假难辨，同时获独角兽轮融资

丰色 2021-07-12 14:44:57 来源：量子位

第九代小冰今年九月见

先来听一段歌：

你能听出来，这其实是小冰和真人共同演唱的吗？

蓝色为小冰，白色为真人，是不是非常难以分辨？

这背后就是小冰今天发布的全新超级自然语音技术。

该技术首次将人工智能语音自然度提升到与真实人类声音几乎无法分辨的程度。

也是全球首个全域通用的同类技术。

也就是说，除了上面的唱歌，说话、跟人交谈等场景都能进行高度拟人交互。

再来看两个demo。

下面是一段独白的音频。

其中只有一句来自人类，其余全都是由小冰说的。你能听出来真实人类说的是哪一句吗？

接下来，你会听到两个在直播间唠嗑的女生，这一次，“她俩”都不是人类。

这也是小冰官网上的一个实验，对话已经持续了88天，并且将一直持续下去，永不中断。

小冰表示，该实验近期将逐步拓展至第三方直播平台。

而目前，小冰团队的每个成员都已有人工智能替身，官方的演示视频的主持也是用的替身。

并且，小冰框架中的数百个不同人工智能原型主体，已全部完成这项超级自然语音技术的升级。

小冰框架

关于这个真假难辨的超级自然语音技术的细节目前还未透露。

但最新的第八代小冰，已经可以量产各种AI角色：去企鹅电竞做直播间助手、或者当销售卖卖化妆品、甚至当公众号小编……唱歌跳舞写文章样样精通。

生产这些角色背后的小冰框架，主要技术包括：

实现长程语音交互的全双工语音交互感官
提高小冰对于对话内容、领域和节奏的控制力的共感模型
融合了全双工语音交互、实时视觉与核心对话引擎的多模态交互感官
让小冰唱歌像真人一样的第四版人工智能歌曲DNN模型等等

而与同行相比，小冰框架最大的差异化在于，它是一个“session-oriented”的人工智能框架，框架中的各部分技术共同为“交互全程”目标服务，而不仅仅关注并优化局部。

比如，在核心对话引擎方面，技术的研发及迭代方向是为更有效地预测、保持并引导对话，而不是仅仅实现回应。

在语音方面，框架关注语音交互的质量与体验是否能支持长时间的混合交流，而不仅仅是将文本内容转为语音。

已完成A轮融资

与此同时，小冰也在今天宣布：已完成A轮融资，估值已达10亿美元。

本轮融资由高瓴领投，五源、Neumann、IDG、GGV纪源资本，以及上轮投资人北极光与网易跟投。

2014年问世的微软小冰，是全球承载交互量最大的完备人工智能框架之一，技术覆盖自然语言处理、计算机语音、计算机视觉及人工智能内容生成。

为了加速发展，小冰团队于2020年7月从微软独立。

并于去年11月完成了数亿元的Pre-A轮融资。

加上此次A轮的完成，也就是说只用一年时间，小冰的估值已经达到超独角兽规模。

最后，小冰表示，更多创新，九月年度发布会见。

那么，你对第九代小冰还有怎样的期待呢？

微软小冰语音合成技术

丰色

小冰超级自然语音技术发布！PK真人真假难辨，同时获独角兽轮融资

小冰框架

已完成A轮融资

相关阅读

仅4B大小可端侧部署！卡帕西预言的「认知模型」被国产做出来了

DIY自己的AI助理，萝莉御姐暖男霸道总裁全凭你定义，微软小冰团队发布新框架

微软小冰是怎样学会对话、唱歌和比喻？我们听三位首席科学家讲了讲背后的原理

对话李笛：智能助手要和主人有情感纽带，所以推出了阿凡达框架

微软小冰学会画画了，堪称复活近代画家，还能命题作画

热门文章

GPT-5.6首批实测来了！精准狙击Mythos

英特尔锐炫™ Pro B70 GPU亮相MPTS2026，共探大视听时代AI创作新范式

中国第一、全球第二！HiDream-O1-Image-1.5 登顶文生图榜单，超越谷歌、英伟达

3D创作迎来ChatGPT时刻：Meshy发布全球首个3D AI Agent

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付