王砚峰揭秘搜狗AI技术体系:自然交互在左,知识计算在右,核心是语言丨MEET2020

郭一璞 整理自 MEET2020智能未来大会
量子位 报道 | 公众号 QbitAI

从虚拟主播、录音笔到AI同传,搜狗这家公司落地了各种各样的AI应用,并且直接让用户有所感知。

这些看起来神奇的应用背后,搜狗是怎么想的、又是怎么做的呢?

在MEET 2020智能未来大会上,搜狗AI交互事业部总经理王砚峰,分享了搜狗的技术路线图与AI实践。

我们根据其演讲速记,整理了核心观点,希望从搜狗的AI落地实践中,你也能看见AI落地过程中的新价值、新边界和新格局。

关于MEET2020智能未来大会:量子位主办,现场20多位行业大咖分享,1000多名行业观众参与,线上有近百万从业者通过直播参与观看和互动,包括新华社在内的数十家主流媒体报道,活动整体线上总曝光量超过千万。

要点

1.当传统行业面临增长瓶颈,通过AI赋能可以带来生产力变革和突破,最终转化成行业价值和用户价值。

2.硬件有两个发展趋势,一方面朝着更便携的方式发展,另一方面硬件的IO更加智能。

3.以语言作为核心,左边是自然交互,右边是知识计算,在自然交互中做语音、图像,在知识计算当中做问答、翻译、对话,这就是整个搜狗的AI技术体系。

4.AI同传现已不再翻车,虽然赶不上顶级人类同传,但能服务更多场合。

5.针对用户的问题,机器实时请求全网的结果,整理之后再来回答,这一定是未来搜索的形态。

王砚峰演讲分享全文

注:量子位在不改变原意的基础上进行了编辑整理

各位现场的媒体和行业朋友,大家下午好。现在由我来给大家分享一下搜狗在2019年AI方面从产品到技术的思考,以及我们所做的突破。

从录音笔看AI硬件趋势

搜狗录音笔,是我们去年3月份发布的一款产品,这款产品从3月份发布至今,线上平台不管是单品销量还是销售额都是第一名。很多的媒体朋友都跟我说,现在他们已经标配了搜狗录音笔,如果缺少了这个工具,记录和写作的效率就会受到影响。

随着手机行业的兴起,录音笔行业是在慢慢萎缩的,每年都是下降的趋势,右图的黑线是去年电商访客数据。但是搜狗录音笔上线后,录音笔的搜索量反而增长了。

这就说明,当我们面向一个产生增长瓶颈的传统行业的时候,AI技术可以赋能到传统行业,带来生产力的变革和突破,最终转化成行业价值和用户价值

而且,搜狗录音笔在京东已经有很不错的好评和复购率了。当一个硬件产品在像京东这样的平台上产生比较不错的复购率的时候,能在一定程度上代表这个产品在整个网民、用户群体和行业内的口碑。

我们不仅自己做了一个产品,还希望能够把我们的能力赋能到录音笔行业当中,帮助整个行业一起往前走。

今年8月份,我们连同索尼录音笔、爱国者、纽曼等品牌,成立了一个AI创新联盟,把我们的AI能力提供给录音笔厂商,实现他们产品的AI化,包括帮他们实现好的用户体验和增值服务。

现在大家看到的一些新的爱国者录音笔、索尼录音笔,出厂的时候会标配搜狗听写服务,这个服务就是搜狗从技术到产品方面的AI沉淀。

搜狗为什么要做AI录音笔这个产品呢?这后面其实是我们对于整个AI硬件的思考。

硬件大概有两个发展趋势,第一个发展趋势就是朝着更便携的方式发展。以前说硬件是电脑,后来有了Pad,后来有了手机、手表、耳机,向着越来越便携、灵活的方式发展。

另外一个发展趋势就是硬件的IO更加智能。以前我们最早用电脑的时候,只能用键盘和鼠标;而现在用手机的时候,很多时候就已经在用语音了。

而且不管是录音笔还是耳机,未来的交互方式更多都是语音,所以本身它会朝着更IO的方向发展,尤其未来它会接管人的感官,甚至有一些生理入侵。其实已经有一些行业大咖身体里植入了一些芯片,让芯片给他更好的赋能。

总结下来,其实我们搜狗做AI硬件的定位是三点:

第一点,我们希望我们的AI硬件赋能于人,能够去提升人的能力,提升人的效率,提升人能力的边界。

第二点,我们希望我们的AI硬件做得更便捷、小巧,方便每个人携带,而不是做一个在家里的音箱、电视,这不是搜狗AI的发展方向。

第三点,我们的AI硬件以语言为产品的核心,我们希望通过AI的能力在语言方面对用户、对网民做全方位的赋能。

搜狗AI技术体系

怎么解读语言AI这件事呢?首先大家应该都会了解语言其实是人跟人之间沟通的载体,是知识承载的载体,是信息承载的载体,所以语言在社会的核心当中起到了绝对重要的作用,是信息的推动者,信息的发展者。人类社会自从有了语言,就发生了巨大的变革。

所以,语言是人工智能的一颗明珠,我们一直把语言当成我们最核心的AI发展方向和突破点。我们解决了视觉问题、解决了语音问题,但是围绕着语言,包括今天NLP的问题仍然没有得到突破,所以我们希望能够围绕语言去尽快推动产品的突破,推动技术的进步,所以搜狗断言,我们希望能够在语言方面做一个行业的创新者,去做AI语言技术行业的引领者。

我们做AI的时候,为什么以语言为核心呢?因为输入法和搜索这两个搜狗的传统产品,其实都是围绕自然语言,输入法是为了让用户有更好的词库、更好的自动输入的能力,让大家的打字效率得到提升。搜索就是围绕语言这件事做更好的信息获取。

所以这是套以语言为核心的AI体系。

在这个AI体系下,我们分成了两个方向,一个是自然交互,自然交互解决的是人与机器之间的沟通能力;另一个是知识计算,知识计算解决的是,我怎么通过语言的能力从大量的信息当中做知识的挖掘、做对话、做问答。

最终会形成两条产品线,第一条产品线就是AI硬件,围绕自然交互和语言为核心,做各种硬件形态的探索。第二条产品线,我们会围绕知识计算做各种垂直问答,比如搜狗明医,未来搜狗搜索也会提升知识服务能力。

所以最终这两件事串起来就是智能助理。搜狗希望以语言AI为核心,做用户在各个场景下的智能助理,比如翻译是出国场景下的助理,录音笔是记录信息场景下的助理,而问答是获取信息场景下的助理。

我们希望做到语言AI技术的引领者和创新者。以语言作为核心,左边是自然交互,右边是知识计算,在自然交互中做语音、图像,在知识计算当中做问答、翻译、对话,这就是整个搜狗的AI技术体系。

搜狗的语音识别

除了录音笔,搜狗目前在技术跟产品上还有很多值得骄傲的点。

第一,就是语音识别。搜狗在语音识别方面是相对做得比较早的,搜狗输入法今年单日语音输入调用次数峰值超过了8亿次,是目前规模最大的语音输入法。

但是光有语音输入,我们觉得不够,因为语音输入的场景是人朝着机器去说一段信息,然后机器把信息变成文字发送给对方。而在录音笔的场景下是语音的记录,而且记录过程中仅有输入这么简单的一件事。

像大家经常面临的中英文混合的问题,我们已经解决了。除了单纯的语音识别,我们先做了说话人的识别,让机器区分这句话是谁说的,这在录音笔场景下是非常关键的能力。同时很多场景中都有一些噪音,我们今年做了一件事,不止用阵列,而是用深度学习来降噪,把人的声音跟背景音做效果很好的切分。

采访中有很多背景噪声和其他人的声音,所以我们听采访的时候听不清楚。我们提出了ClairVoice降噪算法,通过这个算法的过滤,噪声去掉了,原本的声音变得清晰了。大家看电视新闻的时候也会感觉到,很多记者采访的场景是噪声很大的,比如大风天气的室外、飞机场等,通过AI降噪技术,观众其实已经听不到噪声了。

搜狗的语音合成

语音合成方面,随着我们在深度学习上的努力,通过我们国际领先的基于WaveNet、WaveRNN的语音合成技术,我们可以做到更好的效果。

我们用罗辑思维录音做了语音合成。对比以前的语音合成,这种语音合成的效果已经更接近本人了,它已经可以在很多场景下使用了。

但是我们会觉得光有语音合成不够,因为语音合成目前仍然做不到情感丰富、抑扬顿挫。

所以我们做了一个技术叫语音变声,比如要给一个大IP、名人做合成,我们把这个大IP的声音采集下来建立一个模型,形成一个声音的皮肤,背后会有一个音频的表演者,这个表演者是带有感情的,是抑扬顿挫的,然后我们把这个大IP的声音皮肤贴到这段音频上,就能让这个大IP的声音开始情感丰富的说话。

语音变声会有很多应用场景,比如很多父母自己没有时间给家里的小孩讲故事,我们就希望能够把父母的声音皮肤刻画出来,未来他的声音皮肤直接贴到“凯叔讲故事”的音频上,就能够实现用爸爸妈妈的声音很有情感的给小朋友讲一段故事。

比如,我们把凯叔的声音,用王小川14分钟的语音数据做了训练,形成了这样一个“作品”其实小川平时讲故事的情感肯定不像机器合成出来的这么饱满,包括这14分钟的语音数据听起来非常的平,因此我们在这个场景下会对父母们有很大的帮助。

我们前段时间做了一个里程碑式的尝试。

此前,语音合成一向很难放到付费音频的领域来使用,因为付费音频听众对音频质量有要求,其实是一个音频表演,交付的是一个音频内容,听众要为这件事买单,所以目前所有的付费平台都不敢用机器合成的方式进行付费音频的生产。

就在前段时间我们在得到平台上跟梁宁合作,用转述师的声音套上梁宁的声音皮肤来合成音频。

这样出来的效果既保留了表演的部分,同时还带了梁宁的音色和发音习惯,这种方法解决了很多大咖、IP音频生产中的痛点,也是全球第一次在付费音频领域做语音合成的尝试。之后我们会和更多的IP合作,也会看到更多这样的内容。

搜狗分身

同时,我们觉得有语言不够,因为未来人机交互的界面一定有语音又有视频,所以我们做了分身技术,去年年底,我们联合新华社推出了AI合成主播,为了让虚拟分身的效果变得更加逼真,到现在为止我们经历了四代技术演变。

今年年初的时候,虚拟主播的面部表情和动作还是相对比较僵硬的,后来我们做的效果就非常的逼真了,如果我不说这是机器合成的话,可能很多朋友分辨不出来这个到底是机器做的还是真人。

我们发布了第四代合成分身技术以后,还可以做更多语种,比如我们做了第一个俄语的合成主播。

另外,这项技术也在很多的行业落地,比如说我们帮平安做了AI客服。

因为平安有一个需求,在做贷款审核的时候需要一个面对面的客服来进行审核,这个过程是通过网络完成的。所以我们帮平安做了一个虚拟客服的形象,这个客服早就已经上岗了。

目前,我们的AI合成主播在互联网法院、新华社、央视,包括在平安已经产生了实际的应用。

搜狗AI翻译

搜狗为什么做翻译?

因为搜狗在做输入法、做搜索的时候,会遇到跨语言信息表达和获取的问题。

现在,华语是全球第一大语言,剩下的语言使用人数相对比例更少、有更长尾的分布,语言的不同会让信息和文化的交流产生隔阂。所以我们希望搜狗能通过一个好的翻译能力,帮助用户做更好的信息交流和内容获取。

我们的翻译到目前为止取得了好几次行业内的突破。

首先,在2016年11月份,第三次乌镇互联网大会上,我们首发了搜狗同传,这也是世界上第一次把机器同传用到了真实的场景下,并且替代人工同传。

不久后,我们又在2017年1月份上线了英文搜索,其实是国内首个跨语言检索的搜索引擎,大家搜中文就可以得到英文的内容,还可以帮大家翻译成中文的结果,尤其是在学术、医疗的领域,很多优质资源都在外网,会对大家有很大的帮助。

同年10月份,我们又发布了搜狗AI翻译机,也是同类产品中首个能够离线翻译的。因为我们出国经常碰到没有网络的情况,我们是首个能够把离线翻译做到实用级水平的。

后来我们又在2018年的时候推出了英文到中文的翻译,因为当时国内做同传都是中文到英文,但实际上在座的各位看一个中文演讲者的时候,其实不需要翻译内容,更多的是对英文的翻译。所以我们从更落地、更实用的方向,做了国内第一个从英文到中文的同传。

目前为止,我们在翻译上,尤其是同传上取得了相对很实用的效果。比如说今年我们支持了大概100场跨语言的会议,像苹果的发布会,我们直接给几个网站加了同传进行直播。

其实一年前,大家在很多活动现场看到的AI同传会变成车祸现场,也有一些翻译效果很不好的情况。但现在,大家看到这个翻译的时候,AI同传已经真的开始进入到可用的地步了。

当然我们现在的效果还没法跟顶级的人类同传相比,但是我们会用在更多的场合,因为很多场合是没有好的人类同传资源的,但是有了机器同传,就会有更好的现场部署,帮助与会者完成信息的交流。

搜狗问答

最后说一下问答,搜狗为什么做问答?

因为搜狗在做搜索,搜索的未来一定是问答。

这种交互界面一定不会像现在这样,输入关键词,然后会有几条结果。未来,面向各种智能设备,搜索都会变成直接能够获得答案的交互方式

我们目前的问答,尤其面向智能音箱、语音助手这样的产品,一定是通过一问一答的方式来解决用户问题的。

我们2016年底跟《一站到底》进行的合作,智能机器人和现场的人类PK回答问题,其中所有的问题都是知识类的问答。

现在搜狗就是在整合全网的知识,能够更好地满足用户对于知识的需求,所以我们把它叫做知识计算。我们的这个能力跟IBM Watson不一样,IBM Watson是在固定的数据集上进行回答,我们的机器人的实时请求全网的结果,整理之后再来回答主持人的问题,这一定是未来搜索的形态。

总结下来,我们在语言AI上有各种技术突破,也有各种产品的布局。在知识计算上我们做搜索、做医疗、做各种辅助问答,在自然交互方面我们有输入法、做了同传、做录音笔,做合成主播。

未来所有的这些技术都会汇总成我刚才说的在各个场景下的智能助理,帮助用户提升自己的边界,帮助用户提升自己的能力,让自己变得更强大,这就是我今天介绍的,谢谢大家。

版权所有,未经授权不得以任何形式转载及使用,违者必究。