科研团队如何探索商业化落地?这家语音AI公司用十年科学试验打了样
科研团队跟风既无趣也无前途
白交 发自 凹非寺
量子位 | 公众号 QbitAI
现在,大家都在谈硬科技创新、产学研转化。
AI作为最引人注目的赛道之一,通常有两种发展模式:
- 互联网及传统行业巨头,利用自身业务与资源优势,通过AI降本增效、拓展新应用。
- 科学家创业,从零探索实验室技术的商业化路径,打造全新的产品、方案及商业模式。
AI虽然前景广阔,但技术和市场却是一个逐渐发展成熟的过程。
不可否认的是,在深度学习驱动的第三轮AI浪潮之初,有一些科研人员从实验室冒险出走,先后成立了旷视、云知声、商汤、云从、地平线、寒武纪等,陆续发展成为AI独角兽,当中有企业已成功上市……
科学家创业,有着他们独特的技术优势,也面临着特有的商业化挑战。
具备扎实的技术功底只是必要的基础条件,商业化洞察和执行力很关键,某种程度上决定了企业发展的大方向。
以语音赛道为例,这当中也有这样一家公司案例值得关注。
云知声,十年时间,在智能语音赛道上发展为估值近百亿的AI独角兽,如今商业模式比较清晰,聚焦于智慧物联与智慧医疗两大业务。
创业之初,团队80%均为中科大、中科院的AI博士,他们抱负很高,打算用自己所学,推动整个产业发展。
甚至于,直接将这种理想抱负体现在公司名称上——
云知声,从语音技术切入,在云端构建感知和认知智能,推动产业升级。
如今站在云知声十年发展节点上,以它为样本,聊聊科研团队如何以科学态度探索到AI技术商业化落地发展之路。
云知声,理工男的文艺构想
十年前,深度学习在视觉评测中初露锋芒,在语音识别技术上也刚刚取得突破,第三次AI产业浪潮开始悄然滋长。
少部分科研人员看到了当中技术的商业价值决定创业。
中科院出身梁家恩博士就是其中之一。
当时他在语音技术的研究积累已经超过十年,在产业应用上也有五年以上的实战经验。与他同行的,基本上都是中科大、中科院AI专业的博士。
或许正是因为团队深厚的科研和理工背景,“云知声”这样略有诗意的公司名,直接让大众摸不着头脑。
如今回想起来,梁家恩博士笑了笑说,当时有人觉得很奇怪,有人觉得这个词有些文艺范。
但其实这个生造的词,蕴含着他们创始团队由点及面对技术及产业的思考和洞察。
云,未来智能一定在云端上实现集大成;知,代表了从感知到认知的智能体系;声,则是以这个团队最擅长的语音技术作为切入点。
这些论断放在现在看似平常,但放在当时这种思考也未免太大胆了些。
不由让外界怀疑他们构想的局是否太宏大了,但也有资本市场看到当中的决心和勇气,磐谷创投成为了他们的天使投资人。
很快,他们一系列实际举措打消了外界的疑虑。
2012年9月底,创办不到3个月,梁家恩团队就搭建了个开放语音云平台,并开始支持搜狗语音助手发布。
2012年12月底,经过3个月的攻关,云知声深度学习语音识别技术上线,加上线上数据迭代,直接将识别率从80%出头提升至90%以上,放在当时已经属于国内一流水平,成为国内最早的深度学习商业化应用之一。
值得一提的是,背后的算力,是靠两张游戏显卡支撑。
梁家恩透露,当时虽然没有上百台服务器的资源实力,就靠淘宝上购买两张英伟达显卡,攒出了云知声第一台超算。
云知声的这条深度学习升级之路,正是其核心技术团队追求卓越的实战精神体现。
随后,在2013年初,云知声发布了一个微信语音输入插件,一周即登顶APP Store免费工具排行榜首位。日激活量接近4万,使用该插件的用户很快接近100万规模。
与此同时,在锤子发布会和LeTV超级电视上的亮相,引发业内和各方资本关注。
创业不到一年,云知声就获得了启明创投领投的亿元级A轮融资。
这时,云知声在业内已经小有名气。但在梁家恩博士看来,他们只是打了个技术基础。
简言之,就是AI三驾马车基本成型:云平台积累海量真实数据,基于GPU的超算能力,还有深度学习技术。
而与行业伙伴合作、推出微信语音输入插件,则属于是完成技术应用的初步验证。
但要想实现创业初心——推动语音产业的发展,光打好技术基础还不够。
按照科学思维,还需要商业化求证和举一反三。
这时候,云知声已经想好了下一步的路。
云端芯:全栈AI能力的构建
云端芯。
2014年年初,云知声官宣了这一战略。
三个字拆解来看,云端智能解决业务深层问题;终端应对各类应用场景的差异化需求;物联网专用芯片,则支持规模化应用。
如今已被公认为行业热词,但放在当时,却属于业内首次。
而启发云知声提出这一前瞻性战略的,正是基于开放云平台的应用数据和用户反馈的综合分析。
一方面,开放云平台运行期间,有开发者反馈能否用语音解决车载导航、病历录入、英语学习等场景。
另一方面,实际应用中也发现,LeTV超级电视语音助手与搜狗智能手机语音助手之间的活跃度有十倍以上的差异。
以手机语音助手为例,如果没有充足的资源去宣传和推广,那么大概就只有2%的活跃度。但如果在智能电视,不需要任何推广,全年基本上保持接近40%的活跃度。
对于梁家恩团队来说,这是一个关键的发现:
智慧物联也许是个更刚需的智能交互应用场景。
但物联网并不是一个新鲜的概念,1999年就提出来了;行业巨头IBM,在2008年又提出了智慧地球,但也始终停留在概念阶段,可见挑战之大。
对云知声而言,既是机遇也是挑战。顶层构想有了,在具体实践上又该如何破局呢?
云端芯,简单来说,就是构建软硬件一体的全栈技术与服务能力。
全栈?这时候质疑声音又来了:大公司巨头都不一定能完成的能力,却成为他们正在实践的目标。
面对质疑,梁家恩用他们在A轮融资发布会上引述道德经的名言 “图难于其易,为大于其细”做了回应——从解决实际问题出发,各个击破。
最先发力的技术,就是远场降噪与识别技术,这是智慧家居中一个关键技术问题。
通过声学结构设计和麦克风阵列降噪技术,解决3-5米范围内的目标语音提取和背景噪声消除问题,实现真实场景下的语音交互,从而使得感知技术能力得到更大范围拓展,在更多真实应用场景下达到实用效果。
与此同时,为更好支持对话式交互的体验,云知声还发布了语用计算平台。
简单来说,就是能结合上下文语境去做语义理解,跟用户进行可快速配置的多轮对话,从而更顺畅完成复杂场景的人机交互任务。加上后续拓展的知识图谱技术,实现了从感知到认知的技术能力跨越,能解决更加复杂的业务深层问题。
接着就是硬件能力。
他们遇到了史上最大的挑战之一,智能芯片。
一则团队内部没有相应的硬件人才,二则芯片研发成本高昂,一旦失败对创业公司来说无异于釜底抽薪。
这时候云知声严谨求证的科研作风再一次凸显,经过讨论他们决定不要一上来就做芯片。
而是先以通用芯片模组切入,验证他的商业应用价值和技术可行性。
经过两年打磨,以通用ARM芯片为基础,支持远场降噪和识别的语音交互模组在格力高端空调上出货。
当时在业内取得积极反响,也获得了2016年的智能家居AWE“艾普兰核心奖”。梁家恩回忆称,客户非常满意,但通用模组“价格贵”,成为了智能语音交互模组走向主流机型的主要障碍,芯片自研也就成为题中之义。
2016年,云知声就正式启动了芯片的研发。
2018年4月,中兴事件爆发一个月后,云知声一次流片成功,发布了第一款AI语音芯片——雨燕,让业界眼前一亮,该芯片后来获得了“吴文俊人工智能科技进步奖”,当时很多公司才开始意识到 AI 边缘计算芯片的重要性。
除了“云端芯”全栈技术能力拓展,云知声还实现了底层超算平台的全面升级。
在启动芯片研发同一年(2016),当时还有个行业大事件:AlphaGo击败李世石震惊全球,也将深度学习和AI技术推到了全民关注的风口浪尖。
这件事被梁家恩看在眼里,不只是因为深度增强学习算法的精妙只是其一,但当时最让他好奇的点,是它如何通过调度上千块GPU去做如此高复杂度的深度增强学习计算的?
放在国内,当时没有任何系统可以干成这件事。
为了寻找答案,梁家恩二话不说就买机票前往硅谷调研。
在硅谷巨头超算专家的启发和支持下,经过近一年的研发和优化,实现了支持上千块GPU同时调度的大规模机器学习的超算平台,称为Atlas(希腊神话中的大力神)。
云知声以Atlas超算平台为共享基础支撑,加速了云知声AI技术体系的演进速度,迅速拓展端到端语音合成、人脸识别、机器翻译等技术能力,并取得语音合成BC2020评测第一、机器翻译WMT2018评测前三等行业前列成绩。
直到2018年,BERT、GPT-3等大规模预训练语言模型的出现,超算平台的价值才得到行业的充分认识。而云知声则依托Atlas超算平台和“云端芯”战略,形成了全栈AI技术及产品化能力,内部有着更为形象的表述:AI六边形能力:
一是算法方面,确保对主流技术架构的密切跟进,通过全栈AI技术打造整体智能解决方案,并通过工程优化降低部署和交付成本;
二是数据方面,以大规模训练为基础,解决小样本的快速迁移问题,并建立高效真实数据迭代闭环,提升模型精准度及应用适配能力。
以全栈AI技术及产品化能力为依托,云知声能高效调度研发资源,在更多场景中快速探索和验证行业应用,包括车载、医疗、教育等领域。
云端芯从战略到现实,不光意味着他们对技术产业的预判再次成功,也更为云知声下一步深入行业、迭代发展奠定了基础。
U+X:约纵连横,深耕两大业务
在全栈AI能力构建和应用验证后,在云知声内部已经达成新的共识:
要真正深入行业了解业务Know-how,少不了与行业玩家联合互补,跟他们共同打造出真正解决问题、创造价值的整体智能解决方案。
这时候,也就来到了云知声新的战略阶段:U+X。
U,云知声(Unisound);X,即为行业。
他们将诸多前期应用场景探索的成果,整合为两大商业化路径——智慧物联和智慧医疗。
智慧物联方面,实现从单品智能(通过芯片模组升级)到整体智能的演进,并采取与房地产、交通、养老、酒店等行业合作,提供软硬一体的整体智能体验。
智慧医疗方面,从最初的语音电子病历、语音导医分诊等效率工具,到以医疗知识图谱为基础,提供病历质控、医保控费及诊疗决策支持等医疗整体解决方案。
2019年推出的智能病历质控系统,还荣获当时北京科技突破一等奖。
如今回过头来看,一个是互联网大厂、家电、房地产商等多领域公司争相竞逐的赛道。
另一个则是正快速发展、并始终被外界看好的赛道,巨头如微软,仍在去年花197亿美元买下AI医疗的门票——完成对语音巨头Nuance的收购。
但对于云知声来说,并非偶然的选择,也并非跟随行业热门。
反倒是根据自身实践和推演顺其自然的选择,被后来的市场所验证。
梁家恩博士向量子位解释,云知声对智慧物联和智慧医疗业务的布局,刚好代表着语音产业两大发展方向,也充分检验底层技术的能力和实用性:
广度和深度。
广度方面如智慧物联,触及尽可能多的真实用户和应用场景,在多场景、多用户中,拓展感知技术和智能交互的应用边界。
深度方面如智慧医疗,则是以行业知识图谱为核心,挑选最具挑战性、知识体系最强大的应用场景,深入解决医疗质量和效率提升的问题,同时拓展认知技术能力的应用边界。
一横一纵,不同路径发展方式,但目的只有一个,解决真实应用问题,推动产业发展,同时,也拓展和检验云知声从感知到认知的底层智能技术能力。
技术创新公司,从产学研技术创新开始,到商业模式实现、成熟。
云知声给出的周期时间是十年。
而在未来,横纵融合,除了技术产品本身的持续迭代和完善外,也将激发出更多服务与生态出来。
梁家恩提到了未来新方向的一些设想。
比如在服务方面,智慧物联与智慧医疗的交叉——智慧养老服务;
还有像生态方面,以云芯一体化平台为基础,将拓展出更多智能应用生态,如:音视频分析、辅助决策、辅助创作等;依靠自身在智慧物联、智慧医疗上的行业实战经验,与行业合作伙伴互补拓展,也存在很大的空间。
十年的云知声,提供了一个样本
从公司起名和大胆构想,到务实严谨的商业探索和快速迭代验证,聚焦行业真实应用问题解决,而非盲目刷榜、炫技以吸引资本眼球。
从前期客户沉淀积累,到敏锐的嗅觉确认方向——智慧物联。
云知声的每一步似乎都踩在点子上,但又比行业风向快了那么一步:
比如AI三驾马车、云端芯战略、智能芯片,到如今巨头相争的智慧医疗和智慧物联。
梁家恩表示,科研团队跟风既无趣也无前途,可能正是基于团队谋定而后动,在实践中不断思考,超越算法能力边界,构建软硬一体和全栈AI能力,认准的事情即使再困难也坚决去做,才造就了今天云知声全栈AI技术及产品化能力以及纵横两大商业化路径。
无疑,这是一次独特的科技商业化探索的试验。
而像云知声这样的案例,并非孤例。
随着硬科技创新、产学研转化越来越响亮,更多的科研团队投身于商业价值转化,但不论方向如何、技术落地情况如何,面对的一些难题却是共通的。
比如,实验室技术该如何转化成规模化、普及化的实用技术?企业又该如何助力产业升级,走一条更长更远的路?
十年的云知声,只是提供了一个样本。
- NeurIPS神仙打架:李飞飞180页PPT谈视觉智能,Bengio同OpenAI员工吵架,何恺明谈AI宿命论2024-12-13
- 「AI定义汽车」新拐点已至!小米孟二利:我们有三个工作需要做好2024-12-13
- 什么?程序员礼盒还自带大模型彩蛋,碰一下就可触发2024-12-09
- “我把4500多篇NeurIPS 2024论文,做成了AI搜索”2024-12-10