用脑机接口去“搜索一下”,是种什么体验? | CCF C³-03@搜狗
CCF C³的第三期活动
金磊 梦晨 发自 凹非寺
量子位 报道 | 公众号 QbitAI
讲真,再熟悉不过的搜索引擎,正影响着我们的思考方式。
正如TCP/IP协议之父、图灵奖获得者温顿·瑟夫(Vinton Cerf)认为:
搜索引擎,已倾向于成为人类基本记忆的替代品。
怎么理解?
简单来说,就是很多情况下,我们不再记忆所需的信息本身,而是记住能把它们搜索出来的方法和关键词。
而随着我们对搜索引擎的越发依赖,对其性能也提出了更多要求。
那么站在当下,未来的搜索,应该是怎样的呢?
未来的搜索方式:脑机接口
提到脑机接口,或许你会想到马斯克,想到猴子用“意念”打游戏。
但它也能还跟我们常用的“搜索”联系起来?
是的,而且二者的结合,还是可能“加强人类自身思考能力”的那种。
这就是由清华大学计算机系党委书记刘奕群教授所做的极具未来感的研究。
先来简单了解一下脑机接口的原理:
脑机接口通过设备采集大脑中的信号,而后对信号进行特征提取、转译,变成计算机可以理解的“人脑命令”,最后通过脑机接口的一些应用,实现对外部世界的操控。
那它与搜索的结合点,又是什么呢?当前的搜索过程大致是这样的:
用户产生了“搜索信息”的需求,然后通常会用“关键词”的形式在引擎中进行搜索;而后搜索引擎会反馈给用户结果,用户看到之后便会产生相应的感受,也就是“是否满足了自己想要的答案”。
这是传统搜索的一个流程,但却存在三个问题。
首先,是查询。
简单来讲,用户搜索需求是非常丰富的,但查询本身是受到表现形式的影响,换言之,绝大部分人还是依赖关键词形式的查询。
其次,是搜索结果的满意度。
虽然在查询过后,搜索引擎会呈现很多结果,但这种形式是非常间接的。
具体而言,用户可能会去点击结果,或者在结果页面上停留一段时间,但这种反馈毫无疑问,是带有非常强的歧义性。
最后,是上下文环境。
用户在搜索过程中,是具备完整的上下文环境,包括用户自身的信息、时空位置,而对于这些信息,搜索引擎在很多情况下是没有利用起来的。
而通过脑机接口的能力,能做到的事情要比传统搜索更多。
例如在需求方面,脑机接口能够给搜索引擎,除了关键词之外的更多信息。刘奕群教授表示:
我们想到什么,就能提供给搜索引擎,如此一来,所提供的信息是非常精准的。
而且不仅仅是查询的需求内容,还有可能是用户当时的情感信息、周围环境对用户产生影响的信息等等。
更重要的是,这种提供查询需求的方式还是近乎实时的,因此也更具真实性。
简单来讲,脑机接口+搜索引擎,要做的工作就是:
通过脑机,拥有用户的情感,感知用户的情绪,便可以建立良好的心智模型,提供用户在搜索关键词之外更加精准的用户信息需求描述,更好的提升搜索的体验。
当然,这是一件具备未来感的事情,那是否有点“天方夜谭”、可否实现?
刘奕群教授认为,应当先来思考一下当前通过脑机接口可以实现的功能。
例如现在可以脑机接口以高精准度控制鼠标的移动、可以把人要说的话“解译”出来、高端的思考和认识转变成文字,以及通过功能性核磁共振等辅助工具,来研究信息需求产生的过程。
基于此,刘奕群教授提出了对“脑机接口搜索”所面临的三大挑战。
- 第一个难点,是需要对搜索的交互范式进行重新定义。
- 人脑思考方式非常复杂,很难做到聚精会神地思考一个问题,如何提炼相关性的上下文,还能过滤掉无关的信息,是另外一个难点。
- 第三点,就是在提升用户个性化体验的同时,如何做到保护用户的隐私。
未来的搜索算法:深度语义学习
而除了“搜索方式”之外,未来的“搜索算法”,又该是怎样的?
举一个例子,“Future and Options”在普通语境下是“未来与选择”的意思,在金融语境下却是“期货与期权”。
搜索引擎如何处理这种问题?
搜狗CEO王小川认为,未来的搜索将从关键词搜索走向深度语义搜索。
使用稠密向量表示的检索模型,深度语义特征匹配排序以及自动提取搜索答案,实现深度检索、深度排序和深度展现。
深度语义搜索虽好,但对于互联网海量的数据和纷繁复杂的用户意图,在应用中还面临着三大技术挑战。
检索挑战:语义漂移
人的语言表达是很随意的,如果搜索“炒股的炒字是怎么来的”,既可能匹配到与炒股一词的由来相关的结果,但还可能匹配到股票是怎么被炒起来的。
这就是深度语义学习在检索层面的一大挑战“语义漂移”,使得检索出的结果与用户实际查询意图不完全相符。
排序挑战:结构丢失
传统倒排索引方式搜索结果的排序有人工参与,可以对整篇文档的结构清晰度、所属站点的权威性等特征进行提取和打分。
而使用深度语言模型对检索结果提取特征有一定的字数限制,难以覆盖到整篇文档。这会造成排序依据的“结构丢失”。
展现挑战:价值稀疏
现在的搜索引擎给出一些结果条目,需要用户主动在其中浏览挑选。而据统计有1/4的搜索请求都是问题式,搜索结果不能直接给出答案是结果展现的“价值稀疏”。
搜狗针对这些问题,采用将传统倒排索引的结果和深度语义稠密向量搜索的结果结合起来的办法。
进一步的,将两路结果的特征相互交叉融合。对稠密向量检索结果计算内容匹配特征,对倒排检索结果计算语义特征。
最终达到超过BERT的效果。
除了技术挑战之外,深度语义搜索还面临三个工程问题。
- 两种搜索结果结合的办法增大了运行成本,如何做到低系统开销、可复用。
- 如何做到高性能、在高并发计算时如何保障低延迟。
- 面对峰值压力如何做到高可靠性。
如何解决这些问题就是搜狗今后要探索的道路。
CCF C³:连接学界与产业界
以上精彩内容,全部出自CCF C³的第三期活动,主题为“深度语义学习在搜索的应用”,由搜狗承办。
C³活动是由中国计算机学会CCF CTO Club发起的,旨在联结企业CTO及高级技术人才和资深学者,每次以一个技术话题为核心,走进一家技术领先企业。
第一站走进京东,主题为“智能客服”,清华大学的黄民烈、刘知远教授与京东技术副总裁何晓冬共同探讨了下一代智能对话系统。
第二站走进小米,主题为“智能家居”,小米副总裁崔宝秋、小米AI实验室主任王斌与清华大学徐迎庆教授分享了AIoT的历史与智能家居的发展方向。
本次第三站走进搜狗报告结束后举办了承办单位旗帜交接仪式,揭晓了下一次活动承办单位是百度,具体时间是5月14日晚上6:30-9:30。
参考链接:
[1]https://dl.acm.org/doi/fullHtml/10.1145/2563407
[2]https://mp.weixin.qq.com/s/zrOR42Gm4xRZASAWik1DOQ
- Bengio精简了传统RNN,性能可与Transformer媲美2024-10-04
- OpenAI重磅发布Canvas:跟ChatGPT一起写作编程2024-10-04
- AI手机与AIPC要安全,为什么离不开这款服务器CPU?2024-09-30
- 纯国产万卡集群炼出万亿参数大模型,被这家央企率先做到了!2024-10-01