AI大模型加持，生成式搜索来了！

梦晨 2022-12-11 13:15:49 来源：量子位

海量信息自动提取，完整答案一秒直出

梦晨发自凹非寺
量子位 | 公众号 QbitAI

最近有两件事，让搜索引擎重回聚光灯下。

百度发布“文心百中”，用AI大模型技术驱动的产业级搜索系统。构建企业内部搜索引擎的人力成本减少90%以上，同时只需要极低数据。

几乎同一时间，OpenAI最新发布聊天机器人ChatGPT，网友发现用它来寻找问题的答案虽然有时会出错，但直接得到完整回答的感觉要比从搜索中再去挑选爽快多了。

搜索引擎这个经典技术，就要迎来一轮变革了吗？

想当年，搜索引擎是PC互联网时代的流量入口，绝对的王者。

进入移动互联网时代后，虽然不再是最受关注的焦点，但搜索也仍旧是高频刚需，逐渐融入人们的日常生活。

当人们重新把目光看向搜索引擎，也会注意到它这些年并没有停止进化。

搜索变了

过去一提到搜索，肯定离不开关键词。前几届世界杯时，人们更习惯于搜“世界杯直播地址”，关键词之间用空格隔开。

就好像把所有网页当成一个大文档，用类似Ctrl+F的方式去对关键词做匹配。

随着手机、移动互联网的普及，人们的需求也在变化，现在更倾向于提出一个问题，并期待搜索引擎能直接给出回答。

如搜索“世界杯直播在哪看？”，更口语化也更复杂，甚至一些时候就是语音转换出来的。

搜索引擎也在适应这种变化，给出的结果不再是单纯的页面排序。

针对一些问题，会给出对内容深入理解后的答案抽取。

有时会给出更直观、更容易跟着操作的视频内容。

甚至在理解需求的基础上出现配套的服务跳转。

这些变化看起来并不复杂，背后却要有很多技术做支撑。

在这里要重点讲一下百度今年亮相的两项新技术，“知一”和“千流”。

先看跨模态大模型知一，AI技术在搜索场景落地的代表。

简单来说，知一大模型可以从全网形态各异的资源中持续学习，无论是文本、图片、视频还是结构化信息都可以融会贯通。

打破了资源形态的界限，就更容易理解用户的搜索需求。

从技术层面讲，知一使用了百度文心大模型技术。大规模预训练技术提升模型性能，蒸馏压缩率高达99%的模型小型化技术以降低成本，得以在搜索场景全面应用。

据了解，目前知一在百度搜索的各场景中每天要进行上万亿次的推理。如此巨大的使用规模又带来新的问题，如何把满足需求的结果高效呈现给用户。

这就要提到新一代索引技术千流，负责把不同维度的信息进行智能有序的组织。

千流与之前的索引技术相比，主打多领域、多维度表达的立体栅格化索引。

如何理解栅格化？

在过去，搜索引擎为提高效率会把内容按质量横向分层。先从高质量内容开始检索，满足需求就可以及时返回结果，还未满足再进入下一层。

如今，在千流中又把质量最高的一批内容按领域垂直分层。质量分层+内容命中结合，一横一纵把内容切分成栅格按需检索，大大减少每次检索的计算量。

百度工程师透露，这样节省下的计算量也没有闲着，而是对内容进行精耕细作，用不同的算法从多维度提高索引的质量。

还有一个额外好处，在不同栅格之间可以应用个性化算法。就好比“一鱼多吃”，不同的部分使用不同的烹饪方法。

知一和千流配合起来，整个系统还会根据模型最新学习到的知识，进行实时动态调整，确保最优检索效果。最大程度避免无效计算，最终把满足需求的结果高效呈现给用户。

这些新技术，在实际业务中是否起到了效果呢？

答案或许可以从数据中找。

反馈驱动创新

9月份举办的万象·百度移动生态大会，百度指出，过去一年，百度搜索规模逆势增长17%。

最新的百度第三季度财报也显示，移动端搜索查询次数同比实现两位数的增长。

百度集团资深副总裁、百度移动生态事业群组（MEG）总经理何俊杰指出，其中的关键是“反馈驱动创新”。

一方面反馈来自智能搜索。百度搜索每天响应来自100多个国家、几十亿次的搜索请求。

另一方面则来自智能推荐。2022年第三季度百度App信息流内容分发量同比增长23%，其中的用户点赞、评论、分享也都是用户最直接的反馈。

用户的高频需求，驱动着AI技术变革。新技术又能激发新用户需求表达，两者构成“双轮驱动”，持续推动搜索进化。

比如虚拟人技术加持下，可以实现交互式对话，单纯的搜索之外又有了聊天、陪伴需求。

正如百度研究院在年初的十大科技趋势中所预测的，AIGC（AI Generated Content，人工智能生成内容）在今年大放异彩。

未来AIGC继续与搜索深度结合，还将带来“搜索即生成”甚至“搜索即创造”。

不会再有“抱歉，没有找到相关的网页，请检查您的输入是否正确”，而是用户点下搜索按钮的一瞬间，本不存在的内容由AI即时创造出来。

百度CEO李彦宏前段时间也说过：

随着技术的突破，AI作画、AI视频、甚至AI构建一个虚拟世界可能都会像手机拍照一样简单。

而一切技术的突破和创新，都离不开人才。

为了更好推动技术和算法创新、促进产学研交流、培养人才，百度举办了首届搜索技术创新挑战赛。

大赛提供30万元总奖金池、提供英伟达A100算力资源，更是有机会接触到百度海量搜索业务的脱敏数据。

本届大赛分为两个赛道：

搜索问答，旨在探索开放领域搜索场景。面对网页文档质量参差不齐、长短不一，问题答案分布零散、长度较长等问题，希望参赛者能进一步提升深度智能问答效果，给用户提供更好的搜索体验。

搜索模型推理优化，对于保障亿万用户流畅的搜索体验、控制算力成本开销至关重要。希望参赛者通过各种优化技术，挑战最优的模型推理性能。

大赛期间，百度还提供了丰富的相关课程和学习资料，搜索技术与GPU加速计算专家也将提供全程的技术辅导。

本次大赛对全社会开放，消息一出立即吸引了大量高校学生、企业团队或个人开发者，目前已有1500+队伍报名参加，成为搜索技术领域一次盛会。

大赛地址：
https://sti.baidu.com

搜索引擎百度

梦晨

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！指令遵循能力强了更容易越狱2024-07-24
陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet2024-07-21
国内开店卷不动，换上AI出海试试2024-07-17
OpenAI突发新模型，GPT-3.5退役，大模型成本2年骤降99%2024-07-19

AI大模型加持，生成式搜索来了！

搜索变了

反馈驱动创新

相关阅读

人人可用的AI大模型来了，“玩”TA还有奖金拿

自研芯片+自主AI框架，百度CTO王海峰携百度大脑6.0亮相

国外版莆田系医院要凉了：谷歌禁止未验证、没有科学根据的医疗广告

百度的司机，今天干了件轰动中外的大事

阿里百度旷视商汤京东，AI大厂怎么看产业实践？

百度复苏，市值一夜涨160亿；李彦宏：宁可创新冒险也不平庸保守

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬