< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

我们为最“in”大模型，找到了另外一条解题思路

十三 2023-08-19 10:52:11 来源：量子位

最Intel的创新解决方案

金磊发自凹非寺

量子位 | 公众号 QbitAI

“in”，是近年来兴起的一个网络用语，通常是in fashion的简称，意指走在潮流最前沿。

随着GPT的爆火，生成式AI正式进入全球科技舞台的中央，大模型也已经成为当下最“in”的话题。

用“百模大战”来形容当下大模型的火热程度一点也不夸张。据目前市场已公布的大模型产品来看，10亿参数规模以上的大模型产品已多达80个。

一些企业更是将大模型视为人工智能的核心，认为这很可能是引领第四次工业革命的颠覆性创新技术，将推动各个行业的变革。

不过大模型已不再是你以为的“大力出奇迹”，它的发展正在迎来一些微妙的变化——

Smaller is Better。

这并非是无中生有，此话正是出自HuggingFace首席布道师Julien Simon。

但纵观大模型（尤其是大语言模型，以下简称为：LLM）的发展，参数体量逐渐庞大似乎成为了一种大趋势，动辄便是千亿甚至万亿的量级：

△图源：Information is Beautiful（数据截至2023年7月27日）

那么Simon如此“背道而驰”的观点，又是从何而来？

我们都知道模型的参数体量越大，它们从大量非结构化数据中学习的表现通常就会越出众，但随之而来的一个老大难问题便是需要大量的计算能力。

这也就是为什么现在人们谈及大模型时，往往都绕不开“大算力”的原因。

（甚至连OpenAI的CEO也在为算力发愁……）

因此，Simon给出了新的解法，让大模型“瘦身”（Smaller）的同时还能提高效率（Better）。

并且这并非空口无凭，有测试数据为证：

从结果上来看，测试的各种大模型有的被“瘦身”到了先前的一半，但效率反倒提了上来。

更直观一点的，我们可以看下文本回答的效果：

△大模型“瘦身”后自然语言对话效果

这便是当下大模型很“in”的一种打开方式。

站在现在这个时间节点，我们也想以《最“in”大模型》专栏的形式，提供给大家两个更in的解题思路：inside intel和in practice。以此来对大模型这个科技圈最in的顶流做一次全新角度的解析和展望。

最Inside Intel的创新解决方案

不仅仅是在这一波大模型热潮，自深度学习爆火以来，似乎GPU相比其它硬件来说更受AI圈的青睐。

究其原因，无外乎以下几点：

并行计算能力：GPU可以同时进行大模型训练和推理，加速计算过程。
加速训练速度：在传统CPU上进行大型模型训练非常耗时，使用GPU可以缩短训练时间，加速模型研究和开发。
适应深度学习计算：GPU高度并行的架构在深度学习的计算中表现出色，特别适合处理神经网络的计算需求。

但开发人员往往会小瞧CPU这个“潜力股”。

没错，让大模型发展发生微妙变化的解法之一，正是CPU！

例如在上文Simon的例子中，他先是用SmoothQuant这种训练后量化的方法来为LLM“瘦身”：将LLM通常进行训练的16位浮点参数（又名 FP16/BF16）替换为8位整数，以便更容易执行任务，和减少需要的内存。

而后Simon选择实验的CPU，正是英特尔的第四代至强®️ 可扩展处理器，其可在AI推理方面，为大模型的落地部署提供更易获取、应用门槛更低和性价比更高的平台。

但是，如果你还以为英特尔只有CPU能来跑AI的话，那就又错了。

就在上个月，英特尔新鲜出炉了AI专用加速器——Habana®️ Gaudi®️2，专为训练LLM而构建，并为数据中心大规模扩展而设计，同时为深度学习推理和训练工作负载提供更具性价比的解决方案。

重点来了！

在MLPerf最新报告中的多种训练和推理基准测试中，与其他面向大规模生成式AI和LLM的产品相比，Gaudi®️2拥有卓越的性能，甚至可以表现得比GPU更“专业”。

据悉，预计今年9月Gaudi®️2便可支持FP8，在帮助用户提升运营效率的同时，即将迎来更优的性价比：

客观地说，相较于主流大模型硬件平台，CPU虽更容易被获取和部署，但其提供的解法仍会更倾向于那些要求部署和应用门槛尽可能低，同时性价比较高的推理场景；但英特尔已发布的Gaudi®️2和即将登场的其他加速芯片，例如数据中心GPU，则有望实现进一步的补全，进而形成CPU可在主打通用计算时兼顾AI加速，GPU提供通用加速支持，即兼顾科学计算和AI加速，而Gaudi®️ 则能一心一意专攻深度学习加速的一整套异构硬件产品布局，这种布局的意义，就在于会提供更加多样化、更具性价比的解决方案。

就更别提英特尔还会为多种异构硬件产品搭配可以进行统一编程、轻松迁移并能跨异构调度算力资源的oneAPI软件工具包了。

英特尔未来在AI或整个企业计算领域的异构多芯布局，已经在脚踏实地地走向现实。其对CPU和AI加速器等硬件的定向优化，也让大模型出现了更多的可能性。

最in practice的落地实战指南

当然，事实上相比于现有的主流大模型硬件平台，大家对英特尔硬件在大模型上的优化还缺乏了解。本期专栏就将直接上干货，为你手把手带来最in practice的实战指南。

如上文中提到的利用第四代至强®️ 可扩展处理器对LLM进行训练后量化的实验，在本期专栏的第一篇文章中，甚至还直接附上了代码：

△启用增强型 SmoothQuant 的样例代码

是不是有一种“开箱即用”的味道了？

同时，本期专栏也非常与时俱进地会以ChatGLM、BLOOMZ、PyTorch minGPT主流大模型为案例，step by step教你实战优化之道。

当然，面对实践中可能会涉及的更加复杂的问题，我们也不仅局限于提供硬件加速指南，而是会考虑到更多维度，例如LLM如何与大数据平台进行对接，以及如何更好地进行数据安全或隐私方面的保护。

例如系列第二篇文章中提到的：将至强CPU平台内置的可信执行环境（Trusted Execution Environment，TEE）类技术——SGX用于为LLM提供隐私和数据保护创新解决方案，就可以更好地保障数据在LLM模型训练和推理过程中的保密性。

最后一点，就像我们前文提到的，英特尔加速AI已经不再只有CPU这一个选项，所以Gaudi®️2虽然刚发布不久，但在本次专栏中也会露面，而且同样是落在实战层面，敬请期待。

专栏中涉及CPU的实战分享，更多是希望帮到真正要在业务中落地应用LLM的最终用户，毕竟想要在更为广泛的行业中普及AI应用，如能充分利用部署更为广泛的、基于CPU的IT基础设施和架构，是更有利于达成降本增效的目标的。

期待这些分享能帮助更多部署了英特尔®️平台、对LLM跃跃欲试的用户，能在第一时间开展相关的探索和实践，让大模型Go to vertical + in practice。

小结

基于行业观察、实战案例，我们也会从中迸发出更多大模型加速的灵感。

如大模型“瘦身”提高效率，定然还会有更多更加优化的解决方案。英特尔为此专门开设了GitHub问题反馈，希望与您共同探讨优化之道：https://github.com/intel/neural-compressor/issues

总而言之，英特尔采用多种处理器和加速器，并配以统一且易用的软件工具来实现优化，已然是为大模型的发展开辟了一条崭新的路径。

这背后的意义，正如HuggingFace的Simon所述：

一家独大，从来不是一件好事。

言外之意很明显了：多元化的蓬勃发展才是长久之道。

本次的《最“in”大模型》专栏，也许仅仅是一个通向多元化未来的开始。

欢迎关注专栏，也非常期待可以和大家深入探讨一波。

CPU Intel 大模型英特尔

十三

豆包搜索，走出了豆包2026-07-28
北京说Agent已经能造世界，杭州却说它是刚发明的电灯泡2026-07-25
妙啊！无人机直连卫星传Token2026-07-18
1.5B开源通用VLA模型，冲进具身智能第一梯队2026-07-20

我们为最“in”大模型，找到了另外一条解题思路

最Inside Intel的创新解决方案

最in practice的落地实战指南

小结

相关阅读

Scaling Law不是唯一视角！清华刘知远团队提出大模型“密度定律”：模型能力密度100天翻番

字节大模型关键8人首次曝光！中科大北航清华校友，还透露下一步

当CPU巨头英特尔盯上GPU：4个月6次出手，从游戏到数据中心市场全面点燃

500行代码打造AI搜索引擎！贾扬清周末项目登顶GitHub热榜

全栈智能才能兑现AI红利？

OpenAI开启推理算力新Scaling Law，AI PC和CPU的机会来了

热门文章

3万小时触觉数据补齐具身智能“手感”！新智具身&复旦报告三连发

陶哲轩在菲尔兹颁奖现场：数学迎来百年新危机

Kimi K3、Unlimited OCR包揽全球前二，中国开源模型持续刷屏海外

DeepSeek被曝主动叫停了第二轮融资签约

智能体走向终端，个人AI时代正在到来