大模型加速涌向移动端！ControlNet手机出图只需12秒，高通AI掌门人：LLaMA也只是时间问题

萧箫 2023-07-13 19:47:17 来源：量子位

终端交互方式迎来变革

鱼羊萧箫发自凹非寺
量子位 | 公众号 QbitAI

大模型重塑一切的浪潮，正在加速涌向移动应用。

不久前，高通刚在MWC上露了一手纯靠手机跑Stable Diffusion，15秒就能出图的骚操作：

大模型加速涌向移动端！ControlNet手机出图只需12秒，高通AI掌门人：LLaMA也只是时间问题

3个月后的CVPR 2023上，参数加量到15亿，ControlNet也已在手机端闪亮登场，出图全程仅用了不到12秒：

更令人意想不到的速度是，高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar透露：

从技术角度来说，把这些10亿+参数大模型搬进手机，只需要不到一个月的时间。

并且这还只是个开始。

在与量子位的交流中，Ziad认为：

大模型正在迅速重塑人机交互的方式。这会让移动应用的使用场景和使用方式发生翻天覆地的变化。

“大模型改变终端交互方式”

每一个看过《钢铁侠》的人，都很难不羡慕钢铁侠无所不能的助手贾维斯。

尽管语音助手早已不是什么新鲜事物，但其现如今的形态多少还是离科幻电影中的智能助手有点差距。

而大模型，在Ziad看来，正是一个破局者。

大模型有能力真正重塑我们与应用交互的方式。

这种改变的一种具体的表现，就是all in one。

也就是说，通过大模型加持下的数字助手这一个应用入口，人们就可以在手机这样的终端上操控一切：

通过自然语言指令，数字助手能自动帮你管理所有手机上的APP，完成办理银行业务、撰写电子邮件、制定旅程并订票等等各种操作。

更为关键的是，这样的数字助手还能做到“私人订制”——

手机上的个性化数据，与能够理解文字、语音、图像、视频等多模态输入的大语言模型相结合，就能使数字助手更为精准地把握使用者的偏好。

并且这样的个性化体验，可以在不牺牲隐私的情况下实现。

从技术的角度来说，背后关键，其实就是如今把Stable Diffusion和ControlNet搬进手机的混合AI架构及作为支撑的量化、编译和硬件加速优化等AI技术。

混合AI，指的是终端和云端协同工作，在适当场景和时间下分配AI计算的工作负载，以更为高效地利用算力资源。

量化、编译和硬件加速优化，则是实现混合AI的关键AI技术，受到高通等终端AI厂商的长期关注和押注。

量化，是将更大的模型在精度不变的情况下，从浮点数转变成整数，节省计算时间；又或是在确保模型性能的同时，对其大小进行压缩，使之更容易部署在终端。

编译器是AI模型能够以最高性能和最低功耗高效运行的关键。AI编译器将输入的神经网络转化为可以在目标硬件上运行的代码，同时针对时延、性能和功耗进行优化。

硬件加速方面，以高通为例，其AI引擎中的关键核心Hexagon处理器，采用专用供电系统，支持微切片推理、INT4精度、Transformer网络加速等，能够在提供更高性能的同时，降低能耗和内存占用。

数据显示，Transformer加速大幅提升了生成式AI中充分使用的多头注意力机制的推理速度，在使用MobileBERT的特定用例中能带来4.35倍的AI性能提升。

以Stable Diffusion为例，现在，高通的研究人员通过量化、编译和硬件加速优化，已经能够在搭载第二代骁龙8移动平台的手机上，以15秒20步推理的速度运行这一模型，生成出512×512像素的图片。

△图源油管@TK Bay

这样一来，整个推理过程可以完全只靠手机实现——开着飞行模式不联网也能做到。

这类AI技术的部署并非易事，Ziad表示在相关软件、工具和硬件方面，高通准备了2-3年的时间。

但现在，当高通AI模型增效工具包、高通AI软件栈和高通AI引擎等软硬件工具齐备之后，正如前文所言，高通只花了不到一个月的时间，就实现了Stable Diffusion在骁龙平台上的高速运行。

也就是说，当基础技术准备就绪，包括大模型在内的生成式AI部署，就会更加容易，原本无法想象的“大模型部署到终端变成数字助手”，现在看来也并非不可能。

具体而言，在硬件上混合AI和软件AI技术的“双重”架构下，部署在手机等终端中的大模型，可以在终端侧根据用户习惯不断优化和更新用户画像，从而增强和打造定制化的生成式AI提示。这些提示会以终端侧为中心进行处理，只在必要时向云端分流任务。

Ziad也进一步向我们解释说：

云不了解你，但终端设备了解你。如果模型可以在设备上进行微调，那它的功能将非常强大。

这也是突破大模型幻觉和记忆瓶颈的方式之一。高通可以做到通过一系列技术让大模型在不联网的情况下，借助终端设备数据长时间提供“专属”服务，同时也保护了用户隐私。

值得关注的是，Ziad还透露，在Stable Diffusion和ControlNet之外，基于高通全栈式的软件和硬件能力，研究人员正在将更多生成式AI模型迁移到手机之中，参数量也正在向百亿级别进发。

很快，你就会在终端上看到像LLaMA 7B/13B这样的模型。一切工具已经就绪，剩下的只是时间问题。

而且，虽然目前能在终端侧部署的只是“特定”的大模型，但随着技术的不断应用成熟，能部署的大模型数量、模态类型和部署形式，都会飞速进化。Ziad表示：

随着更多更好的AI算法被开源出来，我们也能更快地沿用这套软硬件技术将它们部署到终端侧，这其中就包括文生视频等各种多模态AI。

这样来看，未来用户将自己想用的大模型迁移到手机端，成为超级助手的核心，也并非不可能实现。

大模型正在重塑移动互联网

实际上，手机上的交互变革，还只是冰山一角。

早在生成式AI、大模型技术爆发之前，在移动互联网时代，AI需求已经呈现出向边缘设备转移的趋势。

正如Ziad的观点“终端侧AI是AI的未来”一样，随着以大模型为代表的生成式AI浪潮加速改变人机交互方式，更多终端侧如笔记本电脑、AR/VR、汽车和物联网终端等，也都会因为这场变革迎来重塑，甚至反过来加速AI规模化落地。

在这个过程中，不仅硬件会诞生新的衡量标准，软件上以大模型为核心的超级AI应用，更是有可能出现。

首先是硬件上，由于终端侧算力会成为延展生成式AI落地应用不可或缺的一部分，对于移动端芯片本身来说，AI处理能力也会日益凸显，甚至成为新的设计基准之一。

随着大模型变得更受欢迎、更多应用不断接入其能力，更多潜在的用户也会意识到大模型具备的优势，从而导致这类技术使用次数的迅猛上升。

但云端算力终究有限。Ziad认为：

随着AI计算需求的增加，云端算力必然无法承载如此庞大的计算量，从而导致单次查询成本急剧增加。

要解决这一问题，就应当让更多算力需求“外溢”到终端，依靠终端算力来缓解这一问题。

为了让更多大模型在终端就能处理甚至运行，从而降低调用成本，必然需要在确保用户体验的同时，提升移动端芯片处理AI的能力。

长此以往，AI处理能力会成为衡量硬件能力的benchmark，如同过去手机芯片比拼通用算力和ISP影像能力一样，成为整个移动端芯片的新“赛点”。

谁能在设计移动端芯片时将之考虑进去，谁就更有可能取得这场大模型较量的话语权。

不止是硬件。软件上，通过改变人机交互的方式，大模型将重塑包括娱乐、内容创作、生产力在内的所有移动应用。

在这种情况下，越来越多的大模型、或者说生成式AI会参与其中，重塑不同移动端AI应用，而这些应用随着不同移动端算力和应用场景的差异，又会有所不同：

在智能手机端，正如前文所述，这种重塑会率先出现在搜索和“智能助手”上。例如，只需要一句“安排5人会议”，大模型就能将以往需要用电子邮件反复确认的消息简化成一条指令，自动发送到其他人的日历上。

而在笔记本电脑和PC上，最大的影响可能是工具生产效率的提升，如使用Office的方式不再需要是依靠打字输入内容，而是聊聊天就能完成自己想要写的报告、处理的PPT。

至于在汽车端，率先受到影响的可能会是数字助理和自动驾驶软件，像使用导航软件时不再需要点击目的地，而是直接告诉它“我想去XX，中途安排一个吃饭的地点，别太贵”，大模型就能读懂人话，自动规划汽车路线。

又或是XR更吸引人的应用重塑，在于3D内容创作和沉浸式体验；物联网的改变，则可能发生在运营效率和客户支持应用上……

当然，这并不意味着AI小模型的“消失”。大模型出现之前，图像应用已经成为移动端AI落地最显著的领域，包括AI修图、暗景视频拍摄去噪算法等在内已有不少成熟的AI应用。

Ziad认为，生成式AI的出现并不会替代已有AI应用，甚至在其刺激下，CPU、GPU、AI处理器的升级进化，会进一步提升去噪等传统AI算法的能力。

同时，移动端应用之间并非“孤岛”。无论智能手机、电脑、汽车、物联网还是XR，一旦大模型促使某个真正的“杀手级”应用出现，势必也会在各个移动端之间部署。

因此在这波大模型浪潮下，如何让开发的应用快速适配到不同移动端，实现“一次开发多端互联”，也是不可或缺的技术趋势。

总而言之，从硬件的芯片设计、软件的应用程序，到应用的整体开发方式，大模型都在给移动端、甚至是整个移动互联网带来改变。

那么，高通在这场大模型变革浪潮中会扮演什么样的角色？

Ziad认为，高通将会领导技术前沿，成为引领这场变革的核心：

在终端侧，无论是从硬件还是软件而言，高通都处在领先地位。不仅仅是手机，在电脑、AR、VR、汽车、物联网等领域都是如此。

而这份信心的来源，是高通长期的AI技术积累，“一切工具都已经就绪”。

无论是硬件上的Hexagon AI处理器、让生成式AI在云端和终端之间“无缝”应用的混合AI，还是软件上所具备的量化、压缩、神经网络架构搜索（NAS）和编译等技术，高通都已经具备了将大模型随时应用到终端侧的技术储备。

一旦成功将大模型部署到某个终端侧，如智能手机，就能通过高通AI软件栈将之迅速部署到其他所有端侧设备上，进一步加速大模型的规模化落地。

像10亿参数Stable Diffusion模型，在部署到手机上之后，也已经实现在搭载骁龙计算平台的笔记本上运行。

面对这波大模型浪潮下生成式AI带来的机遇和挑战，不少科技公司都在寻找应对之策，以探求如何跟进其中的技术。

至少在终端侧，高通已经以技术玩家的身份，为行业率先打了个样。

One More Thing

在这波生成式AI热潮下，大模型是否可能带来新的如微信一样的“杀手级”应用？高通如何看待这个观点？

Ziad回答称，可能会，而且这类“杀手级”应用，更可能率先在中国出现：

如果按发展趋势来看的话，中国确实可能会更快出现这类应用。

大模型移动端高通

萧箫

大模型加速涌向移动端！ControlNet手机出图只需12秒，高通AI掌门人：LLaMA也只是时间问题

“大模型改变终端交互方式”

大模型正在重塑移动互联网

One More Thing

相关阅读

王小川大模型25天再升级！13B版本开源免费可商用，3090即可部署

保护大模型应用安全，现在不需要拿性能做代价了 | 最“in”大模型

高通5G开始挤牙膏？骁龙865+发布，性能小幅提升，一加听了要笑，魅族看了会流泪

GPT-4不服被Bard反超：最新模型已入场

高通CEO：元宇宙是互联网的未来，我们对它的理解只是冰山一角

阿里7B多模态文档理解大模型拿下新SOTA｜开源

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬