大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

终端交互方式迎来变革

鱼羊 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

大模型重塑一切的浪潮,正在加速涌向移动应用。

不久前,高通刚在MWC上露了一手纯靠手机跑Stable Diffusion,15秒就能出图的骚操作:

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

3个月后的CVPR 2023上,参数加量到15亿,ControlNet也已在手机端闪亮登场,出图全程仅用了不到12秒:

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

更令人意想不到的速度是,高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar透露:

从技术角度来说,把这些10亿+参数大模型搬进手机,只需要不到一个月的时间

并且这还只是个开始。

在与量子位的交流中,Ziad认为:

大模型正在迅速重塑人机交互的方式。这会让移动应用的使用场景和使用方式发生翻天覆地的变化。

“大模型改变终端交互方式”

每一个看过《钢铁侠》的人,都很难不羡慕钢铁侠无所不能的助手贾维斯。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

尽管语音助手早已不是什么新鲜事物,但其现如今的形态多少还是离科幻电影中的智能助手有点差距。

而大模型,在Ziad看来,正是一个破局者。

大模型有能力真正重塑我们与应用交互的方式。

这种改变的一种具体的表现,就是all in one

也就是说,通过大模型加持下的数字助手这一个应用入口,人们就可以在手机这样的终端上操控一切:

通过自然语言指令,数字助手能自动帮你管理所有手机上的APP,完成办理银行业务、撰写电子邮件、制定旅程并订票等等各种操作。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

更为关键的是,这样的数字助手还能做到“私人订制”——

手机上的个性化数据,与能够理解文字、语音、图像、视频等多模态输入的大语言模型相结合,就能使数字助手更为精准地把握使用者的偏好。

并且这样的个性化体验,可以在不牺牲隐私的情况下实现。

从技术的角度来说,背后关键,其实就是如今把Stable Diffusion和ControlNet搬进手机的混合AI架构及作为支撑的量化、编译和硬件加速优化等AI技术。

混合AI,指的是终端和云端协同工作,在适当场景和时间下分配AI计算的工作负载,以更为高效地利用算力资源。

量化、编译和硬件加速优化,则是实现混合AI的关键AI技术,受到高通等终端AI厂商的长期关注和押注。

量化,是将更大的模型在精度不变的情况下,从浮点数转变成整数,节省计算时间;又或是在确保模型性能的同时,对其大小进行压缩,使之更容易部署在终端。

编译器是AI模型能够以最高性能和最低功耗高效运行的关键。AI编译器将输入的神经网络转化为可以在目标硬件上运行的代码,同时针对时延、性能和功耗进行优化。

硬件加速方面,以高通为例,其AI引擎中的关键核心Hexagon处理器,采用专用供电系统,支持微切片推理、INT4精度、Transformer网络加速等,能够在提供更高性能的同时,降低能耗和内存占用。

数据显示,Transformer加速大幅提升了生成式AI中充分使用的多头注意力机制的推理速度,在使用MobileBERT的特定用例中能带来4.35倍的AI性能提升。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

以Stable Diffusion为例,现在,高通的研究人员通过量化、编译和硬件加速优化,已经能够在搭载第二代骁龙8移动平台的手机上,以15秒20步推理的速度运行这一模型,生成出512×512像素的图片。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

△图源油管@TK Bay

这样一来,整个推理过程可以完全只靠手机实现——开着飞行模式不联网也能做到。

这类AI技术的部署并非易事,Ziad表示在相关软件、工具和硬件方面,高通准备了2-3年的时间。

但现在,当高通AI模型增效工具包、高通AI软件栈和高通AI引擎等软硬件工具齐备之后,正如前文所言,高通只花了不到一个月的时间,就实现了Stable Diffusion在骁龙平台上的高速运行。

也就是说,当基础技术准备就绪,包括大模型在内的生成式AI部署,就会更加容易,原本无法想象的“大模型部署到终端变成数字助手”,现在看来也并非不可能。

具体而言,在硬件上混合AI和软件AI技术的“双重”架构下,部署在手机等终端中的大模型,可以在终端侧根据用户习惯不断优化和更新用户画像,从而增强和打造定制化的生成式AI提示。这些提示会以终端侧为中心进行处理,只在必要时向云端分流任务。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

Ziad也进一步向我们解释说:

云不了解你,但终端设备了解你。如果模型可以在设备上进行微调,那它的功能将非常强大。

这也是突破大模型幻觉和记忆瓶颈的方式之一。高通可以做到通过一系列技术让大模型在不联网的情况下,借助终端设备数据长时间提供“专属”服务,同时也保护了用户隐私。

值得关注的是,Ziad还透露,在Stable Diffusion和ControlNet之外,基于高通全栈式的软件和硬件能力,研究人员正在将更多生成式AI模型迁移到手机之中,参数量也正在向百亿级别进发。

很快,你就会在终端上看到像LLaMA 7B/13B这样的模型。一切工具已经就绪,剩下的只是时间问题。

而且,虽然目前能在终端侧部署的只是“特定”的大模型,但随着技术的不断应用成熟,能部署的大模型数量、模态类型和部署形式,都会飞速进化。Ziad表示:

随着更多更好的AI算法被开源出来,我们也能更快地沿用这套软硬件技术将它们部署到终端侧,这其中就包括文生视频等各种多模态AI。

这样来看,未来用户将自己想用的大模型迁移到手机端,成为超级助手的核心,也并非不可能实现。

大模型正在重塑移动互联网

实际上,手机上的交互变革,还只是冰山一角。

早在生成式AI、大模型技术爆发之前,在移动互联网时代,AI需求已经呈现出向边缘设备转移的趋势。

正如Ziad的观点“终端侧AI是AI的未来”一样,随着以大模型为代表的生成式AI浪潮加速改变人机交互方式,更多终端侧如笔记本电脑、AR/VR、汽车和物联网终端等,也都会因为这场变革迎来重塑,甚至反过来加速AI规模化落地。

在这个过程中,不仅硬件会诞生新的衡量标准,软件上以大模型为核心的超级AI应用,更是有可能出现。

首先是硬件上,由于终端侧算力会成为延展生成式AI落地应用不可或缺的一部分,对于移动端芯片本身来说,AI处理能力也会日益凸显,甚至成为新的设计基准之一。

随着大模型变得更受欢迎、更多应用不断接入其能力,更多潜在的用户也会意识到大模型具备的优势,从而导致这类技术使用次数的迅猛上升。

但云端算力终究有限。Ziad认为:

随着AI计算需求的增加,云端算力必然无法承载如此庞大的计算量,从而导致单次查询成本急剧增加。

要解决这一问题,就应当让更多算力需求“外溢”到终端,依靠终端算力来缓解这一问题。

为了让更多大模型在终端就能处理甚至运行,从而降低调用成本,必然需要在确保用户体验的同时,提升移动端芯片处理AI的能力。

长此以往,AI处理能力会成为衡量硬件能力的benchmark,如同过去手机芯片比拼通用算力和ISP影像能力一样,成为整个移动端芯片的新“赛点”。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

谁能在设计移动端芯片时将之考虑进去,谁就更有可能取得这场大模型较量的话语权。

不止是硬件。软件上,通过改变人机交互的方式,大模型将重塑包括娱乐、内容创作、生产力在内的所有移动应用。

在这种情况下,越来越多的大模型、或者说生成式AI会参与其中,重塑不同移动端AI应用,而这些应用随着不同移动端算力和应用场景的差异,又会有所不同:

智能手机端,正如前文所述,这种重塑会率先出现在搜索和“智能助手”上。例如,只需要一句“安排5人会议”,大模型就能将以往需要用电子邮件反复确认的消息简化成一条指令,自动发送到其他人的日历上。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

而在笔记本电脑和PC上,最大的影响可能是工具生产效率的提升,如使用Office的方式不再需要是依靠打字输入内容,而是聊聊天就能完成自己想要写的报告、处理的PPT。

至于在汽车端,率先受到影响的可能会是数字助理和自动驾驶软件,像使用导航软件时不再需要点击目的地,而是直接告诉它“我想去XX,中途安排一个吃饭的地点,别太贵”,大模型就能读懂人话,自动规划汽车路线。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

又或是XR更吸引人的应用重塑,在于3D内容创作和沉浸式体验;物联网的改变,则可能发生在运营效率和客户支持应用上……

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

当然,这并不意味着AI小模型的“消失”。大模型出现之前,图像应用已经成为移动端AI落地最显著的领域,包括AI修图、暗景视频拍摄去噪算法等在内已有不少成熟的AI应用。

Ziad认为,生成式AI的出现并不会替代已有AI应用,甚至在其刺激下,CPU、GPU、AI处理器的升级进化,会进一步提升去噪等传统AI算法的能力。

同时,移动端应用之间并非“孤岛”。无论智能手机、电脑、汽车、物联网还是XR,一旦大模型促使某个真正的“杀手级”应用出现,势必也会在各个移动端之间部署。

因此在这波大模型浪潮下,如何让开发的应用快速适配到不同移动端,实现“一次开发多端互联”,也是不可或缺的技术趋势。

总而言之,从硬件的芯片设计、软件的应用程序,到应用的整体开发方式,大模型都在给移动端、甚至是整个移动互联网带来改变。

那么,高通在这场大模型变革浪潮中会扮演什么样的角色?

Ziad认为,高通将会领导技术前沿,成为引领这场变革的核心:

在终端侧,无论是从硬件还是软件而言,高通都处在领先地位。不仅仅是手机,在电脑、AR、VR、汽车、物联网等领域都是如此。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

而这份信心的来源,是高通长期的AI技术积累,“一切工具都已经就绪”。

无论是硬件上的Hexagon AI处理器、让生成式AI在云端和终端之间“无缝”应用的混合AI,还是软件上所具备的量化、压缩、神经网络架构搜索(NAS)和编译等技术,高通都已经具备了将大模型随时应用到终端侧的技术储备。

一旦成功将大模型部署到某个终端侧,如智能手机,就能通过高通AI软件栈将之迅速部署到其他所有端侧设备上,进一步加速大模型的规模化落地。

像10亿参数Stable Diffusion模型,在部署到手机上之后,也已经实现在搭载骁龙计算平台的笔记本上运行。

大模型加速涌向移动端!ControlNet手机出图只需12秒,高通AI掌门人:LLaMA也只是时间问题

面对这波大模型浪潮下生成式AI带来的机遇和挑战,不少科技公司都在寻找应对之策,以探求如何跟进其中的技术。

至少在终端侧,高通已经以技术玩家的身份,为行业率先打了个样。

One More Thing

在这波生成式AI热潮下,大模型是否可能带来新的如微信一样的“杀手级”应用?高通如何看待这个观点?

Ziad回答称,可能会,而且这类“杀手级”应用,更可能率先在中国出现:

如果按发展趋势来看的话,中国确实可能会更快出现这类应用。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关阅读