谁是大模型架构新王者? |量子位智库

分析师 王昕祎

量子位智库 | 公众号 AI123All

在大模型研发的最核心架构层,一场全新的竞速正在低调展开。

大模型因Transformer架构而走向潮头,但现在随着落地进程深入,暴露不出诸多不足,比如推理成本,又比如算力瓶颈

为解决这些问题,Transformer自身在持续进化,FFN层、Attention机制改进成为近年研究热点。

与此同时,非Transformer架构频频登上行业头条,“后Transformer时代”的创新,已经在展开。

Transformer架构改进非Transformer架构突围,正共同构成大模型架构创新的“双轨竞速”

我们将从演进路径、核心创新以及行业实践等方面梳理这一轮架构革新的关键趋势

并从与多位行业一线专家的交流调研中提炼架构创新核心Insight

我们也相信,最核心的创新,往往拥有改写游戏规则的潜力

而在后Transformer时代,新范式、新弄潮儿,最后可能就出自这些架构创新活跃玩家中间

谁是大模型架构新王者? |量子位智库

2006年以来,我们可以将大模型架构演进历史分为4个阶段

前两个是前Transformer十年Transformer时代开启,在这两个阶段,深度学习被引入NLP,Transformer架构被首次提出并迅速成为主流范式。

谁是大模型架构新王者? |量子位智库

后两个阶段是:Transformer时代巅峰后Transformer时代。在这两个阶段,Transformer架构乘着Scaling Law的东风走向巅峰,又迅速见顶、引发诸多质疑与讨论,开启了后Transformer时代的探索。

谁是大模型架构新王者? |量子位智库

近年来行业内针对Transformer架构的诸多争议与弊端,主要从训练范式革新架构创新以及工程优化三个方向解决。

本报告主要探讨架构创新解决方式,这一方式主要分为Transformer改进非Transformer探索

谁是大模型架构新王者? |量子位智库

首先在Transformer改进这一方向上,主要的创新集中在Attention机制改进FFN层改进

谁是大模型架构新王者? |量子位智库

Attention机制是Transformer的灵魂所在,同时也是Transformer被诟病的问题根源,因此对Attention机制的改进是Transformer改进的重中之重,也是近年来绝对的研究热点

谁是大模型架构新王者? |量子位智库

Attention改进目前主要分为两大技术方向——稀疏Attention线性Attention

谁是大模型架构新王者? |量子位智库

具体的Transformer架构改进趋势点击文末的报告链接获取阅读。

近年来主流的非Transformer架构主要致力于在提供同等性能的同时控制算力开销,计算复杂度基本都为线性复杂度,新型RNN路线已成为这一方向的绝对主流,其他路线逐渐式微

谁是大模型架构新王者? |量子位智库

量子位智库还对近年主流的非Transformer架构行业热度进行了盘点,帮助读者判断各个非Transformer的工业和学术潜力

谁是大模型架构新王者? |量子位智库

具体的非Transformer架构突围情况点击文末的报告链接获取阅读。

另外,量子位智库还从与多位行业一线专家的交流调研中提炼出了大模型架构创新的核心Insight

对于近年来架构创新涌现,行业内有两种主流看法,一种认为这是力大飞砖、捅天花板派压缩智能密度、追求智能普惠派的路线之争。

谁是大模型架构新王者? |量子位智库

另一种看法是,这是技术迭代螺旋演进正常周期,这一周期在历史上已多次重复上演。

而我们目前或许正处在下一个Transformer诞生新技术突破出现前夜

谁是大模型架构新王者? |量子位智库

目前行业内的共识是,下一代主流架构要想替代Transformer需要实现三个参数规模Scaling突破惊险跳跃——10B20B100B

目前,绝大多数的架构创新改进仍然停留在10B阶段。

谁是大模型架构新王者? |量子位智库

而我们的终极问题是,下一个Transformer将从何处诞生,谁将为我们带来The Next Big Thing

为回答这一问题,我们对近年来在架构创新方面活跃的组织机构专家学者进行了一次Mapping

试图在新突破的前夜,提前捕捉到在“架构拐点”临界线上闪烁的创新火光

谁是大模型架构新王者? |量子位智库

完整报告和详细内容,请在下方链接获取。

报告下载链接:

https://jkhbjkhb.feishu.cn/wiki/W5D7wuDcbiPXDLkaRLQcAJpOn8f

版权所有,未经授权不得以任何形式转载及使用,违者必究。