Scaling Laws尺度定律科普报告|量子位智库

分析师 马邦

量子位智库 | 公众号 AI123All

都在说Scaling Laws,但什么是Scaling Laws?

Scaling Laws,尺度定律,OpenAI在2020年提出,并在如今迅速成为AI行业共识的产业规律。尺度定律不仅影响着Transformer架构的大模型的发展,也影响着人工智能相关行业的发展。作为当前AI行业公认的大模型第一性原理,其揭示的有关模型规模、数据量和计算资源之间的关系,更是为企业提供了可预见性的前进方向。

为了更系统科普阐释尺度定律,量子位智库发布最新研究报告:《Scaling Laws尺度定律,如何影响AI研发和产业落地》。(下载地址后附)

Scaling Laws尺度定律科普报告|量子位智库

报告中,量子位智库将从尺度定律是什么尺度定律如何影响AI研发涌现能力尺度定律如何影响AI落地以及尺度定律的局限性五个方向出发,立体解读尺度定律。
报告涵盖:

  • 全面解析尺度定律
  • 分析对AI研发的影响
  • 探讨涌现能力及涌现能力的代表模型
  • 产业落地分析
  • 对尺度定律局限性思考

尺度定律的意义

尺度定律指的是,以Transformer架构为研究目标的模型的性能和模型的大小,数据集的大小以及用于训练的计算量之间存在幂律关系,并且这些关系在7个数量级的范围内表现出稳定的趋势。

Scaling Laws尺度定律科普报告|量子位智库

自论文提出以来,引起了大模型开发行业的高度关注,各大厂家纷纷参考尺度定律,扩大模型和数据规模来提升模型性能。

尺度定律如何影响AI研发

OpenAI的GPT系列

GPT系列从GPT-2的15亿参数到GPT-3的1750亿参数,GPT-4的参数虽未具体公布,但据声称达到了1.76万亿。

数据集方面,GPT-4采用了更多的训练样本以及合成数据,使得模型在理解未知数据和数学准确度上有了显著提升。

GPT-4在计算上使用了超算级别的计算资源以支持庞大的计算需求。

其他大模型中的尺度定律

Scaling Laws尺度定律科普报告|量子位智库

根据图上来看,从2019年至今,大模型进入军备竞赛。尺寸规模不断扩张。
其中

  • Google的PaLM达到了5400亿参数。
  • Meta的Llama 系列从70亿参数到4000亿参数不等,更注重优化数据和训练方法。
  • Anthropic的Claude系列,在Claude 3时,虽未公布具体数值,但据测算,达到了1.37万亿。而Claude 3.5 规模可能在5至15万亿,从而实现在编程能力上更胜GPT-4一筹。

涌现能力

智能涌现是随着模型扩大而突然出现的能力,这种能力未被明确编程,也不可预测,所以称之为智能涌现。

涌现能力最具代表的是自然语言理解与生成、多步骤推理、多模态理解与生成、少样本零样本学习。

Scaling Laws尺度定律科普报告|量子位智库

智能涌现带来了应用端侧的实用性大幅度提高,产生了许多优秀的应用。

同时,一些企业也在寻找着不一样的模型开发线路。Llama系列在同等规模下,实现了更强的性能。

模型大小并非涌现能力的唯一因素,数据的质量和数量以及训练方法的优化同样扮演着重要角色。

尺度定律如何影响产业落地

从尺度定律所包含的三个方向解读,其主要发展困境如下图所示:

Scaling Laws尺度定律科普报告|量子位智库

因此所带来的产业发展方向,量子位智库将其划分为四大部分:

数据行业

  1. 公开数据资源的枯竭引发合成数据产业的大幅提升。英伟达和微软已率先使用合成数据训练3D生成模型以及大语言模型。
  2. 专业领域价值凸显。医疗影像公司以及金融科技公司长期积累的专业数据助力专业商用模型开发。

模型研发

  1. 模型性能白热化竞争。企业加大投入开发尺寸更大,性能更强的模型。
  2. 模型规模和效率之间的平衡。对于非强需求高性能模型的企业,根据尺度定律,酌情选择模型尺寸,平衡资源投入。

硬件开发

  1. AI专用硬件需求上升。各头部加大AI专用硬件投资,Google发布的TPU v5在训练效果上是上一代的2-3倍。英特尔的GPU高墙优势仍在。国产芯片也需继续加大对专用芯片的研发生产。
  2. 云平台计算需求增加。微软等企业开发云平台为中小企业降低使用AI的门槛。

企业战略

  1. 企业需求长期数据战略,积累优化数据资源。
  2. 优化成本投入,参考尺度定律,指明了一定规模下的模型性能,支持企业有效分配投资预算。

尺度定律的局限性

最核心的还是核心的Transformer架构的自身局限性,因大多数模型采用压缩的方式进行训练,该方法带来的是知识储存量的增加,但智慧能力欠缺。如:人类基础认知架构、常识推理、因果理解、多模态整合等方向大模型的水平尚未达到可应用的水平。

因此,量子位智库认为尺度定律是通向AGI(通用人工智能)的重要组成部分,但可能不是全部答案。仍需要将不同学科底层打通,探索创新式架构等方式来解决通往AGI的更为广泛和综合的挑战。

不过,作为大模型第一性原理,或者第一个达成共识的产业规律,尺度定律对于整个AI领域的研发、落地和应用,或许会像摩尔定律一样,指引整个产业的潮水涌动方向。

完整报告下载地址:

https://jkhbjkhb.feishu.cn/wiki/W5D7wuDcbiPXDLkaRLQcAJpOn8f?fromScene=spaceOverview

版权所有,未经授权不得以任何形式转载及使用,违者必究。