模型参数太多怎么办？用谷歌高效训练库GPipe啊

夏乙 2019-03-05 17:48:22 来源：量子位

不用调整超参数，就能用更多加速核心来训练更大的模型，提升性能。

晓查发自凹非寺

量子位报道 | 公众号 QbitAI

BigGan、BERT和GPT-2的出现表明，越大的神经网络模型可以带来越好的性能。其中能写出各种假新闻的GPT-2参数就有15亿个之多。

如果你也在训练一个参数超多的模型，那么现在有个好消息要告诉你。

谷歌在最近公布的Lingvo框架下开源了GPipe。它让研究人员不用调整超参数，就能用更多加速核心来训练更大的模型和提升性能。

GPipe适用于多个连续层组成的任何DNN，而且训练模型的大小与分区数成正比。

参数越多，效果越好

在计算机视觉图像分类任务上，模型大小和分类准确性之间存在很强的相关性。

△不同图像分类模型在ImageNet上的表现，显示出准确度和参数数量的强相关性

从2014年到2017年，ImageNet视觉识别的冠军的准确度从74.8%提升到了82.7%，模型参数增加了36倍。

而在这三年间，GPU显存仅仅增加了3倍，因此迫切需要一种高效的神经网络训练库来解决参数太多的问题。

核心越多，参数越多

GPipe就可以减少参数模型对内存的占用。

谷歌研究人员在8核心64GB内存的云TPUv2进行测试。如果没有GPipe，由于内存的限制，每个加速核心只能训练8200万个参数。

使用GPipe后，活动内存从6.26 GB降低到3.46GB，可以在单个加速核心上训练3.18亿个参数，接近原来的4倍。

通过GPipe，AmoebaNet能够在云TPUv2上加入18亿个参数，比没有GPipe的情况下多25倍。

△ 谷歌将AmoebaNet-D模型分配到四倍数量的加速核心上，实现了3.5倍的加速

GPipe不仅仅速度更快，在训练模型的质量上也有提高。

为了验证这一点，谷歌训练了另一种图像分类算法AmoebaNet-B，它总共有5.57亿个模型参数。

该算法在一些常用的数据集上表现很好，将single-crop ImageNet精度提高到了84.3％，在CIFAR-10上的精度为99％，在CIFAR-100上的精度为91.3％。

GPipe为何能实现高效

原则上我们可以通过并行计算在GPU或者TPU上训练更大的DNN模型。但是由于DNN的顺序性，这种方法可能导致在计算期间只有一个加速器处于活动状态，不能充分利用设备的计算能力。

谷歌在GPipe使用了两种AI训练技术：一种是同步随机梯度下降，另一种是并行pipeline，将上一步的输出作为流传输到下一步。

Gpipe将模型划分到不同的加速核心，并自动将mini-batch的训练样本分成更小的micro-batch，并在pipeline中运行，使TPU核心能够并行操作。

此外，梯度一直在micro-batch中累积，因此分区数量不会影响模型质量。

以上都是在云TPUv2上的结果，实际上GPipe在云TPUv3上有更好的性能，每个TPUv3都有16个加速器核心和256 GB（每个加速器16 GB）。用GPipe训练80亿参数的Transformer模型时，能实现11倍的加速。

开源地址：

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

机器学习训练谷歌

夏乙

模型参数太多怎么办？用谷歌高效训练库GPipe啊

相关阅读

谷歌把整个地球装进大模型！实时观测，按天更新

谷歌预测景深新研究：即使相机人物都在动，单一视点也能合成3D深度图

一个AI玩41个游戏，谷歌最新决策Transformer综合表现分超DQN一倍

谷歌“升维打击”：还原任意角度光照立体效果，2D变“4D”

Waymo无人车高层动荡：CFO今日也走了，半年已失8名高管

TensorFlow团队：我们没被抛弃

热门文章

轻舟智航重回高端局： L2+量产超百万，城市NOA量产下放10万级

腾讯重仓的AI芯片公司要上市了！燧原科技IPO获受理，拟募资60亿

Mobileye势头强劲，2025财年全年营收同比增长15%

把医疗AI禁锢在严肃区间：百川M3 Plus首创“证据锚定”，幻觉率2.6%刷新全球纪录

九骏踏浪，海淀这片“创新深海”做了啥？