字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

鱼羊 2024-03-01 12:57:31 来源：量子位

初始化时间降至30秒以下

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

随着对Sora技术分析的展开，AI基础设施的重要性愈发凸显。

来自字节和北大的一篇新论文在此时吸引关注：

文章披露，字节搭建起的万卡集群，能在1.75天内完成GPT-3规模模型（175B）的训练。

具体来说，字节提出了一个名为MegaScale的生产系统，旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。

在12288块GPU上训练1750亿参数大语言模型时，MegaScale实现了55.2%的算力利用率（MFU），是英伟达Megatron-LM的1.34倍。

论文还透露，截止2023年9月，字节已建立起超过1万张卡的Ampere架构GPU（A100/A800）集群，目前正在建设大规模Hopper架构（H100/H800）集群。

适用于万卡集群的生产系统

大模型时代，GPU的重要性已无需赘述。

但大模型的训练，并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别，如何实现高效、稳定的训练，本身就是一个颇具挑战的工程问题。

第一重挑战：效率。

训练大语言模型并非简单的并行任务，需要在多个GPU之间分布模型，并且这些GPU需要频繁通信才能共同推进训练进程。通信之外，操作符优化、数据预处理和GPU内存消耗等因素，都对算力利用率（MFU）这个衡量训练效率的指标有影响。

MFU是实际吞吐量与理论最大吞吐量之比。

第二重挑战：稳定性。

我们知道，训练大语言模型往往需要花费非常长的时间，这也意味着，训练过程中失败和延迟的现象并不鲜见。

失败的成本是高昂的，因此如何缩短故障恢复时间变得尤为重要。

为了应对这些挑战，字节跳动的研究人员构建了MegaScale，并已将其部署到字节的数据中心中，用以支持各种大模型的训练。

MegaScale是在英伟达Megatron-LM的基础上改进的。

具体改进包括，算法和系统组件的共同设计、通信和计算重叠的优化、操作符优化、数据流水线优化以及网络性能调优等：

算法优化：研究人员在模型架构中引入并行化的Transformer块、滑动窗口注意力机制（SWA）和LAMB优化器，来提高训练效率而不牺牲模型的收敛性。
通信重叠：基于对3D并行（数据并行、流水线并行、张量并行）中各个计算单元操作的具体分析，研究人员设计技术策略有效地减少了非关键执行路径上操作所带来的延迟，缩短了模型训练中每一轮的迭代时间。
高效操作符：对GEMM操作符进行了优化，对LayerNorm和GeLU等操作进行了融合，以减少启动多个内核的开销，并优化内存访问模式。
数据流水线优化：通过异步数据预处理和消除冗余的数据加载器，来优化数据预处理和加载，减少GPU空闲时间。
集体通信群初始化：优化了分布式训练中英伟达多卡通信框架NCCL初始化的过程。在未经优化的情况下，2048张GPU的集群初始化时间是1047秒，优化后可降至5秒以下；万卡GPU集群的初始化时间则可降至30秒以下。
网络性能调优：分析了3D并行中的机器间流量，设计技术方案提高网络性能，包括网络拓扑设计、减少ECMP哈希冲突、拥塞控制和重传超时设置。
故障容忍：在万卡集群中，软硬件故障难以避免。研究人员设计了一个训练框架，来实现自动故障识别和快速恢复。具体包括，开发诊断工具来监控系统组件和事件、优化checkpoint高频保存训练进程等。

论文提到，MegaScale能够自动检测和修复超过90%的软硬件故障。

实验结果表明，MegaScale在12288个GPU上训练175B大语言模型时，实现了55.2%的MFU，是Megatrion-LM算力利用率的1.34倍。

训练530B大语言模型的MFU对比结果如下：

One More Thing

就在这篇技术论文引发讨论之际，字节类Sora产品也传出了新消息：

剪映旗下类似Sora的AI视频工具已经启动邀请内测。

看样子地基已经打好，那么对于字节的大模型产品，你期待吗？

论文地址：
https://arxiv.org/abs/2402.15627

AI infra 字节跳动

鱼羊

OpenAI被举报：非法限制员工披露AI安全风险2024-07-14
AI视频创作一条龙！达摩院寻光平台炸场WAIC，突破可控编辑难题2024-07-05
姚班大神陈立杰获UC伯克利教职，2025年秋季入职2024-07-02
英伟达布局AI视频，Sora风头快被抢完了2024-06-29

字节万卡集群技术细节公开：2天搞定GPT-3训练，算力利用率超英伟达Megatron-LM

适用于万卡集群的生产系统

One More Thing

相关阅读

字节跳动获CVPR2021 细粒度图像竞赛双料冠军

TikTok事件现「罗生门」，字节表示100%持股，甲骨文：不，你没有了

字节跳动技术团队提出「AI渲染」方案，手机端也能实现影视级渲染

《时代》杂志2019全球百大影响力人物：任正非张一鸣贺建奎上榜

字节跳动大模型首次全员亮相：一口气9个，价格低99%，没有参数规模和榜单分数

张一鸣现在“里外不是人”

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬