字节跳动开源大模型训练框架veGiantModel，性能最高提升6.9倍 profile-avatar

量子位的朋友们 2022-03-21 17:48:20 来源：量子位

大幅降低训练系统的压力

近日，字节跳动应用机器学习团队开源了一款名为 veGiantModel的大模型训练框架，该训练框架主要应用于自然语言处理领域的大模型训练，最高可将大模型训练的性能提升6.9倍，大幅降低训练系统的压力。目前，字节跳动旗下的企业级技术服务平台火山引擎已在其机器学习平台上原生支持了 veGiantModel，该平台正在公测中。

自然语言处理是人工智能研究的一个重要领域，旨在帮助计算机理解、解释和运用人类语言。近些年，自然语言处理在应用方面取得了较为显著的突破，主要是归功于Bert、GPT、GPT-3等预训练语言模型的普及。可以说，预训练语言模型已经成为人工智能领域的基础设施。由于大模型的算法表现更加出众，预训练语言模型在近几年呈现出迅速向大模型发展的趋势。然而，模型体积的快速增长也对现有的训练系统带来了不小的挑战，主要体现为显存压力、计算压力和通信压力。

针对现有训练系统在大模型训练场景下的上述挑战，字节跳动应用机器学习团队提出了大模型训练框架veGiantModel。

veGiantModel的中文名称叫做火山引擎大模型训练框架，是基于开源深度学习框架 PyTorch 、并在 Megatron 和 DeepSpeed 两大开源主流训练框架的基础之上构建的高性能大模型训练框架。

veGiantModel可同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略，并支持自动化和定制化的并行策略；基于字节自研的高性能异步通讯库ByteCCL，veGiantModel的训练任务吞吐相比其他主流开源框架有 1.2 倍到3.5倍的提升，并且提供了更友好、灵活的流水线支持，降低了模型开发迭代所需要的人力；另外，veGiantModel可在 GPU上高效地支持数十亿至上千亿参数量的大模型，对网络带宽要求也更低，在私有化部署时无 RDMA 强依赖。

与 Megtraon 和 DeepSpeed 的对比测试显示，veGiantModel 的性能表现最好、受网络带宽影响最小，在Tesla V100上较上述两者有1.2 倍到3.5倍的提升，在Ampere A100上最高可提升6.9倍。

veGiantModel开源地址：

https://github.com/volcengine/veGiantModel

火山引擎机器学习平台公测地址：

https://www.volcengine.com/product/ml-platform

字节跳动

量子位的朋友们

字节跳动开源大模型训练框架veGiantModel，性能最高提升6.9倍 profile-avatar

相关阅读

字节GPT账户突遭冻结，OpenAI：正在调查不当行为

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

字节跳动回应自研芯片：在组建相关团队，探索AI芯片领域

效果超越Gen-2！字节最新视频生成模型，一句话让绿巨人戴VR眼镜

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

字节跳动智创语音团队发布高保真、低延迟、高并发AI歌唱合成技术

热门文章

成立两年半登顶全球AI创作社区，背后是中国团队在“卖情绪”？？

昇腾云客户2663家，华为云稳居最大国产AI云服务提供商

高通砸钱、雷军入股！刚刚，上海诞生一个183亿手机代工巨头

金山云星流全面升级，以智算穿越云上AI新周期

马斯克下场抢人！xAI组建「人才狙击队」，极客版HR年薪168万