< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

豆包大模型团队&港大新成果ByteCheckpoint为LLM万卡训练提效

量子位的朋友们 2024-08-09 09:11:58 来源：量子位

最高优化529.22倍！

近日，字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint大模型Checkpointing系统，旨在提升大模型训练效率、减少训练进度损失。

随着训练规模与模型大小的日益增长，克服软硬件故障，提高训练效率成为大模型迭代的重要影响要素。近期，Meta官方报告中披露的一组大模型万卡集群训练故障率数据引起业内广泛关注，数据显示：在 16384 块 H100 80GB 训练集群上进行 Llama3 405B 训练的故障率——短短 54 天，发生 419 次中断，平均每三小时崩溃一次。该报告同时提到，为了对抗高故障率，需要在训练过程中频繁地进行 Checkpoint ，保存训练中的模型、优化器、数据读取器状态，减少训练进度损失。可以说Checkpoint 已成为训练提效关键。

然而，现有的 Checkpoint 相关技术存在诸多问题，如系统设计缺陷导致额外的 I/O 开销增加、不同训练框架的 Checkpoint 模块相互割裂等。

豆包大模型团队和香港大学此次联合提出的ByteCheckpoint能有效解决上述问题。ByteCheckpoint为PyTorch 原生，能兼容多个训练框架，支持Checkpoint的高效读写和自动重新切分。与基线方法相比，ByteCheckpoint 在 Checkpoint 保存上性能提升高达 529.22 倍，在加载上，性能提升高达 3.51 倍。极简的用户接口和 Checkpoint 自动重新切分功能，显著降低了用户上手和使用成本，提高了系统的易用性。目前论文成果已公开：

• ByteCheckpoint: A Unified Checkpointing System for LLM Development

• 论文链接：https://team.doubao.com/zh/publication/bytecheckpoint-a-unified-checkpointing-system-for-llm-development?view_from=research

字节跳动豆包大模型团队成立于2023年，致力于开发业界最先进的AI大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献。目前，豆包大模型团队正在持续吸引优秀人才加入，希望与具备创新精神、责任心的技术人才一起，推进大模型训练提效工作取得更多进展和成果。

据了解，豆包大模型于2024年5月正式发布，现已通过字节跳动旗下云服务平台火山引擎面向企业提供服务。截至7月，豆包大模型日均Tokens使用量已超5000亿，外部企业客户日均Tokens使用量较5月15日模型发布时期增长22倍。基于豆包大模型打造的同名AI智能助手豆包，在各大应用商店AI类产品的下载量排名第一。

豆包

量子位的朋友们

豆包大模型团队&港大新成果ByteCheckpoint为LLM万卡训练提效

相关阅读

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

我用豆包，生成了AI版《红楼梦》MV

豆包一声声“OK”把罗永浩搞破防，不就是大型现场直播版图灵测试

Kimi豆包，最近都盯上了浏览器

实测豆包1.6，最火玩法all in one！Seedance登顶视频生成榜一

豆包学会“写字”了！秒出海报漫画表情包，运营神器get

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字