MoE大模型

训练MoE足足提速70%!华为只用了3招

一半儿以上时间都在“等待”