全国最大国产AI算力池来了:部署超3万卡,上千款应用接入

步入硬核落地周期,开始走向千行百业了

允中 发自 凹非寺

量子位 | 公众号 QbitAI

国内智算基础设施,正跨过一个关键的分水岭。

2月5日,由中科曙光提供的3套scaleX万卡超集群,在国家超算互联网核心节点同时上线试运行。

由此,全国首个实现3万卡部署、且实际投入运营的最大国产AI算力池正式形成。

过去,万卡集群更像是头部玩家的实力勋章。如今,当万卡规模的算力开始实现“多套并行、同时落地、即刻应用”,国产超集群便跨过了单点突破的阶段,正式步入规模化落地的工程成熟期。

从产业角度,这释放了三层明确信号:

  • 第一,国产万卡超集群开始进入规模化落地阶段;
  • 第二,系统创新正在取代“单点算力参数”,成为竞争主战场;
  • 第三,万卡超集群已实现从“做出来”向“让真实业务跑起来”的跨越。

能落地、稳得住,才是万卡时代的“入场券”

万卡超集群的难点,早已从单纯的“做出一套系统”,转向了能否实现规模化复制和落地。

规模化落地,说到底是系统工程能力的集中较量。

周期可控、性能可复现、故障可定位、成本可核算——这些硬核能力,才是长期玩家真正的入场券。

万卡超集群的竞争,正在从“总卡数、总算力”转向“系统级协同”:即网络、存储、散热、供配电、调度与运维的联动优化,才是把大规模算力变成稳定产能的关键。

以scaleX万卡超集群为例,其scaleFabric网络不仅能实现万卡超集群400Gb/s超高带宽、低于1微秒端侧通信延迟,更具备未来面向十万卡、百万卡演进的扩展能力。

同时,通过高密设计、低PUE导向的工程方案,以及智能调度等系统能力,让集群不止于“建得起来”,更能“稳得住、用得好”

到了规模化落地阶段,系统级创新就不是虚词了,效率高不高、稳不稳、好不好维护、TCO(总成本)划不划算,才是见真章的地方。

说到底,这些实打实的指标,才是撑起万卡超集群大规模复制的“压舱石”。

万卡超集群真正的胜负手:规模化应用

搞定万卡的稳定供应,充其量只是拿到了“及格分”。

真正的终极考题在于:这些卡能不能实实在在地转化成真实业务的生产力

过去行业里有个怪象,不少万卡项目更像是“样子工程”,停留在展示和跑分上,一旦拉到真实业务里去“练兵”,就显得底气不足,那是因为缺少持续业务负载的实际检验。

规模化应用背后,至少包含三层要素。

1、开放兼容,决定万卡超集群应用门槛与广度

一个封闭生态的万卡超集群,即便性能很强,也会在迁移成本上劝退大量用户。

相反,开放兼容意味着更低的适配门槛、更快的上手速度、更可控的改造成本

曙光scaleX超集群基于AI计算开放架构,可全面兼容CUDA等主流软件生态,支持多品牌国产加速卡混合部署,加速国产AI生态繁荣。

2、万卡超集群不应是“大公司专属”,公共基础设施属性正在形成

过去,万卡超集群过去给很多人的直观印象是:只有极少数巨头公司用得起、用得好。

但在万卡超集群进驻国家级算力网络的核心节点后,它就从单纯的技术设施,真正转变为一种公共基础设施,成为制造、能源、交通、科研、教育、医疗、金融领域等千行百业的算力“水煤电”。

3、用真实业务把万卡超集群变成各行各业生产力

万卡超集群能不能行,跑通几个模型和应用只是“及格线”,能不能扛住千行百业实打实的业务负载,才是真正的“分水岭”。

以scaleX万卡超集群为例,其已完成400余个主流大模型与世界模型的适配与优化,并依托国家超算互联网实现上千款应用对接运行,链接更多AI产业生态伙伴,推动形成“算力+应用”协同的一体化落地模式。

在实战应用中,scaleX万卡超集群的价值,在三个维度得到了充分释放:

第一,在大模型训练场景下,主打“稳”字。

它能稳稳托住万亿参数级模型的整机训练,并提供容错与快速恢复能力,保障超长周期训练稳定连续。

第二,在高通量推理场景下,强调“实”字。

通过软硬协同与端到端联合优化,将推理能力沉淀为可长期承载核心业务的服务化能力,目前已服务于多家头部互联网用户的核心智能化业务。

第三,在AI for Science场景下,突出“快”字。

将算力直接变现为科研效率。无论是支撑材料研发大模型刷新全球评测纪录,还是将蛋白质研究效率提升百万倍(3-6个数量级),它都在加速科学发现的进程。

3套scaleX万卡超集群上线背后,释放了一个信号——

单纯堆砌算力规模已不再是核心胜负手。

未来的赢家,必须要能让万卡集群在业务一线持续“出力”,并能把这种复杂的工程能力大规模地铺向全行业

版权所有,未经授权不得以任何形式转载及使用,违者必究。