“一次开发,跨芯运行”:众智FlagOS与面壁智能联手,破解 AI大模型跨芯适配难题

“发布即适配”性能全面反超原生

2026年2月3日,面壁智能正式发布并开源了集语言、视觉、语音于一体的全模态大模型 MiniCPM-o 4.5,众智FlagOS系统软件栈,成功助力该模型在发布当日即完成对六大主流AI芯片的适配与优化,并实现端到端推理性能全面超越各芯片原生方案,这标志着国产基础软件在破解“跨芯适配难”行业痛点上取得里程碑式突破。

 

作为首个全双工全模态大模型,面壁MiniCPM-o 4.5 首次实现“类人”感知交互,能够根据环境“边看、边听、边说”,保证输入输出实时同步。这就对底层推理系统的计算效率、资源调度与多模态数据流的低延迟处理能力提出了极高要求。对此,众智 FlagOS 凭借其统一、高性能的跨芯片系统软件栈,提供了从算子优化到编译调度的全链路加速方案,有效解决了大模型在多元硬件上保持高实时性、高吞吐推理的关键难题,实现了一次开发,跨芯运行的效果

 

在确保模型精度无损失的前提下,基于 FlagOS 版本的MiniCPM-o 4.5在全部六款芯片上均实现了端到端推理效率的显著提升,不同场景下平均加速比为7.76%—22.4%。在统一硬件条件下,FlagOS 版本相比 CUDA 版本提升端到端推理效率 6.10%,与各芯片自身的原生系统软件栈相比,FlagOS 带来的性能提升更为显著,例如在 Nvidia 硬件上提升 6.10%,在 Hygon 硬件上提升 4.57%,整体平均提升幅度突出。而在长负载任务的平均测试中,FlagOS 版本的端到端性能比例达到 106.10%,全面验证了其优化效果。这一系列数据强有力地证明,FlagOS不仅解决了“有没有”的适配问题,更实现了“好不好”的性能超越,为应用方提供了更具性价比的多元算力选择。

 

此次合作的成功实践,为面临硬件适配困境的模型厂商提供了明确路径,通过集成FlagOS这类统一软件栈,能够以较低成本快速实现模型在多芯片平台的高性能部署,从而将研发重心回归模型创新本身。随着FlagOS生态的持续发展,其“一次开发、多芯运行”的能力有望成为AI应用生态的重要基础,推动大模型技术更高效、更经济地服务于各行各业。随着FlagOS生态的持续发展,有望成为驱动AI应用生态繁荣的关键基础设施,最终推动大模型技术以更低的部署成本、更灵活的硬件选择,加速赋能千行百业。

 

 

【背景信息】

FlagOS 是北京智源人工智能研究院联合众多科研机构、芯片企业、系统厂商等国内外机构共同发起并创立的面向多种 AI 芯片的统一、开源系统软件栈,旨在解决不同 AI 芯片大规模落地应用的问题,构建「模型 – 系统 – 芯片」三层贯通的开放技术生态,实现 “一次开发,跨芯运行” 的效果。

 

在此次适配中,FlagOS 提供了一套嵌入优化、自动加速的便捷方案。它通过智能插件让模型能直接被主流推理框架识别调用,同时将深度优化的核心算子库内置至模型中。运行时,系统会自动将关键计算切换为针对不同芯片优化的版本,而开发者无需修改任何代码。最后,统一编译工具会确保这些优化指令精准高效地在各类芯片上执行。该方案的核心价值在于将复杂的芯片适配与性能优化工作封装在系统底层,使开发者和用户能够以“拿来即用”的方式,便捷地在多种硬件上获得更流畅、更快速的体验,这有效降低了前沿模型落地应用的技术门槛与适配成本,为AI技术在不同计算设备上的广泛部署提供了更加可行的路径。

 

 

转载来源:FlagOS

本文为量子位获授权转载,观点仅为原作者所有。

版权所有,未经授权不得以任何形式转载及使用,违者必究。