太初元碁发布国产高兼容性虚拟指令集PCX及高性能工业级编译器PCXAC

跨硬件平台迁移成本大幅降低

日前,国产AI芯片企业太初元碁发布首个高兼容性虚拟指令集PCX及高性能工业级编译器PCXAC,并上架至其官网文档中心平台。

PCX(Parallel Computing eXecution)是太初元碁推出的与具体硬件架构无关的虚拟指令集(Virtual ISA),通过对底层的各类计算单元(如计算核心、存储架构)进行逻辑抽象,提供了稳定且可移植、可扩展的并行计算模型,具有强兼容特性,能够显著降低跨硬件平台的迁移成本。

据了解,PCX虚拟指令集可实现多层次存储等级抽象与多线程并行编程模型,囊括有符号整数、无符号整数、布尔类型、浮点类型、向量类型、字节数组、字符串等不同数据类型。支持用户在SDAA C程序中嵌入PCX指令,实现对关键计算路径的精细优化,有效提升程序在硬件上的执行效率。SDAA C高级编程语言和TecoPyTorch、Teco-vLLM等深度学习框架通过使用PCX虚拟指令,屏蔽了太初元碁不同系列硬件的机器指令和微架构的差异。

PCXAC是PCX虚拟指令集的编译系统,由太初元碁自主研发,能够将PCX虚拟指令转换为指定系列的太初AI加速卡的机器指令,从而屏蔽不同系列硬件的底层差异,即同一版本的PCX指令集可以在太初元碁多种系列的硬件上直接编译并高效执行,将程序与不同系列的硬件解耦,有效解决硬件迭代快,软件适配成本高的问题。

同时,PCXAC提供完整的开发者分析工具集,包括静态检查工具和动态检查工具,覆盖从编码到运行的全流程,助力用户更早发现、更快定位潜在缺陷,提升开发效率与代码质量。其中,静态检查工具在PCX指令编译期间,提前预警内存泄漏等隐患;动态检查工具可在PCX指令执行期间,动态检测越界访问、未初始化使用等深层问题。

作为一款工业级轻量编译器,PCXAC仅需基础编译环境即可运行,减少开发环境搭建的复杂度与兼容性问题,开发者可快速启动编译工作,降低环境配置成本;且在编译过程中对系统资源占用少,避免因编译器运行导致的资源争抢,提升资源利用率。

当前,国际主流指令集存在高技术壁垒问题,编译器性能瓶颈凸显,导致不同硬件平台间迁移成本高、硬件算力难以充分释放,从而制约了国产智算算力规模化落地应用。

太初元碁官方消息指出,在其T100 加速卡上,太初元碁对深度学习算子(卷积、规约等)进行严格的单卡性能对比测试。

实测结果显示:使用 PCX 虚拟指令集编译生成的程序,其运行时性能较基于 LLVM 编译的版本有大幅提升。

实测数据表明,PCX 能够深度适配国产硬件,且其编译器 PCXAC 能够充分将硬件算力转化为性能优势。PCXAC在性能上超越了业界主流的 LLVM,充分释放硬件算力。PCXAC 相较 LLVM 的性能提升,不仅证明 PCXAC 编译器在国产算力转化效率上的领先性,更预示着在实际场景中能够大幅降低训练与推理的时间成本。

据介绍,太初元碁通过参与开源生态建设与软件栈生态搭建,为开源社区、个人开发者提供全方位国产智算算力技术支持。目前,太初元碁已在包括GitHub、Gitee、Atomgit等平台深度参与paddle、Torch、OpenDataLab、HuggingFace、Vllm、DeepSpeed、Lightning等多个开源社区/项目的建设,并在GitHub平台上开放了多个已适配太初AI加速卡的开源项目来为开发者赋能。同时,依托主流AI社区Torch生态,通过系统性攻坚与开放协作,太初元碁联合10余家高校,累计适配600余个主流及垂直领域模型,迁移超200个长尾Torch生态算子至太初SDAA生态上,并凝聚超120高校开发者深度参与共建,推动人工智能技术在国产加速卡上深度普惠。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关阅读