< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

太初元碁发布国产高兼容性虚拟指令集PCX及高性能工业级编译器PCXAC

量子位的朋友们 2026-01-09 19:12:28 来源：量子位

跨硬件平台迁移成本大幅降低

日前，国产AI芯片企业太初元碁发布首个高兼容性虚拟指令集PCX及高性能工业级编译器PCXAC，并上架至其官网文档中心平台。

PCX（Parallel Computing eXecution）是太初元碁推出的与具体硬件架构无关的虚拟指令集（Virtual ISA），通过对底层的各类计算单元（如计算核心、存储架构）进行逻辑抽象，提供了稳定且可移植、可扩展的并行计算模型，具有强兼容特性，能够显著降低跨硬件平台的迁移成本。

据了解，PCX虚拟指令集可实现多层次存储等级抽象与多线程并行编程模型，囊括有符号整数、无符号整数、布尔类型、浮点类型、向量类型、字节数组、字符串等不同数据类型。支持用户在SDAA C程序中嵌入PCX指令，实现对关键计算路径的精细优化，有效提升程序在硬件上的执行效率。SDAA C高级编程语言和TecoPyTorch、Teco-vLLM等深度学习框架通过使用PCX虚拟指令，屏蔽了太初元碁不同系列硬件的机器指令和微架构的差异。

PCXAC是PCX虚拟指令集的编译系统，由太初元碁自主研发，能够将PCX虚拟指令转换为指定系列的太初AI加速卡的机器指令，从而屏蔽不同系列硬件的底层差异，即同一版本的PCX指令集可以在太初元碁多种系列的硬件上直接编译并高效执行，将程序与不同系列的硬件解耦，有效解决硬件迭代快，软件适配成本高的问题。

同时，PCXAC提供完整的开发者分析工具集，包括静态检查工具和动态检查工具，覆盖从编码到运行的全流程，助力用户更早发现、更快定位潜在缺陷，提升开发效率与代码质量。其中，静态检查工具在PCX指令编译期间，提前预警内存泄漏等隐患；动态检查工具可在PCX指令执行期间，动态检测越界访问、未初始化使用等深层问题。

作为一款工业级轻量编译器，PCXAC仅需基础编译环境即可运行，减少开发环境搭建的复杂度与兼容性问题，开发者可快速启动编译工作，降低环境配置成本；且在编译过程中对系统资源占用少，避免因编译器运行导致的资源争抢，提升资源利用率。

当前，国际主流指令集存在高技术壁垒问题，编译器性能瓶颈凸显，导致不同硬件平台间迁移成本高、硬件算力难以充分释放，从而制约了国产智算算力规模化落地应用。

太初元碁官方消息指出，在其T100 加速卡上，太初元碁对深度学习算子（卷积、规约等）进行严格的单卡性能对比测试。

实测结果显示：使用 PCX 虚拟指令集编译生成的程序，其运行时性能较基于 LLVM 编译的版本有大幅提升。

实测数据表明，PCX 能够深度适配国产硬件，且其编译器 PCXAC 能够充分将硬件算力转化为性能优势。PCXAC在性能上超越了业界主流的 LLVM，充分释放硬件算力。PCXAC 相较 LLVM 的性能提升，不仅证明 PCXAC 编译器在国产算力转化效率上的领先性，更预示着在实际场景中能够大幅降低训练与推理的时间成本。

据介绍，太初元碁通过参与开源生态建设与软件栈生态搭建，为开源社区、个人开发者提供全方位国产智算算力技术支持。目前，太初元碁已在包括GitHub、Gitee、Atomgit等平台深度参与paddle、Torch、OpenDataLab、HuggingFace、Vllm、DeepSpeed、Lightning等多个开源社区/项目的建设，并在GitHub平台上开放了多个已适配太初AI加速卡的开源项目来为开发者赋能。同时，依托主流AI社区Torch生态，通过系统性攻坚与开放协作，太初元碁联合10余家高校，累计适配600余个主流及垂直领域模型，迁移超200个长尾Torch生态算子至太初SDAA生态上，并凝聚超120高校开发者深度参与共建，推动人工智能技术在国产加速卡上深度普惠。

太初元碁