主编单位:湖南大学 联合编写单位:北京智谱华章科技股份有限公司、清华大学北京邮电大学、新华三技术有限公司、南方科技大学 2025年11月 编写人员 湖南大学: 陈果、曾一夫、陈禹澎、陈泽宇、徐方林、何冬北京智谱华章科技股份有限公司: 鄢兴雨 北京邮电大学: 南方科技大学: 李卓钊 柏林云科技自媒体: 柏林 说明:中国计算机学会(CCF)青年计算机科技论坛(YOCSEF)25-26年度“智算基础设施”系列技术论坛活动的所有嘉宾和参与者对本文亦有重要贡献,特此感谢。 目录 一、背景和意义概述.........................................................................................................1 1.1背景.......................................................................................................................11.2目的和意义...........................................................................................................1 2.1基础支撑层:硬件算力的“翻译与调度中枢”...............................................42.2核心工具层:算力释放的“性能优化引擎”...................................................52.3框架适配层:开发者友好的“应用接口桥梁”..............................................72.4管理监控层:系统稳定的“运维保障屏障”...................................................9 3.1国产AI芯片分类及代表性厂商.......................................................................133.2国产AI芯片软件生态各环节资源汇总与完善度对比...................................143.3国产AI芯片软件社区活跃度对比数据表......................................................243.4本章小结.............................................................................................................28 附录一AI芯片硬件基础:理解软件生态所“指挥”的对象.....................................31 参考文献...........................................................................................................................34 一、背景和意义概述 1.1背景 在科技竞争日益激烈的国际大背景下,以构建自主可控的AI芯片及其软件生态战略为指引,我国AI芯片近些年在技术创新与市场拓展方面均收获颇丰。以华为昇腾、寒武纪、地平线、沐曦、燧原科技、海光信息、壁仞科技、摩尔线程及天数智芯等为代表的一批本土企业,已成功推出一系列具有市场竞争力的AI芯片产品,在国内市场形成了多厂商、多技术路线并行的活跃竞争格局。 随着国产AI芯片在算力、能效比等硬件指标上的突破,用户关注点已从“有没有”转向“好不好”——即软件生态的成熟度、兼容性与易用性。这里的“好不好”,其核心指向的已不再仅仅是芯片的理论峰值性能,而是其背后支撑的软件生态是否成熟、完善与开放。 一个成熟的软件生态,是决定芯片价值能否充分释放的关键。它体现在很多方面,包括基础软件栈的完备性与稳定性、算子库的丰富度与高性能实现、编译工具链的智能化与高效性、以及对PyTorch等业界主流AI框架的无缝兼容与深度适配能力、开发社区的活跃度等。对于广大的AI开发者和企业用户而言,一个完善的软件生态意味着其现有的AI应用、算法模型与开发工作流,能够以极低的迁移成本、甚至实现“无感”地部署到新的国产硬件平台上,从而避免大规模的代码重构和漫长的适配调试周期。因此,软件生态的构建水平,不仅是衡量国产AI芯片核心竞争力的关键标尺,更直接决定了其商业化落地的广度、深度以及最终能否赢得用户信任与市场份额。 1.2目的和意义 本白皮书的核心目的在于系统性地梳理和评估国产AI芯片软件生态的发展现状,为产业界、学术界及政府部门提供一份客观的技术参考与决策依据。AI芯片软件生态主要由"四层架构"组成,包括基础支撑层、核心工具层、框架适配层与管理监控层,各模块通过"技术依赖-功能协同"形成闭环,共同作用于AI模型的训练与推理过程。然而,不同厂商在生态建设上呈现出显著差异:例如,华为昇腾通过 自研软件栈,构建出一套完整的自主软件生态体系;摩尔线程通过高度对标NVIDIACUDA生态,实现了极高的兼容性。 本白皮书的意义体现在三个层面:(1)深度剖析AI芯片软件生态,形成系统性介绍。将AI芯片软件生态分为"四层架构",包括基础支撑层、核心工具层、框架适配层与管理监控层,剖析其概念与作用,介绍具体案例。(2)汇总国产AI芯片软件生态资源,形成资源指南。详细调研多款代表性国产AI芯片,汇总介绍其软件生态并给出资源链接,帮助企业和开发者根据自身应用场景(如训练、推理、边缘计算等)和技术栈基础,选择最适合的解决方案,避免盲目追求"算力峰值"而忽视生态兼容性的误区。(3)为政策制定提供参考。通过客观评估国产软件生态,为相关产业政策的制定提供数据支撑,助力我国AI芯片产业实现从"基础可用"向"场景好用"的关键跨越。 二、AI芯片软件生态核心组成与功能解析 AI芯片软件生态是衔接硬件算力与上层应用的“技术枢纽”,其本质是通过分层设计实现“硬件能力抽象化、算力调用标准化、开发流程便捷化”。参考CPU(如飞腾)、AMD、英伟达等成熟软件生态的“底层支撑-核心优化-上层适配-运维保障”逻辑,AI芯片软件生态可划分为基础支撑层、核心工具层、框架适配层与管理监控层四大模块。各模块通过“技术依赖-功能协同”形成闭环,共同作用于AI模型的训练与推理过程。 为了方便有一定GPU编程经验的读者理解,以下使用NVIDIA生态为例进行类比讲解一个任务在GPU上的处理流程。当用户在PyTorch中指定NVIDIAGPU开始执行任务,流程从框架适配层开始:框架把高层算子映射到cuDNN/cuBLAS等实现,并做必要的数据格式转换。接着进入核心工具层,编译器将计算图编译成PTX或机器指令,并在需要时调用NCCL完成多卡通信。生成的指令再交由基础支撑层执行:CUDARuntime和CUDADriver合作负责调度与显存管理,CUDADriver将上层指令翻译成可在GPU上运行的底层操作,并通过GPU的ECC硬件、Watchdog(超时检测)等机制保证稳定性。整个执行过程中,管理监控层通过nvidia-smi/NVML监控状态,Kubernetes分配GPU资源,驱动在异常时进行隔离与恢复。四层协同完成了从模型代码到GPU指令的转换与可靠执行。而对于GPU编程经验较少、对AI芯片与CPU区别理解较少的读者,可以阅读“附录一AI芯片硬件基础:理解软件生态所‘指挥’的对象”进行了解。 上图介绍了AI芯片生态各个层级的结构。接下来,结合国产AI芯片(如华为昇腾、摩尔线程、寒武纪)的技术实践,深入解析各模块的核心组成、支撑技术及逻辑关系。 2.1基础支撑层:硬件算力的“翻译与调度中枢” 基础支撑层是AI芯片软件生态的“地基”,负责把底层硬件算力翻译为上层可用的形式,并对资源进行底层调度。它主要包括芯片驱动、底层库和系统运行时等组件,相当于AI芯片的操作系统。 在这一层,软件通过抽象硬件复杂性,让上层开发者无需直接处理寄存器、DMA等细节。例如,摩尔线程的MUSASDK提供了底层编译器和运行时库,屏蔽了GPU硬件细节,开发者可以像使用CUDA那样调用GPU加速计算。又如,华为昇腾提供的CANN(ComputeArchitectureforNeuralNetworks)就包含基础支撑层部分,这一部分封装了昇腾AI处理器的指令集和算子,实现对硬件的抽象和使能,并已全面开源以方便开发者直接调度底层资源。 基础支撑层还承担着任务调度和资源管理职责:在AI芯片上运行的模型计算任务,会通过底层运行时被合理地分配到各计算核心上执行,并管理显存分配、数 据传输等。这类似于CUDADriver在NVIDIAGPU生态中的作用——确保每个GPU核心高效执行分配给它的计算。在国内AI芯片生态中,各大厂商均构建了自己的基础软件平台:寒武纪的NeuWare基础系统就同时支持云端、边缘和终端各类芯片,提供统一的底层接口,方便智能应用在不同算力设备间迁移和调优。总体来说,基础支撑层作为“翻译与调度中枢”,将硬件能力抽象化并提供标准接口,使上层工具和应用能够“不感知”硬件复杂性地调用算力。这是国产AI芯片从功能可用走向生态好用的第一步基础。 除了指令翻译和资源调度外,基础支撑层还需提供健康检测、故障隔离与版本兼容的能力。类似于NVIDIANVML,华为昇腾提供了npu-smi作为GPU信息查询接口;而通过K8S设备插件等工具,上层调度器也可感知AI芯片资源状态。另外,运行时需与驱动/固件保持接口契约与版本协商,确保编译期与运行期一致性,降低算子库、通信库升级带来的回归风险。这些“可运维”能力与“可用性”直接正相关,是国产生态由“能用”迈向“好用”的关键支点。 2.2核心工具层:算力释放的“性能优化引擎” 核心工具层是AI芯片软件生态的“性能核心”,汇集各种让算力真正高效发挥的优化工具链。主要涵盖模型编译器、算子库、性能分析和调优工具等,它们相当于为芯片配备的“引擎和涡轮增压器”。这一层的首要组成是AI编译器/执行引擎:它负责将上层训练好的模型转换为适配芯片的高效执行方案,包括计算图优化、算子融合和指令调度[1]。 典型流程是:模型通过解析器导入(支持ONNX、TensorFlow、PyTorch等格式),转换为内部中间表示IR,然后进行算子融合、常量折叠、子图划分等图优化,再映射到具体硬件资源(如PE阵列、缓存),最后生成对应芯片ISA的指令流。为了进一步提升开发效率与跨平台兼容性,业界已出现一批“编译兼容”工具,它们以统一的高层语义描述算子,再向下翻译成不同芯片的后端代码。例如:Triton采用类Python的Kernel语言,开发者只需写一次矩阵乘、卷积等核心逻辑,其编译器即可自动生成面向NVIDIAGPU、AMDGPU乃至多家国产加速器的高效机器码,显著降低手写CUDA/ROCm内核的门槛[18]。TileLang则把“张量分 块”作为一等公民,通过tile-level的声明式语法描述数据搬运与计算,编译期自动完成流水线调度、双缓冲和局部性优化,同一套TileLang源码可无缝编译到寒武纪MLU、华为昇腾、AppleMetal等多种架构,实现“一次编写、处处加速”。 国产厂商方面,以寒武纪Cambricon为例,其MagicMind推理加速引擎可将用户在PyTorch、TensorFlow等框架训练好的模型一键编译为思元芯片可执行的代码,内部集成了基于MLIR的图编译技术,可自动完成功能算子的解析、后端代码生成和优化。借助Ma