罗翀 针对深度学习张量计算优化的专用架构,牺牲通用性换取极致AI性能。 沿用图形渲染架构进行通用计算扩展,指令集兼容性好,适合混合负载。 代表厂商: 代表厂商: 优势:代码迁移成本较低,生态兼容好 注意:需适配特定软件栈,开发门槛较高 显存类型和容量 64GB-144GB 训练 INT8、INT4 FP16、BF16、FP8 针对大规模集群场景,硬件规格需匹配高密度机柜部署要求,同时兼顾散热效率与运维便捷性。 平均故障间隔> 10万小时 高带宽高扩展性海光 软件开发生态 软件运行生态 通过兼容层或指令集转译,直接支持CUDA生态代码,旨在实现低成本迁移 支持主流操作系统和K8S,以及针对操作系统和K8S支持的功能特性。 代表厂商: 沐曦|天数智芯 海光(HIP)沐曦(MXMACA) 构建全栈自主软件体系,不依赖CUDA,从底层算子库到上层框架完全自研。 支持主流训推组件,以及跟随主流训推组件迭代的周期和效率。 核心代表:Security华为CANN 代表厂商:海光DCU 国产合规性较强 算力优势:FP64双精度浮点性能国产领先 性能对标:RTX 4060级别 应用场景:云桌面、数字孪生、3D建模、游戏娱乐 应用场景:HPC、气象预测、物理仿真、生信分析 训练过程包含前向传播、反向传播和参数更新三个完整阶段。不仅需要计算 输出,还需计算梯度并更新权重。 前向~2N反向~4N 反向传播计算量约为前向的2 标要求极⾼,算⼒通常是主要瓶颈。 Prefill阶段(预填充) Decode阶段(解码) 处理输入Prompt,进行并行计算,一次性生成所有输入Token 逐个生成Token (自回归),每步都需要加载全部KV Cache进行 的KV Cache。 矩阵乘法运算量大,充分利用GPU算力,算力利用率高。 计算量小但数据搬运量大,受限于显存带宽,算力利用率低。 (FLOPS)。 (每Token⽣成时间)端到端延迟(Latency) •传统模型:参数量级普遍<7B,发展相对成熟,主要关注计算性价比。原方案N49D,新方案推荐N59D/N59Dv2,紫霄v2;•搜广推:自研模型为主,除关注GPU外,同时关注CPU核心数、内存容量等。原方案L20,新方案推荐BW151/天垓150;•中小模型推理:关注显存容量/算力等。原方案N49D(<7B),L20(7B~70B),新方案N59Dv2(<7B),N88a/紫霄V2及BW151/天垓150(7B~70B)。•大模型推理:原方案H20,新方案BW1000B/紫霄V3(>70B)。•生图/视频:关注算力/显存带宽。原方案N49D,新方案N59Dv2。BW1101144GB26/Q226/Q1POC时间批量时间 国产GPU性能评测,覆盖主流的模型和业务场景,做到各厂商评测横向拉通 BEVFormer、MapTRv2、Sparse4D、 GEMM算力、显存带宽、集合通信带宽 Qwen2.5-1.5B、Qwen2.5-7B、Qwen3-30A3B 非PD定长/变长、1P1D定长/变长、 Qwen3-8B、Qwen3-32B、Qwen2.5-72B、、Qwen3-32B、Qwen2.5-72B、Qwen2.5-VL-7BPointPillars、FlashOCC多P多D定长/变长LLM训练开源DiT推理混元DiT推理传统推理 Flux1.dev-12B、Wan2.1-14B-I2V ResNetv1.5、Bert-Large HunyuanDiT、HunyuanVideo Qwen3-30A3B测试场景除了来自云业务场景,也涵盖自研业务相关需求:◆包含元宝平均输入3.5K/输出1K的测试场景。 ◆搜广推应用部评测各个国产卡性能数据。 •TCE智算解决方案与公有云同源同构,不仅包含GPU异构计算、高性能网络、高性能存储以及云原生编排调度和训推加速套件,同时也支持集成TI训推平台、ADP智能体平台等面向传统AI和大模型的AI平台能力和MaaS服务等。 分布式训练/推理加速 集群规模 阶段跨越 从"替代可用"迈向"自主好用"不再仅是应急备胎,而是在性能、稳定性和易用性 万卡集群技术成熟支撑万亿参数模型突破大规模互联瓶颈,具备训练超大参数量模型的 软件生态是选型"最后一公里"硬件性能只是基础,CUDA兼容性、算子库丰富度及 框架适配能力决定了最终落地效果。 上全面对标国际一流水平,实现质的飞跃。 能力,算力底座更加坚实。 2026年国产GPU将在 谢谢观看THANKS