行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

国产 GPU 技术选型与金融场景实践分享

2026-03-31 腾讯王英杰

国产GPU发展现状与趋势总结

核心架构与技术特点

专用架构：针对深度学习张量计算优化，牺牲通用性换取极致AI性能
架构扩展：沿用图形渲染架构进行通用计算扩展，指令集兼容性好
代表厂商：海光（HIP）、沐曦（MXMACA）、天数智芯等

优势与挑战

优势：代码迁移成本低，生态兼容性好
挑战：需适配特定软件栈，开发门槛较高

硬件规格要求

显存类型和容量：64GB-144GB
训练精度：INT8、INT4、FP16、BF16、FP8
集群部署：需匹配高密度机柜，兼顾散热与运维

软件生态对比

CUDA兼容：通过兼容层或指令集转译支持CUDA生态代码（沐曦、天数智芯）
自研生态：构建全栈自主软件体系（海光DCU、华为CANN）
支持主流组件：覆盖主流训推组件及迭代周期

性能表现

算力优势：FP64双精度浮点性能国产领先，对标RTX 4060级别
应用场景：云桌面、数字孪生（国产卡）；HPC、气象预测（国产卡）
训练效率：前向传播~2N，反向传播~4N（计算量约前向的2倍）

关键性能指标

矩阵乘法：高算力利用率
Decode阶段：受显存带宽限制，算力利用率低
性能评测：覆盖BEVFormer、MapTRv2等主流模型

市场阶段与演进

从"替代可用"到"自主好用"：性能、稳定性、易用性全面对标国际
万卡集群技术：突破万亿参数模型瓶颈
软件生态重要性：硬件性能基础，软件生态决定落地效果

未来展望

2026年国产GPU将实现质的飞跃
算力底座更加坚实，支撑更大规模模型训练

罗翀针对深度学习张量计算优化的专用架构，牺牲通用性换取极致AI性能。沿用图形渲染架构进行通用计算扩展，指令集兼容性好，适合混合负载。代表厂商：代表厂商：优势：代码迁移成本较低，生态兼容好注意：需适配特定软件栈，开发门槛较高显存类型和容量 64GB-144GB 训练 INT8、INT4 FP16、BF16、FP8 针对大规模集群场景，硬件规格需匹配高密度机柜部署要求，同时兼顾散热效率与运维便捷性。平均故障间隔> 10万小时高带宽高扩展性海光软件开发生态软件运行生态通过兼容层或指令集转译，直接支持CUDA生态代码，旨在实现低成本迁移支持主流操作系统和K8S，以及针对操作系统和K8S支持的功能特性。代表厂商：沐曦|天数智芯海光(HIP)沐曦(MXMACA) 构建全栈自主软件体系，不依赖CUDA，从底层算子库到上层框架完全自研。支持主流训推组件，以及跟随主流训推组件迭代的周期和效率。核心代表：Security华为CANN 代表厂商：海光DCU 国产合规性较强算力优势：FP64双精度浮点性能国产领先性能对标：RTX 4060级别应用场景：云桌面、数字孪生、3D建模、游戏娱乐应用场景：HPC、气象预测、物理仿真、生信分析训练过程包含前向传播、反向传播和参数更新三个完整阶段。不仅需要计算输出，还需计算梯度并更新权重。前向~2N反向~4N 反向传播计算量约为前向的2 标要求极⾼，算⼒通常是主要瓶颈。 Prefill阶段(预填充) Decode阶段(解码) 处理输入Prompt，进行并行计算，一次性生成所有输入Token 逐个生成Token (自回归)，每步都需要加载全部KV Cache进行的KV Cache。矩阵乘法运算量大，充分利用GPU算力，算力利用率高。计算量小但数据搬运量大，受限于显存带宽，算力利用率低。 (FLOPS)。 (每Token⽣成时间)端到端延迟(Latency) •传统模型：参数量级普遍＜7B，发展相对成熟，主要关注计算性价比。原方案N49D，新方案推荐N59D/N59Dv2，紫霄v2；•搜广推：自研模型为主，除关注GPU外，同时关注CPU核心数、内存容量等。原方案L20，新方案推荐BW151/天垓150；•中小模型推理：关注显存容量/算力等。原方案N49D（＜7B），L20（7B~70B），新方案N59Dv2（＜7B），N88a/紫霄V2及BW151/天垓150（7B~70B）。•大模型推理：原方案H20，新方案BW1000B/紫霄V3（＞70B）。•生图/视频：关注算力/显存带宽。原方案N49D，新方案N59Dv2。BW1101144GB26/Q226/Q1POC时间批量时间国产GPU性能评测，覆盖主流的模型和业务场景，做到各厂商评测横向拉通 BEVFormer、MapTRv2、Sparse4D、 GEMM算力、显存带宽、集合通信带宽 Qwen2.5-1.5B、Qwen2.5-7B、Qwen3-30A3B 非PD定长/变长、1P1D定长/变长、 Qwen3-8B、Qwen3-32B、Qwen2.5-72B、、Qwen3-32B、Qwen2.5-72B、Qwen2.5-VL-7BPointPillars、FlashOCC多P多D定长/变长LLM训练开源DiT推理混元DiT推理传统推理 Flux1.dev-12B、Wan2.1-14B-I2V ResNetv1.5、Bert-Large HunyuanDiT、HunyuanVideo Qwen3-30A3B测试场景除了来自云业务场景，也涵盖自研业务相关需求：◆包含元宝平均输入3.5K/输出1K的测试场景。 ◆搜广推应用部评测各个国产卡性能数据。 •TCE智算解决方案与公有云同源同构，不仅包含GPU异构计算、高性能网络、高性能存储以及云原生编排调度和训推加速套件，同时也支持集成TI训推平台、ADP智能体平台等面向传统AI和大模型的AI平台能力和MaaS服务等。分布式训练/推理加速集群规模阶段跨越从"替代可用"迈向"自主好用"不再仅是应急备胎，而是在性能、稳定性和易用性万卡集群技术成熟支撑万亿参数模型突破大规模互联瓶颈，具备训练超大参数量模型的软件生态是选型"最后一公里"硬件性能只是基础，CUDA兼容性、算子库丰富度及框架适配能力决定了最终落地效果。上全面对标国际一流水平，实现质的飞跃。能力，算力底座更加坚实。 2026年国产GPU将在谢谢观看THANKS

点击免费查看完整报告