1)DS解读:
- 算法层:通过MoE和大规模调度优化提升单节点吞吐率,稀疏化+量化压缩降低单次计算复杂度;
- 系统层:KV Cache复用,缓存命中高达56.3%,交互越多效率越高;
- 总结:技术实现难度高,头部大厂接近理想状态,多数厂商难以实现,实际落地算力需求高。
2)需求测算:
- 根据DS数据,每个H800节点输出14.8k token/s,平均每人每秒20-22token,倒推每张卡能服务88人;
- 假设1亿DAU,对应114万颗H800;
- 实际使用反馈效率较低,高峰期回答率仅20%,实际人均token量应更大,需考虑上下文长度;
- 后续to C如导入苹果服务等可能大幅增长DAU,算力卡需求远超测算;国产卡效率不及N卡,需求更大。
3)政策格局:
- 中美对抗加剧,H20潜在被禁风险升高,客户加速国产化储备;
- 当前模型基于NV芯片,断供将释放巨大空间,远超技术优化影响;
- 国产算力迎来真正1-10时刻。