AI智能总结
一个未被充分认识到的事情是:相比推理是否需要更多算力,产业更关注推理对于高带宽内存的依赖.———————————————- –以DeepSeek-R1为例,整个模型运行需要671 GB的HBM,其中每十亿个参数大致需要1 GB的内存。 产业视角:推理对高带宽内存的依赖 一个未被充分认识到的事情是:相比推理是否需要更多算力,产业更关注推理对于高带宽内存的依赖———————————————- 产业的看法,总结下来大体如下: –以DeepSeek-R1为例,整个模型运行需要671 GB的HBM,其中每十亿个参数大致需要1 GB的内存。 –尽管模型中只有约370亿个参数处于活跃状态,但整个模型(包括门控函数及权重)都必须常驻内存,且还需要为生成“思考链”保留额外缓存。 –在推理过程中,芯片内的内存带宽至关重要,因为所有数据的读写都集中在单个芯片上进行。 –预训练阶段vs.测试时推理阶段:预训练更侧重于大量数据和模型参数在多个芯片之间的传输,因此更加依赖数据中心内部或跨数据中心的全互连通信带宽;测试时推理主要依赖单个芯片上高效的内存带宽,从而支持高效的“思考链”生成和处理。