您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:面向国产智能算力软件生态 - 发现报告

面向国产智能算力软件生态

AI智能总结
查看更多
面向国产智能算力软件生态

翟季冬 清华大学 新一代人工智能拉开新一轮科技竞赛 科技企业全面开启AI转型 •微软Office产品全面接入ChatGPT;Google用大模型技术推动搜索引擎升级;苹果推出VR终端AppleVision Pro •百度、阿里、华为等企业都制定相应的战略,全面布局AI产业 DeepSeek开源推动AI应用发展 人工智能技术和产业同步步入爆发期众多行业将被改变、重塑、颠覆 AI 2.0带来的平台型机会将比移动互联网大十倍,这也是中国第一次迎来平台竞逐的机会。新平台上所有用户入口和界面都将被重写,能够建立下一代平台的公司将会取得巨大的优势和话语权。 人工智能被广泛应用到很多重要领域 大模型对算力产生爆发式需求 人工智能领域算力成本居高不下 算力是大模型产业的主要开销,百亿级的算力成本投入 外部限制增强,算力国产化势在必行 国家力量推动智算中心建设,引导国产算力发展•上海:到2025年新建智算中心国产算力使用占比超50% •北京:智算基础设施2027年实现100%国产算力覆盖•江苏:要求新建算力中心国产算力使用占比达70%以上•其他:在建的杭州人工智能计算中心、贵安人工智能计算中心等均采用100%国产算力部署 数据来源:国家智能算力规划,公开资料整理 国产算力持续增长 在智能产业飞速发展大背景下,各个省市大力建设智算、超算中心,但利用率普遍偏低 国产智能算力面临软件生态的挑战 国产智能算力软件生态 国产算力易得、软件生态欠缺 要改变国产大模型的生态系统不好的局面—需要做好10个软件 智能算力10个核心关键基础软件 解决思路 可扩展并行+智能编译器 清华大学相关研究成果 八卦炉-智能算力核心基础软件国产神威超算平台实现 国产算力基础设施 大模型训练对系统的硬件峰值性能提出要求 例如:GPT-4在2.5万张英伟达A100上训练100天 神威超算:10万节点,FP64性能1.4 EFLOPS,FP16性能5.6EFLOPS,相当于1.8万块英伟达A100 “八卦炉”:智能算力核心基础软件在神威平台实现 国产算力基础软件层 在神威新一代超级计算机上研制了大模型训练加速系统:八卦炉 “八卦炉”基础软件系统 八卦炉:支撑国产AI算力的基础软件集 扩展到全机规模(10万台服务器)目前正适配八卦炉系统支持更多国产芯片 PowerFusion:面向国产AI芯片智能编译器FastMoE:MOE大模型并行加速系统Einet:图算融合智能编译器FreeTensor:面向不规则智能程序编程语言FastDecode:高吞吐大模型推理系统 八卦炉支撑多个大模型的训练任务: 北京智源研究院悟道2.0、阿里巴巴M6大模型等 八卦炉+国产超算 支撑多个AIforScience应用程序: 神威E级超级计算机(算力等效1.8万块A100) 实现百万亿参数量预训练模型加速 跨尺度大气预测模型:swMPAS-A第一性原理大模型:乾坤Net 模型规模:174万亿参数量(世界最大)训练性能:1.18 EFLOPS(世界最快)运行规模:3700万处理器核 八卦炉支持更多大模型训练 目前“八卦炉”已经在国产超算系统成功移植百川、LLAMA等大模型 精度验证:国产超算与其它平台一致 Baichuan-7b精调任务:精度与百川公司实现对齐LLaMA-7b预训练任务:与NVIDIA实现loss曲线对齐 八卦炉-燧原芯片适配大模型推理加速 大模型推理对显存的压力 容量挑战:GPU显存容量难以满足大模型推理的需求 为节省算力,必需保存kv-cache,即推理过程的历史中间结果 随着生成序列越来越长,kv-cache大小线性增加 以万亿模型为例: •模型大小2TB,至少需26张显卡 •KV-Cache大小为7TB,还需要86张显卡 挑战:如何为kv-cache设计高容量、高带宽的存储系统? 假设显存大小为80GB,batch size为8,序列长度128k FastDecode:高吞吐推理优化 FastDecode:高吞吐推理优化 清程pro推理服务器 清程max推理机柜 推理加速提供高达7倍吞吐提升能力 Llama-13b模型 某国产130b模型 清程Pro相比云燧S60+vLLM提升1.7倍吞吐 清程Max提升5.4倍吞吐 八卦炉-摩尔芯片适配主流大模型移植与优化 混合专家模型并行训练加速 混合专家模型(MoE)已成为扩展模型规模的主流手段 传统的MoE模型训练采用数据并行或专家并行方式,难以解决显存容量不足、网络通信量过大、集群负载不均衡等问题 FastMoE采用新的并行策略,解决了上述问题 经移植,已在摩尔线程MCCX-D8008卡机取得1.32倍加速比 加 速 比( 以M EGATRON为 基 准 ) Megatron(专家并行) 高性能图算融合编译器 基础算子性能是制约AI大模型性能的主要因素之一 IntelliGen编译器擅长为Attention等访存密集型算子自动生成高性能执行代码 大模型推理引擎-赤兔 大模型推理引擎–赤兔 开源大模型推理引擎-赤兔 开源大模型推理引擎-赤兔:https://github.com/thu-pacman/chitu 在A800集群上,用赤兔引擎部署DeepSeek-671B满血版,相比于vLLM,使用GPU数量减少50%,而且输出速度提升了3.15倍 赤兔推理引擎:国产沐曦芯片支持 赤兔推理引擎支持在线FP8编译转换技术:解决国产AI芯片尚不支持FP8问题 赤兔推理:采用FP8在线转换,节省一半资源,精度几乎无损 vLLM推理引擎需要4机32卡vs.赤兔推理引擎仅需2机16卡 QwQ-32B模型 赤兔支持混合精度量化,提供更高的模型精度 赤兔推理引擎:单GPU实现Deepseek大模型推理 赤兔推理引擎:支持单GPU完成DeepSeek大模型推理 将模型部分层MoE权重放到CPU主存上,用CPU计算MoE 实现CPU+GPU混合推理,适合低并发应用场景 DeepSeek测试结果: 测试平台:CPU (Xeon 8480P) + GPU (H20) 总结 发展人工智能领域,构建国产智能算力至关重要 智能算力的软件生态是当前制约我国人工智能发展的关键因素 硬件灵活性有限、软件相对灵活,软件给硬件赋能可以弥补硬件的很多缺陷 优秀的系统软件能够充分释放底层硬件算力的潜力