行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

关于人工智能大模型的几点思考

2025-04-11清华大学土***

AI智能总结

大模型正在重新定义软件

人工智能进入大模型时代

人工智能正进入大模型时代，从单模态向多模态发展。ChatGPT 实现了真正像人类一样进行聊天交流，而 Midjourney 则在图像创作领域取得了突破，其作品《太空歌剧院》获得了人类艺术比赛冠军。此外，阿里云视频生成大模型 I2VGen-XL 能够在上传一张图片后 2 分钟内生成高清视频，推动了视频生成行业的发展。

AI 加速了行业智能化升级，创造了更大价值。例如，在金融领域，AI 企业财务异常识别准确率提升了 20%；在医疗领域，药物研发周期从数年缩短到 1 个月；在智能制造领域，工业质检准确率提升了 14%。

大模型训练对分布式技术的挑战

大模型训练对分布式技术提出了挑战，主要体现在以下几个方面：

数据预处理：数据预处理频繁、随机小样本读取对文件系统提出挑战。现有分布式文件系统无法同时满足可扩展和低延迟的需求。
海量小文件存储：大模型训练需要收集海量多模态小文件，这些文件的特点是任一模态的数据集包含多达数亿至数百亿个小文件，海量小文件的存储对文件系统提出了挑战。
海量算力需求：大模型训练需要海量算力，包括模型训练、模型微调和模型推理等环节。

解决方案

针对上述挑战，提出了以下解决方案：

SingularFS 文件系统：采用元数据解耦的架构，将目录元数据集中管理，实现低延迟路径解析；将文件元数据分布式管理，支持文件数目横向可扩展。
诸葛弩大数据处理引擎：采用以数据为中心的执行模式，降低数据读入开销，实现动态负载均衡。
分布式检查点策略：针对神威平台的存储架构特点，采用分布式检查点策略，解决进程数不足和负载不均的问题。
八卦炉基础软件系统：支撑国产 AI 算力的基础软件集，包括并行加速、通信库、容错系统、内存系统和存储系统等。
FastMoE 并行加速系统：采用新的并行策略，解决显存容量不足、网络通信量过大、集群负载不均衡等问题。
IntelliGen 编译器：擅长为 Attention 等访存密集型算子自动生成高性能执行代码。
清程推理服务器：使用闲置 CPU 和主存来处理 KV-Cache，提升 GPU 利用率和聚合存储带宽。
Mooncake 分离式推理架构：以 KVCache 为中心的分离式推理架构，提升吞吐量并降低响应延迟。

国产 AI 算力发展

中国 AI 内循环加速到来，国产算力非国产算力占比快速提升。国家力量推动智算中心建设，引导国产算力发展。国产 AI 芯片和基础软件系统不断取得突破，为 AI 大模型发展提供了有力支撑。

研究结论

大模型正在重新定义软件，AI 技术将迎来爆发式增长。解决大模型训练对分布式技术的挑战，需要从文件系统、数据处理引擎、算力系统、编译器等方面进行技术创新。国产 AI 算力发展迅速，将为 AI 大模型发展提供有力支撑。

清华大学郑纬民报告内容人工智能进入大模型时代行业+ AI AI基础大模型加速行业智能化升级，开始创造更大价值从单模态向多模态发展 ChatGPT实现真正像人类一样来聊天交流文本交互 MidjourneyAIGC画作《太空歌剧院》获得人类艺术比赛冠军阿里云视频生成大模型I2VGen-XL，上传1张图后2分钟生成高清视频报告内容，数据获取，数据获取大模型训练需要收集海量多模态小文件多模态：文本、音频、图像、视频特点：任一模态的数据集包含多达数亿至数百亿个小文件海量小文件的存储挑战——元数据管理难扩展性要求高：存储100亿的小文件需要管理7TB元数据延迟要求高：典型要求百微秒级读取延迟，以满足数据分析、模型训练等应用的需求因元数据瓶颈，现有系统延迟在毫秒级,如Ceph 小文件读取，元数据开销成瓶颈问题：现有分布式文件系统无法同时满足可扩展和低延迟的需求 —元数据分布式管理架构(CephFS)：可横向扩展，但访问延迟高低延迟：将目录元数据集中在一台目录元数据服务器中，实现路径解析的低延迟路径解析在目录元数据服务器本地完成，无跨网开销可扩展：将文件元数据分布到多台文件元数据服务器中，支持文件数目横向可扩展文件元数据服务器之间无共享，扩展性好 [1]SingularFS: A Billion-Scale Distributed File System Using a Single Metadata Server,USENIXATC’23 2023年5月(ISC23):IO500总分全球第一2023年11月(SC23):IO500总分全球第一2024年5月(ISC24): IO500总分全球第一数据获取据谷歌数据中心统计，30%的训练时间用于数据预处理[1]微软分析了9种常见模型，数据预处理最多占用65%的模型训练时间[2] 数据预处理挑战：预处理需要从分布式文件系统读取数据，开销大需要处理的数据分散在多个节点上，读远端节点的数据会引入极大的网络开销已有的方法通常以计算为中心，将需要处理的数据搬移到进行计算任务的节点解决方法：提出以数据为中心，将计算任务搬到数据节点上将计算任务动态地根据其需要的数据调度到数据所在的节点上从分布式系统的数据读入转换成从本地文件系统读入诸葛弩大数据处理引擎的设计理念：以数据为中心的执行模式：数据读入开销低，动态负载均衡兼容PySpark编程接口：对PySpark用户没有额外的学习成本采用大量编译优化技术：通过静态分析、算子融合、向量化、紧凑化数据排布等编译技术，降低数据处理开销提供良好的编程接口：提供基于C++RDD编程接口，供性能工程师编写高性能计算模块，嵌入端到端PySpark数据预处理管线中数据获取模型训练对分布式技术的挑战原因：对于十万卡规模万亿参数量检查点读写默认策略：采用每个专家的0号进程写数据方案1(单超节点写)：负载不均(超过10小时)方案2(跨超节点写)：进程数少(~3小时) 影响性能核心因素：存储系统架构神威平台存储系统与计算网络系统共享同一套链路网络利用效率会直接影响存储系统性能默认读写策略性能差的因素：进程数不足：无法充分利用网络链路带宽负载不均：进程分布不均匀，无法利用所有交换机资源采用分布式检查点策略解决思路：分布式检查点策略调整检查点处理适应神威平台的存储架构特点效果：十万亿参数量模型每次检查点~10分钟数据获取模型推理数据获取报告内容外部限制强化，中国AI内循环加速到来国家力量推动智算中心建设，引导国产算力发展•上海：到2025年新建智算中心国产算力使用占比超50% •北京：智算基础设施2027年实现100%国产算力覆盖•江苏：要求新建算力中心国产算力使用占比达70%以上•其他：在建的杭州人工智能计算中心、贵安人工智能计算中心等均采用100%国产算力部署国产AI芯片只要达到国外芯片60%的性能，如果生态做好了，客户也会满意。大多数任务不会因为芯片性能只有60%而有明显感知，大家感觉到的不好用还是生态不行。国产算力基础软件层在神威新一代超级计算机上研制了大模型训练加速系统：八卦炉八卦炉：支撑国产AI算力的基础软件集扩展到全机规模（10万台服务器）目前正适配八卦炉系统支持更多国产芯片 PowerFusion：面向国产AI芯片智能编译器 FastMoE：MOE大模型并行加速系统 Einet：图算融合智能编译器八卦炉支撑多个大模型的训练任务：北京智源研究院悟道2.0、阿里巴巴M6大模型等八卦炉+国产超算神威E级超级计算机（算力等效1.8万块A100）支撑多个AIforScience应用程序：实现百万亿参数量预训练模型加速跨尺度大气预测模型：swMPAS-A第一性原理大模型：乾坤Net 模型规模：174万亿参数量（世界最大）训练性能：1.18 EFLOPS（世界最快）运行规模：3700万处理器核目前“八卦炉”已经在国产超算系统成功移植百川、LLAMA等大模型精度验证：国产超算与其它平台一致 Baichuan-7b精调任务：精度与百川公司实现对齐LLaMA-7b预训练任务：与NVIDIA实现loss曲线对齐硬件环境 GPU：512×沐曦曦云C500系列GPU卡机内互连：4卡间高速互连，前后4卡PCIe 5.0机间互连：每机配备2个400GbIB卡 LLAMA-70B：广泛使用的benchmark模型稠密模型Global batch size设置为256 MoE-567B:MOE模型是目前大模型发展趋势稀疏模型参数量大，每token计算量与LLAMA持平Global batch size设置为64和1024 提升算子效率:计算密集型算子和访存密集型算子开展优化改进并行方案:减少通信量、提高硬件利用率底层系统支持:提高内存利用率和通信效率 “八卦炉”优化沐曦512卡智算集群训练任务，平均性能提升30% 部分优化后算子效率提升300%并行方案效率提升整体性能≥10%数据并行相关集合通信带宽提升50%Llama 70B模型，性能提升15%MoE567B模型(Batchsize=64)，性能提升31%MoE567B模型(Batchsize=1024)，性能提升45% 优化前后，精度曲线保持一致混合专家模型（MoE）已成为扩展模型规模的主流手段传统的MoE模型训练采用数据并行或专家并行方式，难以解决显存容量不足、网络通信量过大、集群负载不均衡等问题FastMoE采用新的并行策略，解决了上述问题经移植，已在摩尔线程MCCX-D800 8卡机取得1.32倍加速比加速比（以MEGATRON为基准） Megatron（专家并行）基础算子性能是制约AI大模型性能的主要因素之一IntelliGen编译器擅长为Attention等访存密集型算子自动生成高性能执行代码经初步移植，已能在摩尔线程S4000上取得2.95倍加速在其他平台上IntelliGen可取得20×加速，还有进一步提升空间容量挑战：GPU显存容量难以满足大模型推理的需求为节省算力，必需保存kv-cache，即推理过程的历史中间结果随着生成序列越来越长，kv-cache大小线性增加以万亿模型为例:•模型大小2TB，至少需26张显卡•KV-Cache大小为7TB，还需要86张显卡345678910所需显存大小/ TB 挑战：如何为kv-cache设计高容量、高带宽的存储系统？假设显存大小为80GB，batch size为8，序列长度128k 解决思路：使用闲置CPU和主存来处理KV-Cache KV-Cache处理所需计算/访存比例更适合CPUCPU主存容量更大，可容纳更多KV-Cache，同时处理更多序列例子：仅需4台CPU服务器，即可容纳8TB的KV-Cache优势1：Batch size不再受到KV-Cache显存占用限制，GPU利用率提升优势2：聚合存储带宽高，KV-Cache处理吞吐量提升，成本降低清程pro推理服务器清程max推理机柜 Llama-13b模型某国产130b模型清程Pro相比云燧S60+vLLM提升1.7倍吞吐清程Max相比原有方案吞吐量提升7.6倍吞吐清程Max提升5.4倍吞吐所用数据越多算力缺口越大模型越大推理成本越高 _Kimi底层推理架构，承载其80%以上的流量以存换算！提升Kimi吞吐75%以上以超大规模分离式内存池为中心的KVCache缓存和调度用户体验（SLO）优先、面向过载场景的调度策略icon 更多可参见：https://github.com/kvcache-ai/MooncakeMooncake (1):在月之暗面做月饼，Kimi以KVCache为中心的分离式推理架构 KVCache缓存的关键：存的多，传得快，性价比高！充分利用当前GPU集群中闲置的内存容量和互联带宽省成本的同时降低响应延迟基于采样Kimi真实负载的模拟实验本系统使用10个预填充个实例和10个解码模拟实例（Mooncake-[10P+10D]），vLLM使用20个标准模拟实例（vLLM-[20M]）在满足SLOs的前提下，Mooncake-[10P+10D]相较于vLLM-[20M]可多处理75%的请求报告内容报告内容 02 03 大模型正在重新定义软件 Large Language Model Is Redefining The Software

点击免费查看完整报告