行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

基于eBPF和Agent构建LLM训练推理优化体系

信息技术 2025-03-31 - 向阳一切如初

LLM 训练推理优化体系

背景：训练和推理的效率挑战

LLM 训练和推理面临显著效率挑战：

训练开销大、效率低：GPT-4 训练时长约 90-100 天，GPU 利用率仅 32%-36%，年化故障率高达 6%-11%。代码层面低效主因包括计算效率、显存拷贝和网络传输问题。
推理开销大、时延高：Llama 8B 模型推理需 80GB 显存，GPU 数量与性能需平衡，否则通信复杂或内存碎块增多。排查推理显存消耗和在线服务分布式追踪难度大。

现状：传统解决方案和工具的问题

传统工具存在局限：

GPU 监控：Nvidia Nsight 需重启进程且缺少 CPU Context，PyTorch Profiler 仅支持 PyTorch 且性能影响大。
RDMA 网络：指标粒度粗，公有云网络性能黑盒。
在线推理服务可观测性：OpenLLMetry 等工具支持语言有限，需修改代码。

方法：eBPF 构建零侵扰可观测性

eBPF 技术优势：

全栈可观测性：支持 Socket、File、Perf Events 等事件，实现零代码侵入。
业内实践：华为、Meta 已探索 eBPF 在 Profiling 和 GPU Profiling 中的应用。

技术挑战：

栈合并：合并 Python 和 C/C++ 调用栈以实现全栈剖析。
分布式追踪：实现 Network-Centric 分布式追踪。

实践：PyTorch 全栈剖析和追踪

DeepFlow 中的 eBPF AutoProfiling：

Compute Profiling：实现 CPU 和 GPU 火焰图，全栈剖析 Python、PyTorch、C/C++ 和 CUDA 函数耗时。
HBM Profiling：剖析 CUDA 显存申请、实时用量和 Host<->Device 拷贝耗时。
COMM Profiling：使用 eBPF Hook RDMA API 剖析 RoCEv2 网络性能，关键指标包括丢包率、时延和吞吐。
Distributed Tracing：支持在线推理服务和端侧 ROS2 推理服务，内置和可编程协议识别能力，提取业务属性标签。

探索：Agent 自动优化ML 代码

利用 LLM Agent 自动优化 ML 代码：

快速理解全栈函数调用。
DeepFlow 实现零侵扰全栈可观测性，包括集合通信、网络性能、在线推理服务和分布式追踪，无需修改代码或重启进程。

基于eBPF和Agent构建LLM训练推理优化体系向阳云杉网络 1.背景：训练和推理的效率挑战2.现状：传统解决方案和工具的问题3.方法：eBPF构建零侵扰可观测性4.实践：PyTorch全栈剖析和追踪5.探索：Agent自动优化ML代码目录CONTENTS 背景：训练和推理的效率挑战PART 01 •Everything We Know About GPT-4-Klu.ai•GPT4-All Details Leaked•The Llama 3 Herd of Models 148/54*365/16384 = 6%(148+72+19+17+6+6)/54*365/16384 = 11% 训练时间长：数月 GPU数量多：数万 GPU年化故障高：6%~11% 模型参数大：万亿 GPU利用率低：40% 代码层面训练低效的主要原因计算效率显存拷贝 •Yanjie Gao(Microsoft Research) et al, ACM ICSE 2024,An Empirical Study on Low GPU Utilization of Deep Learning Jobs.•Yanjie Gao (Microsoft Research) et al, ACM ICSE 2023,An Empirical Study on Quality Issues of Deep Learning Platform. 网络传输如何知晓你的训练任务是否存在这些问题？ Time To First Token (TTFT)Time Per Output Token (TPOT)Model Bandwidth Utilization(MBU) 80GB: 1 GPU640GB: 1 Node x 8 GPU1.28TB：2 Node x 8 GPU GPU并非越少越好 GPU越少，则每个GPU需要加载更多的模型参数。 GPU并非越多越好 GPU越多，则通信越复杂，内存碎块越多。 •LLM Memory Requirements•LLM Inference Performance Engineering: Best Practices 没有银弹，唯有持续观测&优化。排查LLM推理显存消耗的挑战 Biz vLLM 从推理应用到在线LLM推理服务云-在线推理服务是一个复杂的分布式服务TTFT、TPOT、时延、吞吐从大模型到小模型：消费级GPU、CPU协同 Accelerating Model Training in Multi-cluster Environments with Consumer-grade GPUs, SIGCOMM 2024. AI训练和推理的可观测性需求现状：传统解决方案和工具的问题PART 02 DCGM Prometheus Exporter 发现故障√优化性能X GPU：Nvidia Nsight、PyTorch Profiler 需要手工精心打造插桩、开销 Nsight的问题：需要重启进程、缺少CPU Context。 PyTorchProfiler的问题：只能用于PyTorch；性能影响大；需要改代码、重启进程。 RDMA网络：网卡/交换机指标、拨测在线推理服务的可观测性：分布式追踪 OpenLIT 方法：eBPF构建零侵扰可观测性PART 03 eBPF的可观测性能力使用eBPF实现可观测性的优势业内探索：eBPFProfiling & Tracing 使用eBPF实现持续剖析的技术挑战如何合并Python Stack和C/C++ Stack #0__select_nocancel()#1pysleep#2time_sleep#3call_function#4PyEval_EvalFrameEx#5fast_function#6call_function#7PyEval_EvalFrameEx#8fast_function#9call_function#10PyEval_EvalFrameEx#11fast_function#12call_function#13PyEval_EvalFrameEx#14fast_function#15call_function#16PyEval_EvalFrameEx#17_PyEval_EvalCodeWithName#18PyEval_EvalCodeEx#19PyEval_EvalCode 例：剖析显存申请和使用量 ①eBPF uprobeHook cuda_malloc获取显存申请调用栈 ②eBPF uretprobeHook cuda_malloc获取申请的显存地址使用eBPF实现分布式追踪的技术挑战实践：PyTorch全栈剖析和追踪PART 04 DeepFlow中的eBPF AutoProfiling 1. Compute Profiling PyTorch+nanoGPTCPU & GPU火焰图 PyTorch+nanoGPTCPU & GPU火焰图 2. HBM Profiling CUDA mem-alloc显存申请火焰图 CUDA mem-inuse显存实时用量火焰图 3. COMM. Profiling RDMA网络性能剖析关键标签： •Client及其关联的K8s Pod、标签•Server及其关联的K8s Pod、标签•ClientQueue Pair•ServerQueue Pair关键指标： •丢包率：即NACK的比例 •时延：ACK的时延•吞吐：通信对的bps、pps等 eBPF Hooks 4. Distributed Tracing 在线推理服务、端侧ROS2推理服务内置协议识别能力+可编程协议识别能力探索：Agent自动优化ML代码PART 05 如何快速高效的理解全栈函数利用LLM Agent自动优化ML代码利用LLM Agent自动优化ML代码/ 2 DeepFlow：零侵扰实现AI应用的全栈可观测性 THANKS

点击免费查看完整报告