您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[百度]:大模型场景下智算平台的设计与优化实践 - 发现报告

大模型场景下智算平台的设计与优化实践

信息技术2024-06-14-百度C***
AI智能总结
查看更多
大模型场景下智算平台的设计与优化实践

肖松2024.06.14 引言 不同时期对智算平台的需求 我资源比较少,几十卡的规模,如何提升卡的利用率? 目录 01大模型时代,智算平台新特点 4 02智算平台需解决的问题 6 03大模型场景技术实践 8 04对于智算平台发展的未来思考 01大模型时代,智算平台新特点 小模型vs.大模型 大模型时代,智算平台新特点 小模型vs.大模型 新要求 02智算平台需解决的问题 基础设施、调度、应用、运维 智算平台需解决的问题 基础设施、调度、应用、运维 应用 资源管理 任务管理 调度 运维 基础设施 03大模型场景技术实践 基础设施层 基础设施——混合多芯 国产卡能否与NV卡一起使用? 基础设施——高性能存储 如何实现数据集加速?如何I/O加速? 基础设施——高性能网络如何实现通信库加速? 03大模型场景技术实践调度层 调度——GPU虚拟化 如何提高单卡资源利用率? 内核态方案 内核模块修改,提供显存限制,算力时分复用 Full/para-虚拟化,内核模块修改,MMIO拦截,显存划分,算力时分复用 硬件方案 NV官方,硬件划分,提供显存划分、算力划分、编解码划分(1/7)Nvidia MIG SR-IOV,硬件划分,提供显存划分、算力划分(1/3、1/2)昆仑2 SR-IOV 调度——GPU虚拟化 双引擎GPU虚拟化 优势:性能好,长尾延迟低缺点:故障隔离差用户态 调度——资源管理和调度逻辑 如何调度资源? 03大模型场景技术实践应用层 应用——AIAK训推加速 如何优化训练和推理性能? 应用——训练容错 如何提升训练稳定性? 应用——FlashCheckpoint 如何降低Checkpoint时间? FlashCKPT并行内存写入,快速完成checkpoint操作,提升整体有效训练时长。业务可制定更细粒度的检查点策略,从而降低故障恢复时间 03大模型场景技术实践运维 03大模型场景技术实践 百度百舸架构和演进 智算平台架构 百度百舸 百度百舸发展历程 对智算平台发展的一些思考 智算平台个人思考 承上启下,向下纳管异构资源,向上承载AI平台 T H A N K S