AI智能总结
鲍中帅 科大讯飞·基础架构网络总监 鲍中帅 公司职位基础架构网络总监 Ø12年从业经验,擅长大规模网络架构设计及运维 Ø业内第一个超大规模国产万卡智算集群网络架构师 Ø亚太地区领先的人工智能企业数据中心网络部门负责人 大 模 型 发 展 及 国 产 化 集 群 介 绍 目录 万 卡 智 算 集 群 运 维 关 键 痛 点 万 卡 智 算 集 群 运 维 创 新 实 践 大模型发展及国产化集群介绍 认知大模型的“智能涌现”推动了通用人工智能的技术阶跃 2022年11月30日ChatGPT正式发布上线2个月活跃用户过亿2023年3月15日发布GPT-411月7日发布GPT-4 Turbo当前用户量突破17亿 2023年10月Gartner发布2024年十大战略技术趋势,到2026年将有超过80%企业使用通用人工智能 2024年3月《政府工作报告》:深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群 2023年4月28日中共中央政治局会议提出要重视通用人工智能发展 2023年12月11-12日中央经济工作会议强调:要大力推进新型工业化,发展数字经济,加快推动人工智能发展 国际大模型产业竞争目前呈现“激烈迅猛”之势 科大讯飞坚定投入和深度参与国产AI芯片软件生态建设 加速国产AI芯片软件生态建设,AI国产化取得重要进展,为突破美国大模型算力卡脖子奠定基础 国际领先的星火图文识别大模型 覆盖更多领域的专业符号识别 复杂版面的高精度解析 融合篇章语义的文字识别 面向教育、医疗等专业领域深度优化 测试结果来源:根据图文识别实际应用场景构建测试集STDOCR-EVAL-V1.0 赋能“1+N”认知智能大模型业务产出 集群算力资源利用率 业务价值 算力资源利用率95.7% 5分钟完成千卡诊断 1个通用认知智能大模型 万卡智算集群运维关键痛点 万卡算力集群,系统复杂、规模大、层次多 万卡算力集群组网拓扑 不同于通算,大模型训练任务对于网络要求苛刻34%的训练中断是由网络引起 üRDMA的丢包重传机制将导致带宽利用率快速降低,当丢包率达到千分之1时,训练效率降低明显ü动态时延提升将导致GPU利用率明显下降,AI训练应用的优化、网络拓扑配置以及拥塞控制机制是关键因素ü在超大规模集群中,34%的故障是由网络引起,其中光模块问题最为突出 联合创新光模块故障预测及分析方法,任务影响环比下降约70% 1、千卡集群运维情况稳定,算法未上报光功率异常伴随的模块故障模式2、光功率阈值法共初筛出两种类型时序异常特征:其一:恒定-40dbm的光模块持续down状态,不符合脏污松动特征:其二:不同通道光功率存在明显差异,属于现网稳定态下需要关注的时序特征 万卡集群运维创新实践 算力集群由“建好”到“用好”,结合指标定义,实现持续“提升可训练时长” 指标定义 框架体系 故障因子 体系标准 通过建立一套算力度量指标体系标准,综合考虑训练平台、软件、算力集群、基础设施等因素,为算力规划和发展提供科学依据。 通过明确的指标和评价方法,从多个维度和角度来观察和分析算力领域的各个因素,全面了解和评估算力领域的运维状况。 通过业界的洞察,明确影响训练中断的故障因子,为持续提升训练任务时长做准确输入 围绕训练作业流,通过对各个节点进行量化,构建指标树和度量模型,为制定相应的措施提供依据。 智算运维评价指标体系 基于全系统可靠性理论,制定智算集群可靠性保障指标体系 集群全系统可靠性理论 系统可靠性指标 算力集群隐患预估 算力集群业务保活 定义集群可靠性,形成服务可承诺指标 稳定网络结构设计,应对网络瘫痪、死锁、拥塞等问题消息聚合/网络流量优化,减少跨机箱传输,高效的带宽利用 •Fullmesh全链路探测,问题诊断与发现•通信故障,快速路径选择与调整,避免二次拥塞等•设备故障,最小冗余下业务保活•Checkpoint断点重训 “故障注入”,软硬件故障注入,模拟测试网络内部各类训练任务的稳定性 稳定 系统建模 基于目标,建立快速恢复保活机制,业务影响为“0” 科学建立网络-协议-调度-训练的系统关系,指导定位分析 重新定义,科学建立AI集群可靠性模型 硬件/软件/算子/通信…,持续不断的集群稳定性问题 单机多卡à万卡集群,系统级可靠性“断崖式”降低 •通信异常导致任务中断,网卡故障,训练过程中网络超时报错•npu异常告警,任务运行19小时后,节点故障,中断报错•npu故障导致作业无法下发•光模块端口故障,任务运行中断•超算局点没有更新,发包更新后问题修复•…..模型训练中断=经济损失 假设单卡可靠性99.99%,10K+的集群,近10W+光模块,上千万算子,上百套软件适配, 𝟗𝟗.𝟗𝟗%𝟏𝟎#=𝟑𝟔.𝟕% 智算集群运维痛点多样化,组织、流程和工具均须突破 当前运维痛点 AI训练要求故障快速恢复 跨层跨产品问题难定位 运维技能和人力问题 指标体系和工具面临重构 算力集群故障,会导致模型重训或断点续训,需要快速恢复故障 大规模计算/存储/网络设备,集群组网,跨产品难以定位;海量光纤/模块问题难排查 责任分工界面、指标体系需重新梳理,支撑全新AI训练需求和挑战 算力集群运维难度大,人员技能要求高,人力不足 运维体系对智算的适配 组织流程变革,构建符合智算特点的融合型团队 联合二线运维:与原厂驻场保障团队协同,包括故障、问题、变更、重客保障、技能传递,保障断点续训等业务问题快速解决 原厂三线直达接入:专属技术团队VIP受理&处理问题,并提供重点问题分析报告 备件管理服务:AI精准预测与补库,小时级派送<=4H,7*24响应,专业人员进行现场备件更换,保障备件快速响应 赋能、建设及沉淀,提升团队面对智算领域的运维能力 故障处理知识沉淀 建设运维知识库 培训赋能 46个深化设计文档、验收测试报告、维护指导、产品技术文档等; 涉及计算、网络和存储三个产品,共计398个故障场景指导 跨领域、全人员多轮次培训赋能80+人次; •内存故障•硬盘故障•电源故障•NPU故障•光模块故障•性能降低•分布式训练故障•…… •丢包故障•PFC死锁故障•主控板故障•接口板故障•交换网板故障•端口流量异常•光模块故障•…… 方案培训实施方案培训 •主存硬盘故常故障•BBU模块故障•风扇模块故障•接口卡/光模块故障•节点故障•…… 网络产品培训CE交换机日常维护 运维流程培训问题处理、变更流程 存储产品培训OceanStor日常维护 算存网一体、任务级智算运维平台;任务劣化感知、故障定位效率缩短至分钟级 应用场景: 总体方案: •集群例行检查:作业启动前触发调用,1分钟内完成检查;•集群深度检查:整集群维护场景下,针对集群环境全量检查,覆盖关键资源的性能测试,3分钟完成基础性能测试,10分钟完成深度性能测试 构建AI训练平台/计算/存储/网络统一运维数据池,训练任务ID及通讯关系,结合网络可视化还原实际传输路径并关联时间、对应链路、设备的数据。利用AI算法做跨域数据关系耦合及故障根因定位。 构建3级备件响应体系,匹配智算容灾管理需求 大模型对于训练的连续性要求高,备件快速响应的诉求强 单节点风险高:单平面(服务器NPU卡无冗余备份)、单链路(Leaf交换机和服务器之间链路无冗余)故障会造成整个训练中断 设备结构复杂,部件种类及数量多,对库存管理、派送、维修环境要求更高 结构复杂:部件种类、数量,约为X86、鲲鹏通算设备的2倍 重量大:拆装对人员工具要求高,有人身安全事故风险 •整机75公斤,拆装安全等级高;•NPU更换,容易引起碳化风险,人员要求高; 感谢大家观看