您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:大模型训练精度问题定位案例 - 发现报告

大模型训练精度问题定位案例

信息技术2025-05-29-华为阿***
AI智能总结
查看更多
大模型训练精度问题定位案例

012025-05-29 版权所有©华为技术有限公司2025。保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。文档版本01 (2025-05-29)版权所有©华为技术有限公司 i 安全声明产品生命周期政策华为公司对产品生命周期的规定以“产品生命周期终止政策”为准,该政策的详细内容请参见如下网址:https://support.huawei.com/ecolumnsweb/zh/warranty-policy漏洞处理流程华为公司对产品漏洞管理的规定以“漏洞处理流程”为准,该流程的详细内容请参见如下网址:https://www.huawei.com/cn/psirt/vul-response-process如企业客户须获取漏洞信息,请参见如下网址:https://securitybulletin.huawei.com/enterprise/cn/security-advisory华为初始证书权责说明华为公司对随设备出厂的初始数字证书,发布了“华为设备初始数字证书权责说明”,该说明的详细内容请参见如下网址:https://support.huawei.com/enterprise/zh/bulletins-service/ENEWS2000015766华为企业业务最终用户许可协议(EULA)本最终用户许可协议是最终用户(个人、公司或其他任何实体)与华为公司就华为软件的使用所缔结的协议。最终用户对华为软件的使用受本协议约束,该协议的详细内容请参见如下网址:https://e.huawei.com/cn/about/eula产品资料生命周期策略华为公司针对随产品版本发布的售后客户资料(产品资料),发布了“产品资料生命周期策略”,该策略的详细内容请参见如下网址:https://support.huawei.com/enterprise/zh/bulletins-website/ENEWS2000017760文档版本01 (2025-05-29) 版权所有©华为技术有限公司 ii 目录1精度问题概述和场景.................................................................................................................. 12问题定位方法.............................................................................................................................. 32.1精度问题定位流程.................................................................................................................................................................... 32.2 Checklist检查............................................................................................................................................................................ 42.3问题复现...................................................................................................................................................................................... 42.4精度问题分场景定位................................................................................................................................................................ 52.5特殊情况排查............................................................................................................................................................................. 62.6硬件压测...................................................................................................................................................................................... 63精度定位案例.............................................................................................................................. 73.1 Checklist不一致案例............................................................................................................................................................... 73.1.1配置项不一致..........................................................................................................................................................................73.1.2读取数据不一致..................................................................................................................................................................... 73.1.3模型结构不一致..................................................................................................................................................................... 93.2确定性计算案例...................................................................................................................................................................... 113.3 msprobe工具定位案例........................................................................................................................................................ 143.3.1首step loss不一致(或同权重推理不一致)............................................................................................................. 143.3.2长稳训练loss不一致,前期对齐,后期差异变大..................................................................................................... 163.3.3溢出或NaN问题................................................................................................................................................................ 183.4特殊情况排查案例.................................................................................................................................................................. 253.5硬件压测案例...........................................................................................................................................................................25iii 文档版本01 (2025-05-29)版权所有©华为技术有限公司 精度问题概述和场景随着大语言模型技术的迅速发展,尤其是在诸如ChatGPT、DeepSeek等应用的引领下,大模型迅速成为AI界热点。大模型训练需要强大的算力支撑,涉及数据、模型、框架、算子、硬件等诸多环节。由于规模巨大,训练过程复杂,经常出现精度问题。训练精度问题是多种因素共同作用的结果。主要表现为训练收敛不及预期,如loss起飞、毛刺、NaN、下游任务评测效果变差等。●有标杆对应迁移场景,即用户将原本在标杆(如GPU、其他训练框架)上训练的大语言模型或者其他类型深度神经网络的训练迁移到NPU上进行训练。●无标杆对应原生开发场景,即用户直接在NPU上进行模型搭建及训练。其中,本文聚焦主流的有标杆迁移场景,主要表现为NPU训练过程和结果与标杆(GPU或NPU的其他框架)上的训练过程和结果不一致且偏差超过容忍阈值,我们称之为不对齐。该场景具体可再细分为以下几类现象:●首step差异,即第0步或前几步loss就已与标杆相比出现差异,平均误差大于1%,●长稳loss差异,即前期loss拟合但后期与标杆差异变大,平均误差