AI智能总结
陈海超字节跳动 陈海超 服务器运营质量工程师 目前,专注于字节跳动的服务器线上质量建设与保障多年服务器研发测试、技术支持与海量运营工作经验,曾任职华为、腾讯。负责解决过国内外互联网、运营商、金融等领域的服务器疑难问题;制定服务器集群的硬件监控标准与运营流程;主导CPU\网卡\硬盘\GPU等关键部件质量提升;深度参与A100/A800/H800等大模型训练集群的质量重保。曾任TCCP讲师(服务器运维高级工程师课程)、获VMWare、Window、PMP等认证。 线 上 质 量 的 重 要 性 目录 线 上 质 量 体 系 的 建 立 线 上 质 量 的 运 营 实 践 展 望 线上质量的重要性 服务器集群规模的快速增长 近十余年,随着互联网、云计算的蓬勃发展,全球陆续出现服务器保有量过100W+台的大规模集群 大规模服务器集群运营的质量挑战 随着服务器集群规模飞速扩张,机器型号层出不穷、硬件平台持续迭代、芯片集中度快速提升、业务应用场景多样化,稍有不慎,就会导致质量问题频繁发生,影响业务稳定性。 业务侧感受有:软件无法运行、部件故障率高、频繁宕机、性能不达标等 线上质量问题的发现来源 线上质量问题的根因分布 线上质量体系的建立 跨团队的服务器质量工作协同 运营/交付 研发/固件 01 承担服务器的线上运营质量指标监控与批次质量问题治理,保障服务器高质量交付及交付后的稳定性运行。同时,提供面向业务的各类运维服务。 突显技术优势,负责服务器的产品规划、产品研发与测试、版本管理、产品质量。 质量协同 平台建设 供应链 主要为运营和业务提供自动化、平台化的运维能力,包括数据采集、故障监控、数据分析展示等能力。 看护整机和关键部件的质量指标,负责供应商工厂质量管理,处理影响交付进度事件,协助线上批次质量问题处理。 线上质量之从源治理 生产质量 新品导入 制定新品导入测试用例基线、确定研发交付物、监控项评审、DVT评审 产测用例基线、PCN审核、LAR、LRR、RTY 灰度质量 DOA质量 灰度期间故障率监控、灰度质量问题处理、PVT评审 进场压测拦截、DOA故障率分析 线上质量之从源治理-新品导入 量产评估 产品运营 内部需求管理装机定制资产管理运维管理数据采集 灰度验证 运营基线维护 运维需求识别产品易用性产品可维护性 技术方案评估 产品形态架构方案平台影响 故障发现能力故障率监控现场运维能力质量问题发现 整机运营基线部件运营基线固件运营基线运营交付物 线上质量之从源治理-生产质量 关键质量KPIP级质量事故管理、GPU整机MFR 月度质量目标监控关键部件质量改善 交付、线上DOA、批次问题SLA 工厂质量RTY、LRR、LAR、PCN 物料质量MFR、AFR 线上质量之从源治理-DOA质量 l目标:提前将问题暴露并拦截在交付或更早阶段,减少挂树交付后再发生质量问题l定义:DOA(Dead On Arrival)=新到货设备一个月内故障数/自然月内交付机器数交付阶段DOA拦截率=交付阶段故障数/新到货设备一个月内故障数 线上质量之过程管控-线上质量 故障率监控 质量问题管理 对整机和部件的故障率,以及故障换件率进行日、月、年时间维度的监控,超出基线的进行深入分析 对有共性的质量问题进行分析、定级、和处理 宕机率监控 重点质量专项 针对GPU、AOC链路、液冷、DPU、固件等重点机型或子领域开展专项优化 对物理机造成hang死、重启等宕机现象进行监控,分析宕机发生的根因并进行治理 线上质量运营体系 线上质量的运营实践 线上质量问题的处理流程与关键指标 线上质量-故障率分析 保有量:一段时间内机器或部件数量 MFR:= ∑日故障数/等效保有量*100% 线上质量-宕机率分析 Ø宕机对单物理机业务的稳定性挑战最大,特别是大模型训练等业务,对宕机尤为敏感;Ø利用日志分析、图像识别、关键字提取等技术,自动对每一单宕机根因进行科学判断、统计、展示、及预警;Ø对宕机根因进行三级分类,一级:预期、非预期,二级:硬件宕机、软件宕机,三级:CPU、主板、内存等;Ø对少部分unknown宕机单深入分析,投入故障分析专家人工分析,持续改进,提取宕机分类特征值; l宕机根因的三级分类 l大模型训练集群 线上质量-重点专项 服务器关键部件的趋势 ØGPU快速迭代,监控和快速解决GPU相关质量问题,刻不容缓打破摩尔定律,NVIDIA新的GPU架构将从两年一次迭代,加速到一年为周期推出国内AI芯片厂商,陆续推出有竞争力产品,如华为昇腾910B\910ClA100机型逻辑结构图 服务器关键部件的趋势 Ø除了GPU,更多“*PU”也在快速涌现,如:DPU、NPU、TPU、APU、IPU其中,DPU与CPU、GPU并列称为“未来计算三大支柱”,行业预测5年后,每年新发货DPU服务器占比10% 服务器形态与集群的发展趋势 Ø液冷服务器 在高散热需求下,液冷已成为服务器温控技术的核心发展方向未来5年后,预计每年新发货中液冷服务器占比10%,浸没式液冷占比逐步扩大 政 策 要 求 国家对数据中心PUE和能耗双控的绿色达标要求越来越高,传统风冷方案已无法解决 物 理 极 限 芯片功率密度逐代升高,但电子器件的失效温度仍保持不变,散热挑战更大 散 热 功 耗 变 化 随着芯片散热功率提升,用于冷却的风扇功率呈指数级增高,总功耗上升 lX-Cubic是字节自研的浸没式液冷TANK,一款内部集成热交换器的浸没液冷系统。 服务器形态与集群的发展趋势 Ø业务集群三个趋势 线上质量管理的挑战 精细化质量数据管理与分析,从PN到DC 自维保模式下的线上质量管理 需要根据各部件特点,开展⽐PN更细颗粒度的分析,监控物料来源及其报错类型,⽐如CPU的Date Code 01需要线上质量团队承载更多原来由OEM⼚商负责的技术分析、资源协调等⼯作 拥抱AIOps,优化故障预测和自愈 定制化的监管控 和部件⼚商深度合作,利⽤⼤数据分析能⼒,开展硬盘、内存的故障预测和⾃动修复 03不同业务,对同⼀故障的敏感度会不⼀样,需要根据业务特点去定制化服务器监管控策略 高效运维社区DevOps时代 感谢大家观看