登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
字节跳动云原生机器学习离线训练实践_单既喜
文化传媒
2022-07-19
ArchSummit深圳2022|全球架构师峰会
董***
AI智能总结
查看更多
字节跳动云原生机器学习离线训练实践总结
简介
业务背景
:覆盖推荐、广告、搜索等业务,需处理大规模机器学习训练任务。
架构演进
:从集中式离线训练(Reckon+Lagrangex)逐步发展为云原生架构(Reckon+Lagrangex+Primus),支持分布式、异构资源调度。
核心组件
:Lagrange(TF框架)、Lagrange-Lite(TF框架)、Primus(云原生离线训练框架)、HDFS、Kubernetes/YARN、蒲公英(GPU框架)、美洲豹(GPU框架)、PSP、Ream(资源Quota管理)。
云原生离线训练架构
架构1.0(Reckon+Lagrangex)
:集中式离线训练,基于Docker on YARN,服务化Parameter Server(PS),支持0->150万vCores。
架构2.0(Reckon+Lagrangex+Primus)
:分布式离线训练,采用伴生PS,声明式API,支持Top 3离线计算框架(Spark、Flink、Primus)。
架构3.0(Reckon+Lagrangex+Primus+Kubernetes)
:集中式API Server+CRDs,自研Godel(Kubernetes),支持30%云原生作业规模。
性能指标
:每日10000作业,400万vCore总量,30万vCore K8s作业规模,最大4000单作业。
Primus Operator
整体架构
:多角色+异构微服务计算调度,容器化弹性API-Server,包含Observe、Update、Compute、Reconcile等功能。
调度策略
:支持PrimusRole(PS、Worker、GPU Worker)、动态策略(Gang Policy)、Lagrange/Lagrange-Lite多角色异构调度、Lagrange-Lite多角色调度。
弹性调度
:混部(Smart Resource:CPU利用率20%->70%)、Slow Start(强稳定性+高训练速度)、潮汐/反潮汐训练。
数据编排
:支持HDFS、Feature Store(Iceberg)、Kafka等复杂数据源,编排策略包括Group By、Filter、Shuffle Within Partition、Global Shuffle。
案例与最佳实践
服务化PS vs. 云原生PS
:
服务化PS:同机房撮合,资源利用率低,运维难度大,隔离性差。
云原生PS:分布式部署,性能优化(Numa Bind),全链路Incremental Checkpoint,PS单点Kill/恢复,Smart Resource。
Primus Flow
:支持特征调研(行级Shuffle)、丰富数据源(Hudi、TOS、HBase)、多数据流编排(普通流与预处理流混合)。
批流一体
:Flink->Primus Streaming(抖音晚高峰+GPU),支持N个角色(GPU+CPU+伴生PS),Forward+Rebalance。
混部训练
:计算管理(-1818等退出码识别),数据管理(样本丢失/重复问题)。
Primus Native
:编程范式(Configuration、Declarative programming、Py4J)、UDF、AutoType Convert、数据执行器优化,性能提升:
总吞吐量:3.3GB/S->13.5GB/S(提升4x)
单节点吞吐率:411MB/S->1.2GB/S(提升4x)
CPU使用率:2.25核->5.25核(提升2.3x)
总结
云原生离线训练
:超大规模容器化(Docker on YARN,K8S),多环境声明式API(YARN+K8S),计算能力(多角色+异构+弹性调度),数据能力(复杂数据编排+高性能IPC传输)。
案例应用
:Primus Flow、Primus Streaming(批流一体)、超大规模混部训练、Primus Native。
你可能感兴趣
04-美团大数据及机器学习基础设施云原生改造实践-吴通
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
云原生离线在线资源混部实践
中国数据智能管理峰会
2023-04-15
字节跳动基于KubeAdmiral的分布式云原生多云多集群管理技术实践
开放运维联盟&高效运维社区&DevOps时代
2023-04-30
字节跳动云原生微服务架构原理与开源实践
信息技术
CloudWeGO
2023-11-07