登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
字节跳动云原生机器学习离线训练实践_单既喜
文化传媒
2022-07-19
ArchSummit深圳2022|全球架构师峰会
董亚琴
字节跳动云原生机器学习离线训练实践总结
简介
业务背景
:覆盖推荐、广告、搜索等业务,需处理大规模机器学习训练任务。
架构演进
:从集中式离线训练(Reckon+Lagrangex)逐步发展为云原生架构(Reckon+Lagrangex+Primus),支持分布式、异构资源调度。
核心组件
:Lagrange(TF框架)、Lagrange-Lite(TF框架)、Primus(云原生离线训练框架)、HDFS、Kubernetes/YARN、蒲公英(GPU框架)、美洲豹(GPU框架)、PSP、Ream(资源Quota管理)。
云原生离线训练架构
架构1.0(Reckon+Lagrangex)
:集中式离线训练,基于Docker on YARN,服务化Parameter Server(PS),支持0->150万vCores。
架构2.0(Reckon+Lagrangex+Primus)
:分布式离线训练,采用伴生PS,声明式API,支持Top 3离线计算框架(Spark、Flink、Primus)。
架构3.0(Reckon+Lagrangex+Primus+Kubernetes)
:集中式API Server+CRDs,自研Godel(Kubernetes),支持30%云原生作业规模。
性能指标
:每日10000作业,400万vCore总量,30万vCore K8s作业规模,最大4000单作业。
Primus Operator
整体架构
:多角色+异构微服务计算调度,容器化弹性API-Server,包含Observe、Update、Compute、Reconcile等功能。
调度策略
:支持PrimusRole(PS、Worker、GPU Worker)、动态策略(Gang Policy)、Lagrange/Lagrange-Lite多角色异构调度、Lagrange-Lite多角色调度。
弹性调度
:混部(Smart Resource:CPU利用率20%->70%)、Slow Start(强稳定性+高训练速度)、潮汐/反潮汐训练。
数据编排
:支持HDFS、Feature Store(Iceberg)、Kafka等复杂数据源,编排策略包括Group By、Filter、Shuffle Within Partition、Global Shuffle。
案例与最佳实践
服务化PS vs. 云原生PS
:
服务化PS:同机房撮合,资源利用率低,运维难度大,隔离性差。
云原生PS:分布式部署,性能优化(Numa Bind),全链路Incremental Checkpoint,PS单点Kill/恢复,Smart Resource。
Primus Flow
:支持特征调研(行级Shuffle)、丰富数据源(Hudi、TOS、HBase)、多数据流编排(普通流与预处理流混合)。
批流一体
:Flink->Primus Streaming(抖音晚高峰+GPU),支持N个角色(GPU+CPU+伴生PS),Forward+Rebalance。
混部训练
:计算管理(-1818等退出码识别),数据管理(样本丢失/重复问题)。
Primus Native
:编程范式(Configuration、Declarative programming、Py4J)、UDF、AutoType Convert、数据执行器优化,性能提升:
总吞吐量:3.3GB/S->13.5GB/S(提升4x)
单节点吞吐率:411MB/S->1.2GB/S(提升4x)
CPU使用率:2.25核->5.25核(提升2.3x)
总结
云原生离线训练
:超大规模容器化(Docker on YARN,K8S),多环境声明式API(YARN+K8S),计算能力(多角色+异构+弹性调度),数据能力(复杂数据编排+高性能IPC传输)。
案例应用
:Primus Flow、Primus Streaming(批流一体)、超大规模混部训练、Primus Native。
你可能感兴趣
04-美团大数据及机器学习基础设施云原生改造实践-吴通
商贸零售
ArchSummit北京2023|全球架构师峰会
2023-06-06
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
商贸零售
ArchSummit上海2023|全球架构师峰会
2023-06-06
云原生离线在线资源混部实践
商贸零售
中国数据智能管理峰会
2023-04-15
字节跳动基于KubeAdmiral的分布式云原生多云多集群管理技术实践
商贸零售
开放运维联盟&高效运维社区&DevOps时代
2023-04-30
字节跳动云原生微服务架构原理与开源实践
商贸零售
CloudWeGO
2023-11-07