登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
陈昊 蚂蚁集团 - 通用分布式计算引擎 Ray
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
芥末豆
Ray 通用分布式计算引擎研报总结
核心观点
问题解决
:Ray 旨在解决分布式系统开发中的通用难题,如组件通信、服务发现、任务调度、监控、故障恢复、数据存储和传输、部署与运维等,通过提供简单通用的分布式编程API,降低分布式系统开发复杂度。
API设计
:提供Task(无状态计算单元)、Actor(有状态计算单元)和Object Store(分布式对象存储)等API,支持Python/Java/C++多语言,实现跨语言调用和序列化。
核心功能
:屏蔽分布式系统底层细节,包括通信、调度、数据存储、故障恢复、环境依赖、运维部署等,实现通用分布式编程。
蚂蚁应用
:自2018年使用Ray,已连续四年平稳支持双十一,日常生产环境规模超30万CPU Core,支持Kubernetes、私有集群和主流云厂商部署。
关键数据
蚂蚁生产环境规模
:超过30万CPU Core。
Ray开源贡献
:Java/C++/跨语言API、Actor Fault Tolerance、多租户、Actor Task反压、New Dashboard、集群/作业弹性、分布式Common Libraries等。
架构优化
:GCS Service、Actor Direct Call、Core Worker、GCS-based Actor Scheduling。
性能指标
:单集群支持3k节点+80k Actor,Actor创建:10k/min,Actor故障恢复:2s,Actor task throughput:80k/s。
应用案例
在线机器学习
:涵盖整个在线学习链路,通过Collocation调度+Shared Memory提高数据传输效率,一体化Checkpoint联动Failover,全链路数据流反压&动态扩缩容。
统一分布计算底盘
:简化新分布式系统开发,统一Runtime优化不同计算模式融合,功能性能优化可复用。
开源生态
开源社区
:2017年由UC Berkeley开源,蚂蚁长期深度参与,官网:https://github.com/ray-project/ray。
组件
:Ray Core(通用分布式计算框架)、RayClusters(集群部署和管理)、RayML(分布式机器学习Toolkit)。
Ray 2.0计划
:RayML(Serve Pipelines GA、Serve JSON API、Train GA、RLlibAPI Improvements)、Ray Core(State Observability、Cluster Fault Tolerance、Scalable Data Shuffle)、RayClusters(KubeRayGA、Job Submission API GA)。
你可能感兴趣
周强- GeaFlow:蚂蚁集团自研流式图计算引擎及其应用
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
Ray在微信AI计算中的大规模实践
商贸零售
DataFun
2025-02-23
【AI产业跟踪】阿里成立Qwen具身智能小分队,蚂蚁集团开源万亿参数通用语言模型Ling-1T
商贸零售
国泰海通证券
2025-10-13
计算密集型应用以ServiceMesh为支点解决分布式问题的探索与实践_王志龙
商贸零售
ArchSummit深圳2023|全球架构师峰会
2023-08-02
CCKS 2021全国知识图谱与语义计算大会:通用百科知识图谱实体类型推断
商贸零售
OPPO
2022-11-07