机器学习平台能力
机器学习平台需具备数据处理、模型开发、模型训练和模型部署能力,涵盖数据预处理、特征处理、数据增强、传统机器学习算法、深度学习算法、多种算法框架、自定义算法框架、多种数据存储、异构硬件、多种推理框架和自定义推理框架等。
PAI产品架构
阿里云机器学习平台PAI的架构支持用户管理、效率体验、资源管理、节省成本、弹性可复现、异构算力、数据自治和AutoML等特性。其深度学习平台采用云原生架构,基于Kubernetes(ACK)构建,包含DLC Operator、Kube-Queue Operator、KubeDLOperator、DLC Service、UserAuth、Web UI、CLISDK、OpenAPI、RDS、LogEvent、Metrics等组件。
PAI-DLC架构设计
PAI-DLC架构包括CPUGPU/DCU、FPGA、ARM、MANAS/OSS/CPFS等计算资源,通过Kubernetes进行容器化管理,支持Device Plugin、CRIC、NICI、SI Plugin、Persistent Agent等插件。关键特性包括:
- 容器化引擎:支持自定义镜像和完整CI/CD流程。
- OpenAPI:所有功能API化,支持第三方集成。
- AI负载调度:默认调度器为依次调度,支持Coscheduling(All-or-Nothing)、Binpack(减少资源碎片)和Capacity Scheduling(资源配额管理)。
- GPU虚拟化:显存隔离、算力隔离、故障隔离,支持双维度、任意规格、兼容性和高性能。
- GPU共享调度:支持最小0.1卡创建实例,指标采集,Quota记账,单机多卡/多机多卡场景。
- EasyScale:精度无损弹性训练,支持Worker分时复用GPU,保障资源弹性但训练流程不变。
- 数据访问:支持OSS、NAS、CPFS等存储介质,本地挂载、PVC挂载,数据加速通过Fluid(Alluxio/JindoFS)实现,支持数据亲和性调度和Namespace数据隔离。
- 可观测性:日志/事件采集通过KubeEventer、LogPilot、LogStash、ElasticSearch实现;指标采集通过Node Exporter、GPU Exporter、Prometheus、Custom Exporter、RDMA/cAdvisor实现。
未来展望
未来发展方向包括MLOps、离在线混部及统一调度器、国产化芯片和标准化。