eBay AI 平台建设与实践
愿景与核心能力
eBay AI 平台旨在使 AI 从业者能够自助式地构建、训练和部署机器学习模型,实现全面管理、高效且平台规模化的目标。平台核心能力包括:
- 提供统一目录(数据、存储变量、功能、模型、解决方案等)以促进发现、重用和治理
- 通过管理 API 和服务实现 MLP 托管生命周期及 E2E 无缝集成
- 启用统一的元数据和定义,支持跨在线和离线场景的自助服务
- 基于集中式配置和元数据驱动设计,实现生命周期管理和治理
- 提供 E2E 数据沿袭,对 AI 平台域实体应用统一监控
架构原则与实体建模
- 架构原则强调统一目录、管理 API、生命周期集成、元数据驱动设计、自助服务及 E2E 数据沿袭
- 平台实体包括数据、功能、模型、解决方案等,通过依赖关系 DAG 和执行计划进行建模
- 在线集成体系结构涵盖统一 CPU/GPU 推理平台和模型与特征监控
数据策略与功能类型
- 数据策略对 AI/ML 至关重要,需涵盖结构化、半结构化及非结构化数据(图像、视频、文本、3D 等)
- 功能类型比较:
- 批处理功能:支持最终用户自助服务,数据新鲜度延迟较长(1 天+),P99 延迟 > 5 秒
- NRT 功能:支持 MLP 管理最终用户自助服务,实时 P99 < 5 秒,数据新鲜度高
- NRT 功能优势:实时性、数据源丰富(ETL/批处理/快照),支持请求上下文及在线数据服务
NRT 战略与特征生命周期管理
- 拥抱 NRT 战略,综合数据策略,实现特征生命周期管理
- 核心组件:
- 特征 PiT 仿真
- 统一模型规格
- 特征平台驱动/培训设置
- API 规范自动生成培训计划
- 制裁平台特征/模型快照
- 训练集生成
- 统一功能存储
- 高吞吐量数据访问
挑战与解决方案
- 传统 ML 平台缺乏统一数据策略和自助服务支持
- 传统平台更关注培训,数据/功能和推理支持不足
- 解决方案与平台界限模糊,跨功能集成缺乏
- 策略倾向投入解决方案而非平台