AI智能总结
小米AI数据管理落地实践 演讲人何婵 About Me 何婵 小米数据开发平台产品负责人 武汉大学硕士,加入小米4年负责Mi-DataWorks一站式数据生产平台Databa仅供学习不得转 本次分享要点 回顾小米表格数据管理方案 小米”Data+Al“建设背景与思路 平台落地实践与收益Datab仅供学习不得转载, 01小米表格数据管理方案概述 小米集团一站式大数据开发平台,面向数据开发工程师、算法工程师、数据分析师等群体提供全链路的分布式基础设施,助力各业务实现数据驱动决策 大数据开发平台架构图 表格数据的统一元数据方案 >数据管理核心能力:统一元数据管理、SQL/Scala开发能力、统一作业调度、智能运维监控等 》数据治理核心能力:数据血缘链路、权限管理、产出作业、成本管理、生命周期管理 02 小米"Data+Al"建设背景与思路 看自己:我们的Data和Al平台的现状 Data平台(大数据开发平台)与AI平台(Al训推平台)的链路割裂,权限不互通,多个平台通过HDFS文件路径对接,存在路径使用不规范、无法追溯审计、无法治理等问题。 从数据使用看:存储类型多、体量大、使用不规范 算法数据资产管理痛点 安全隐私有风险 缺乏算法代码调试环境 大量AI数据资产在本地管理,无法进行有效的管控、审计,安全隐私风险极大 在本地开发环境调试模型训练的代码,并将代码打包上传至训练平台,操作繁 数据使用效率低下 Al&Data体系割裂 AI+Data快速融合的大趋势下,缺少一个平台能同时承载AI数据开发和大数据开发 资产难治理 血缘缺失导致无法有效治理AI数据资产浪费(一数多存)、低价值(冷数据热存、过期未清理)普遍存在 "Data+Ai对数据开发平台能力提出新要求 我们的Data和Al平台融合的设计思路 统一元数据管理解决方案:Fileset 在线开发解决方案:PythonNotebook 03平台落地实践与收益 核心功能①:非表格数据管理 核心功能②:非表格数据治理 核心功能③:Notebook在线开发 Notebook代码调试环境 核心功能④:AI开发小助手 作业运维诊断大 开发助手 平台智能助手 2在S(tisoit,爱生了ylisgbgtin2F美,m大728606381BMR 常见问题①:Notebook在开发流程中的定位 总结 ,SQL查询与Notebook:相同点是都支持SQL语言和表格数据处理能力。不同点是SQL查询是交互式分析,Notebook是更强大报表式分析、同时提供算法开发 ·SQL查询Notebook与开发作业:SQL查询和Notebook都是调试环境,而开发作业提供定时调度、运维监控等能力 常见问题②:Notebook在Data、Al平台的作用 DAMSiops中国数据智能管理峰会业用途DATA&AIMANAGEMENTSUMMIT THANK.YOU!