AI智能总结
演讲人:史少锋Datastrato/VP of engineering 关于我 史少锋 DatastratoVP of engineeringApachemember, Apache Incubator PMC, Mentor ofApache Gravitino, Gluten, HoraeDB等多个项目 01现有技术的挑战 目录 02统一数据治理的价值 03企业级RAG和Data Agent 04统一数据管理最佳实践 AI时代的数据需求 AI技术的应用激发企业对数据的旺盛需求 AI的应用重度依赖于数据;没有数据,AI会成为无源之水、无本之木 根据IDC估计,全世界的数据量将从2018年的33 ZB,增长到2025年的175 ZB。 数据–AI应用的核心 数据治理–AI应用中不可或缺的部分 AI is Only as Good as your Datamanagement is Good Garbage in, garbage out! 现有数据管理技术的挑战 数据被锁定在不同的数据源中 数据被地域分割 企业由单云单域架构向多云多域架构迈进 数据合规的限制 •GDPR、CCPA等要求•中心化的数据纳管已不现实 •不可避免的数据分割•跨云数据的传输成本 数据被组织分割 数据被孤立到不同部门拥有的数据平台中 新业务和LLM需要一种统一的方式来访问所有数据。 多种因素带来的数据管理的挑战 统一数据治理的价值 统一数据治理,实现全方位数据管理 Unified Catalog 统一数据管控面,旨在帮助用户快速构建和管理湖仓架构,实现全方位湖仓管理 统一权限管控 数据智能调优 统一数据/元数据管理视图 ✔调优全托管,优化可观测,大幅提升性能并降低管理成本✔支持多种触发方式(周期/按需/条件) ✔支持多租户和权限认证✔兼容HMS,与大数据生态天然融合 ✔集中权限管控,全域无缝访问✔精细化权限控制,安全合规无忧✔权限与Ranger生态互通 Apache Gravitino:统一数据/AI目录 Next-GenData Catalog is theCoreinNew Open Data Architecture https://gravitino.apache.org/ ApacheGravitino核心架构 统一数据的访问 统一数据的权限管控 数据工程师和AI团队更高效地协同工作 企业RAG和Dataagent RAG的几种形态 RAG(检索增强生成)是一种人工智能框架,它将传统信息检索系统(如搜索和数据库)的优势与生成式大语言模型(LLM)的功能相结合。 什么是Basic RAG 概要:•较为基本的数据准备(历史资料、 KB等)•较为简单的检索(基于语义的检索) 用户主要聚焦在技术选择上:•框架(LangChain,LlamaIndex 等)•基础模型/ Embedding模型•向量库/存储 挑战:•信息来源单一,可能不准确 •不能提供针对某个用户的准确信息•没有逻辑推导 什么是AdvancedRAG 什么是Multi-modularRAG 更进一步,在Retrieval前进行查询路由:-在不同KB之间选择-在不同retrieve方式之间选择 -基于规则、条件的判断-使用LLM判断 构建企业级Multi-modular RAG系统 在RAG框架中为每个数据库、每种数据源开发连接器/reader、获取其描述信息、获得prompt模版、进行NL2SQL/QL、查询数据、输入给LLM 缺点: 每个数据源/存储都需要在程序中接入配置复杂度高开发效率低安全性差无法复用 更好的方案:统一结构化/非结构化数据接入的RAG 使用统一元数据平台管理各类数据,获取数据内容描述、数据结构、访问方式等信息、借助大模型生成查询指令,并统一进行查询、结果返回、模型传递等 优点: 适配简单,开发效率高统一数据访问、统一权限管控易于扩展 Demo:https://github.com/apache/gravitino-playground/blob/main/init/jupyter/gravitino_llamaIndex_demo.ipynb 统一元数据管理最佳实践 实践1:某先进制造企业 Data+AI一体化的新挑战 支持好业务场景 管理好AI资产 实现DataAI一体化 对接机器学习框架传统机器学习大模型预训练/微调 非结构化数据海量数据“资产化”资产地图与资产治理 流程打通、产品打通DataOps/MLOps/LLMOps 新一代数据管理方案 利用Fileset管理非表格数据打通数据开发与AI开发实现AI资产的治理 AI数据纳管 存量数据纳管 存储无感搬迁 存量数据挂载至ExternalFileset支持设置TTL与TTV上下游迁移解耦,不强制迁移 支持挂载多种存储类型对业务透明的数据搬迁 Data+ AI一体化开发 统一AI资产管理 业务案例①:纳管后数据降本 某业务纳管存量数据后大幅度降本 数十PB存量数据、大量HDFS路径,难以管理纳管后识别出血缘根据血缘推荐TTL、TTV冷备和清理无用数据实现降本 业务案例②:基于统一元数据的MLOps 某业务部门的推荐工作流 过去 数据流与训练流割裂大量使用文件,难管理、难分析 现在 基于统一元数据打通流程数据加工直接产生Fileset基于Fileset实现特征分析与训练 业务案例③:基于统一元数据的LLMOps(WIP) 某业务部门的LLM微调工作流 过去 下载语料数据,再上传至大模型平台手动选取线上语料进行效果验证 未来 在线加工微调数据自动化的模型测试 实践2:某互联网社交平台 元数据管理的痛点 业务侧耦合度高:元数据使用方调用异构数据源方式多种多样数据治理能力有限:无法提供统一的审计、权限管理、TTL能力半结构化/非结构化数据源缺乏管理跨源数据Schema维护成本高 OneMeta:统一的元数据管理服务 OneMeta:集成Gravitino 提供定制化接口:dropPartitiosByFilter / loadFileDetail/ loadFiles ......提供定制化catalog实现:BiliIcebergCatalog /BiliKafkaCatalog / BiliDatabus Catalog ......降低代码的侵入性,便于同步社区最新代码 元数据管理架构演进 解耦业务方复杂依赖,降低元数据使用成本 解决由于引擎间差异、数据源差异造成的元数据不一致问题 解决由于Hive MetaStore造成的性能瓶颈 基于GravitinoFileset文件治理的成效 1.数据治理平台制定治理策略2.通过OneMeta对相应Fileset进行TTL和EC打标3. SDM读取OneMeta tag,向HDFS Server发送TTL & EC指令4.根据看板优化治理策略 HDFS EC:减少100PB+存储成本HDFS TTL:减少300PB+存储成本 Recap •AI时代对数据治理提出更高的要求•统一元数据可以帮助您管理多云异构数据,提供统一视图、确保安全与合规•企业级RAG应用需对接多种数据,需统一数据访问;•统一元数据+统一引擎助力实现更强大的Data agent,简化数据访问。 THANKS 智能未来,探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI