行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

从统一数据治理到下一代企业级 Data Agent 的实践与创新

信息技术 2025-02-01 史少锋 AIcon 用户zL5HoU

AI 时代的数据需求

AI 技术的应用激发企业对数据的旺盛需求，AI 的应用重度依赖于数据。根据IDC估计，全世界的数据量将从2018年的 33 ZB，增长到2025年的 175 ZB。数据贯穿于 AI 应用的整个链路，包括数据加工、数据集、模型和向量等。数据治理是 AI 应用中不可或缺的部分，涉及数据发现、数据血缘、数据安全、数据标准、数据质量、数据生命周期等，优秀的数据治理对 AI 的成功应用至关重要。

现有数据管理技术的挑战

现有数据管理技术面临诸多挑战，包括：

数据孤岛：数据被锁定在不同的数据源中，如数据湖、数据仓库、消息队列、向量数据库、分布式文件系统等，形成数据孤岛。
地域分割：企业由单云单域架构向多云多域架构迈进，数据合规的限制导致数据分割，跨云数据的传输成本高，GDPR、CCPA 等要求也加剧了数据管理的复杂性。
组织分割：数据被孤立到不同部门拥有的数据平台中，新业务和 LLM 需要一种统一的方式来访问所有数据。
隐藏问题：数据发现困难、数据连接复杂、数据分类不完善、数据生命周期管理混乱、元数据语义缺失、数据主权难以保障等问题。

这些挑战导致决策信息不完整、资源浪费、合规风险、阻碍业务创新发展等问题。

统一数据治理的价值

统一数据治理可以实现全方位数据管理，其价值包括：

统一数据/元数据管理视图：通过 Unified Catalog 实现统一数据/元数据管理视图，支持多租户和权限认证，兼容 HMS，与大数据生态天然融合。
统一权限管控：通过统一权限管控，实现集中权限管控，全域无缝访问，精细化权限控制，安全合规无忧，权限与 Ranger 生态互通。
数据智能调优：通过统一数据管控面，帮助用户快速构建和管理湖仓架构，实现全方位湖仓管理，支持多种触发方式（周期/按需/条件）的数据智能调优。

Apache Gravitino 作为统一数据/AI 目录，旨在实现数据统一视图，从元数据层面上达到 SSOT，统一访问和治理。其核心架构包括 Metadata Storage、Functionality layer、Interface layer、Connection Layer 和 Unified REST APIs，支持 Tabular data 和 Non-tabular data 的统一访问和治理。

企业 RAG 和 Data agent

RAG（检索增强生成）是一种人工智能框架，将传统信息检索系统与生成式大语言模型（LLM）的功能相结合。RAG 的几种形态包括：

Basic RAG：效果一般，基于向量的检索，易于实现，但数据有限，缺少对查询和结果进行校验。
Advanced RAG：结合关键字和语义检索的结果，检索前后进行一定预处理，提升质量和准确性。
Multi-modular RAG：由决策引擎选择 RAG 方法，使用多种数据源/知识库，意图理解更准确，知识内容更丰富，准确度更高。

构建企业级 Multi-modular RAG 系统需要为每个数据库、每种数据源开发连接器/reader、获取其描述信息、获得 prompt 模版、进行 NL2SQL/QL、查询数据、输入给 LLM。而使用统一元数据平台管理各类数据，可以简化开发，实现统一数据访问和权限管控，易于扩展。

统一元数据管理最佳实践

实践案例包括：

某先进制造企业：通过基于 Gravitino 的统一元数据管理，实现 Data + AI 一体化，包括存量数据纳管、Data + AI 一体化开发、统一 AI 资产管理等。业务案例包括数据降本、基于统一元数据的 MLOps 等。
某互联网社交平台：通过 OneMeta 集成 Gravitino，提供定制化接口和 catalog 实现，降低代码的侵入性，便于同步社区最新代码。基于 Gravitino Fileset 文件治理，实现 HDFS EC 和 TTL，减少存储成本。

总结

AI 时代对数据治理提出更高的要求，统一元数据可以帮助企业管理多云异构数据，提供统一视图、确保安全与合规。企业级 RAG 应用需对接多种数据，需统一数据访问；统一元数据+统一引擎助力实现更强大的 Data agent，简化数据访问。

演讲人：史少锋Datastrato/VP of engineering 关于我史少锋 DatastratoVP of engineeringApachemember, Apache Incubator PMC, Mentor ofApache Gravitino, Gluten, HoraeDB等多个项目 01现有技术的挑战目录 02统一数据治理的价值 03企业级RAG和Data Agent 04统一数据管理最佳实践 AI时代的数据需求 AI技术的应用激发企业对数据的旺盛需求 AI的应用重度依赖于数据；没有数据，AI会成为无源之水、无本之木根据IDC估计，全世界的数据量将从2018年的33 ZB，增长到2025年的175 ZB。数据–AI应用的核心数据治理–AI应用中不可或缺的部分 AI is Only as Good as your Datamanagement is Good Garbage in, garbage out! 现有数据管理技术的挑战数据被锁定在不同的数据源中数据被地域分割企业由单云单域架构向多云多域架构迈进数据合规的限制 •GDPR、CCPA等要求•中心化的数据纳管已不现实 •不可避免的数据分割•跨云数据的传输成本数据被组织分割数据被孤立到不同部门拥有的数据平台中新业务和LLM需要一种统一的方式来访问所有数据。多种因素带来的数据管理的挑战统一数据治理的价值统一数据治理，实现全方位数据管理 Unified Catalog 统一数据管控面，旨在帮助用户快速构建和管理湖仓架构，实现全方位湖仓管理统一权限管控数据智能调优统一数据/元数据管理视图 ✔调优全托管，优化可观测，大幅提升性能并降低管理成本✔支持多种触发方式（周期/按需/条件） ✔支持多租户和权限认证✔兼容HMS，与大数据生态天然融合 ✔集中权限管控，全域无缝访问✔精细化权限控制，安全合规无忧✔权限与Ranger生态互通 Apache Gravitino：统一数据/AI目录 Next-GenData Catalog is theCoreinNew Open Data Architecture https://gravitino.apache.org/ ApacheGravitino核心架构统一数据的访问统一数据的权限管控数据工程师和AI团队更高效地协同工作企业RAG和Dataagent RAG的几种形态 RAG（检索增强生成）是一种人工智能框架，它将传统信息检索系统（如搜索和数据库）的优势与生成式大语言模型（LLM）的功能相结合。什么是Basic RAG 概要：•较为基本的数据准备（历史资料、 KB等）•较为简单的检索（基于语义的检索）用户主要聚焦在技术选择上：•框架（LangChain，LlamaIndex 等）•基础模型/ Embedding模型•向量库/存储挑战：•信息来源单一，可能不准确 •不能提供针对某个用户的准确信息•没有逻辑推导什么是AdvancedRAG 什么是Multi-modularRAG 更进一步，在Retrieval前进行查询路由：-在不同KB之间选择-在不同retrieve方式之间选择 -基于规则、条件的判断-使用LLM判断构建企业级Multi-modular RAG系统在RAG框架中为每个数据库、每种数据源开发连接器/reader、获取其描述信息、获得prompt模版、进行NL2SQL/QL、查询数据、输入给LLM 缺点： 每个数据源/存储都需要在程序中接入配置复杂度高开发效率低安全性差无法复用更好的方案：统一结构化/非结构化数据接入的RAG 使用统一元数据平台管理各类数据，获取数据内容描述、数据结构、访问方式等信息、借助大模型生成查询指令，并统一进行查询、结果返回、模型传递等优点： 适配简单，开发效率高统一数据访问、统一权限管控易于扩展 Demo：https://github.com/apache/gravitino-playground/blob/main/init/jupyter/gravitino_llamaIndex_demo.ipynb 统一元数据管理最佳实践实践1:某先进制造企业 Data+AI一体化的新挑战支持好业务场景管理好AI资产实现DataAI一体化对接机器学习框架传统机器学习大模型预训练/微调非结构化数据海量数据“资产化”资产地图与资产治理流程打通、产品打通DataOps/MLOps/LLMOps 新一代数据管理方案 利用Fileset管理非表格数据打通数据开发与AI开发实现AI资产的治理 AI数据纳管存量数据纳管存储无感搬迁 存量数据挂载至ExternalFileset支持设置TTL与TTV上下游迁移解耦，不强制迁移 支持挂载多种存储类型对业务透明的数据搬迁 Data+ AI一体化开发统一AI资产管理业务案例①：纳管后数据降本某业务纳管存量数据后大幅度降本 数十PB存量数据、大量HDFS路径，难以管理纳管后识别出血缘根据血缘推荐TTL、TTV冷备和清理无用数据实现降本业务案例②：基于统一元数据的MLOps 某业务部门的推荐工作流过去 数据流与训练流割裂大量使用文件，难管理、难分析现在 基于统一元数据打通流程数据加工直接产生Fileset基于Fileset实现特征分析与训练业务案例③：基于统一元数据的LLMOps(WIP) 某业务部门的LLM微调工作流过去 下载语料数据，再上传至大模型平台手动选取线上语料进行效果验证未来 在线加工微调数据自动化的模型测试实践2:某互联网社交平台元数据管理的痛点 业务侧耦合度高：元数据使用方调用异构数据源方式多种多样数据治理能力有限：无法提供统一的审计、权限管理、TTL能力半结构化/非结构化数据源缺乏管理跨源数据Schema维护成本高 OneMeta：统一的元数据管理服务 OneMeta：集成Gravitino 提供定制化接口：dropPartitiosByFilter / loadFileDetail/ loadFiles ......提供定制化catalog实现：BiliIcebergCatalog /BiliKafkaCatalog / BiliDatabus Catalog ......降低代码的侵入性，便于同步社区最新代码元数据管理架构演进 解耦业务方复杂依赖，降低元数据使用成本 解决由于引擎间差异、数据源差异造成的元数据不一致问题 解决由于Hive MetaStore造成的性能瓶颈基于GravitinoFileset文件治理的成效 1.数据治理平台制定治理策略2.通过OneMeta对相应Fileset进行TTL和EC打标3. SDM读取OneMeta tag，向HDFS Server发送TTL & EC指令4.根据看板优化治理策略 HDFS EC：减少100PB+存储成本HDFS TTL：减少300PB+存储成本 Recap •AI时代对数据治理提出更高的要求•统一元数据可以帮助您管理多云异构数据，提供统一视图、确保安全与合规•企业级RAG应用需对接多种数据，需统一数据访问；•统一元数据+统一引擎助力实现更强大的Data agent，简化数据访问。 THANKS 智能未来，探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI

点击免费查看完整报告

从统一数据治理到下一代企业级 Data Agent 的实践与创新

AI 时代的数据需求

现有数据管理技术的挑战

统一数据治理的价值

企业 RAG 和 Data agent

统一元数据管理最佳实践

总结

你可能感兴趣

基于统一语义层的data agent实践

从应用落地到安全护航：Agent 系统的开发实践与可信防御

十面“霾”伏：从监测、治理到防护，看雾霾如何撬动千亿市场空间？

【T112017-人本数据和智能分会场】Smart Data Lab-数据科学基础设施搭建的探索与实践

AI时代企业数据基建升级路线图：面向Agent与大模型的数据基建指南与最佳实践

FastGPT企业级Al Agent落地实践

2025年中国企业级AI Agent应用实践研究报告

安全运维新范式 DevSecOps 结合 LLM、RAG 和Agent的创新实践 - 黄帅

小龙虾的一小步时代的一大步从Pro到B端从数据整理到深度办公天风计

了解NTT DATA如何帮助印度的GCC有目的地发展——从初始设置到全面运营和创新领导力。