您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [DB-GPT]:DB-GPT在京东零售大数据平台的落地实践 - 发现报告

DB-GPT在京东零售大数据平台的落地实践

信息技术 2024-07-06 程方银 DB-GPT 绿毛水怪
报告封面

从传统数据应用到智能数据应用 程方银 DB-GPT核心开发者兼架构师京东零售大数据平台智能化技术负责人 2024/07/06 01大模型能给大数据领域带来什么? 02大数据平台智能化落地案例 03生产部署实践 04总结 大模型给大数据领域带来什么 从传统数据应用走向智能数据应用 大数据平台面临哪些问题 京东零售大数据平台的“三难” 案例-智能数据开发 大模型赋能数据开发链路 辅助数据开发 SQL开发基础流程及难点 表基础信息召回-朴素召回 目前只处理1w张高频表命中率:0.16 表基础信息召回-元数据索引 通过预处理构建索引例如:业务域:3C数码业务主题:订单域业务架构:京东零售 命中率:0.31 表基础信息召回-元数据索引+重排优化 通过预处理构建索引例如:业务域:3C数码业务主题:订单域业务架构:京东零售 命中率:0.51 表字段信息召回 总体上与表基础信息召回相似:将字段信息拆分为chunk,通过索引+重排优化检索。 注意点:1. chunk大小:一般不超过embedding模型上下文长度 2. chunk打标:附加表名、总长度和业务信息等3.字段使用频率分组排序:解析加工任务SQL,提取字段热度 命中率:0.72 辅助数据开发-AWEL workflow概览 生产部署架构 分层建设:DB-GPT基础设施、内部公共业务层、产品对接层 DB-GPT集群部署: 1.数据库(MySQL)作为模型元数据注册中心2. Model Controller/API Server各部署3个节点3. Webserver独立部署、至少3节点4.内部工具基础设施多节点部署,至少3节点5.基于Kubernetes部署6.基于OTLP + Jaeger实现分布式可观测能力 总结 Data + AI三个方向: 1.数据开发/运维/治理的智能化2.数据挖掘、洞察智能化3.数据种类多样化,实现语音/视频等数据的理解和管理 智能体工作流(Agentic Workflow)是落地最佳助手 1.将不确定的结果流程化、确定化2.复杂问题分而治之3.抽象很重要,通过工具化/算子化抽象对世界的理解 Thank you!