大模型给大数据领域带来的变革与京东零售实践
大模型对大数据领域的影响
大模型推动了大数据领域从传统数据应用向智能数据应用的转型,主要解决大数据平台面临的效率、复杂性和成本问题。京东零售大数据平台通过DB-GPT等技术,实现了智能化升级。
大数据平台面临的挑战
京东零售大数据平台面临“三难”问题,即数据开发难、数据治理难和数据洞察难。DB-GPT通过智能化手段有效缓解了这些问题。
案例分析:智能数据开发
DB-GPT赋能数据开发链路,通过辅助SQL开发、表和字段信息召回等技术提升效率。
SQL开发基础流程及难点
SQL开发流程包括表基础信息召回、字段信息召回等环节,传统方法存在召回率低的问题。
表基础信息召回
- 朴素召回:处理1万张高频表,命中率0.16。
- 元数据索引:通过业务域、主题、架构等预处理构建索引,命中率提升至0.31。
- 元数据索引+重排优化:进一步优化重排,命中率达到0.51。
表字段信息召回
- 采用与表基础信息召回相似的方法,将字段信息拆分为chunk,通过索引+重排优化检索。
- 命中率高达0.72,关键点包括chunk大小控制、chunk打标和字段使用频率分组排序。
辅助数据开发:AWEL workflow概览
DB-GPT通过自动化工作流(AWEL)实现生产环境的数据开发辅助,提升效率。
生产部署实践
DB-GPT采用分层架构,包括基础设施层、公共业务层和产品对接层。具体部署细节如下:
- 数据库:MySQL作为模型元数据注册中心。
- Model Controller/API Server:各部署3个节点。
- Webserver:独立部署,至少3节点。
- 内部工具基础设施:多节点部署,至少3节点。
- 部署方式:基于Kubernetes。
- 可观测能力:基于OTLP + Jaeger实现分布式可观测。
总结
DB-GPT推动大数据领域向Data + AI方向发展,主要方向包括:
- 数据开发/运维/治理的智能化。
- 数据挖掘、洞察的智能化。
- 数据种类多样化,实现语音/视频等数据的理解和管理。
智能体工作流(Agentic Workflow)是实现落地的最佳助手,通过流程化、分而治之和抽象化工具/算子,提升复杂问题的解决能力。
从传统数据应用到智能数据应用
程方银
DB-GPT核心开发者兼架构师京东零售大数据平台智能化技术负责人
2024/07/06
01大模型能给大数据领域带来什么?
02大数据平台智能化落地案例
03生产部署实践
04总结
大模型给大数据领域带来什么
从传统数据应用走向智能数据应用
大数据平台面临哪些问题
京东零售大数据平台的“三难”
案例-智能数据开发
大模型赋能数据开发链路
辅助数据开发
SQL开发基础流程及难点
表基础信息召回-朴素召回
目前只处理1w张高频表命中率:0.16
表基础信息召回-元数据索引
通过预处理构建索引例如:业务域:3C数码业务主题:订单域业务架构:京东零售
命中率:0.31
表基础信息召回-元数据索引+重排优化
通过预处理构建索引例如:业务域:3C数码业务主题:订单域业务架构:京东零售
命中率:0.51
表字段信息召回
总体上与表基础信息召回相似:将字段信息拆分为chunk,通过索引+重排优化检索。
注意点:1. chunk大小:一般不超过embedding模型上下文长度
2. chunk打标:附加表名、总长度和业务信息等3.字段使用频率分组排序:解析加工任务SQL,提取字段热度
命中率:0.72
辅助数据开发-AWEL workflow概览
生产部署架构
分层建设:DB-GPT基础设施、内部公共业务层、产品对接层
DB-GPT集群部署:
1.数据库(MySQL)作为模型元数据注册中心2. Model Controller/API Server各部署3个节点3. Webserver独立部署、至少3节点4.内部工具基础设施多节点部署,至少3节点5.基于Kubernetes部署6.基于OTLP + Jaeger实现分布式可观测能力
总结
Data + AI三个方向:
1.数据开发/运维/治理的智能化2.数据挖掘、洞察智能化3.数据种类多样化,实现语音/视频等数据的理解和管理
智能体工作流(Agentic Workflow)是落地最佳助手
1.将不确定的结果流程化、确定化2.复杂问题分而治之3.抽象很重要,通过工具化/算子化抽象对世界的理解
Thank you!