基于统一语义层的DataAgent 解的“数据 打破数据分析的巴别塔困境,构建人与机器都能理 虎兴龙 WeData研发总监 目录 02 01 挑战与应对架构构建AI-Ready的数据 04 03 构建Agent能理解的知识总结与未来思考 挑战与应对架构 主要挑战 构建AI-Ready数据的挑战 创建AI就绪数据涉及数据选择、清洗、转换、规范化和增强的 复杂流程 开发和维护必要的元数据需要统一方法和持续努力 复杂的数据结构,使得难以表达数据上下文关系 业务与技术理解的鸿沟 业务部门与技术团队间存在协作与理解障碍 双方对分析需求和DataAgent能力理解存在差异 这种差距阻碍了高价值用例的识别和解决方案的实施 技术路径局限性 Text-to-API:受API层设计和可用性限制 Text-to-SQL:确保SQL准确性和健壮性仍是挑战 Text-to-Code:现有代码解释器难以安全高效地与企业数据 库交互 LLM不确定性与幻觉 LLM是概率模型,输出存在不确定性 可能生成"幻觉"—看似合理但不正确的信息 减轻不确定性可能需要多次模型调用或复杂推理链,增加执 行时间 数据缺乏共识的、可被高效洞察的唯一真相 解题思路 在数字化转型浪潮中,企业全域数据资产已成为驱动业务创新和决策的核⼼要素。数据语义层和DataAgent为有效管理和利用这些分散、复杂的数据资产提供了创新方案。 全域数据资产 分散在不同系统的技术性数据结构,难 以直接应用于业务决策 数据语义层 连接底层数据与业务用⼾的桥梁,将技 术数据转化为易于理解的业务概念 DataAgent 基于多智能体协作的超级智能体,具备数据开发、数据治理、数据分析等专家能力 协同价值 数据语义层为DataAgent提供可靠的知识基础和操作接⼝DataAgent赋予数据语义层更强的交互能力和智能分析能力 打破数据孤岛,实现数据的互联互通和高效共享通过丰富的生态对接能力,和客户共同构建智能、⾼效的企业数据分析生态系统 整体架构 基于企业全域数据资产构建统一数据语义层和DataAgent的产品整体架构 应用层 基于GUI、LUI的生态应用形态:数据工程、智能运维、BI⼯具、数据可视化、⾃助分析,⾯向最终用⼾的应用 DataAgent层 专家Agent,包含数据开发agent、智能运维agent、数据分析Agent、行业报告Agent等 语义建模层 元数据管理、业务术语定义、维度建模、指标建模,构建统⼀的业务语义模型 自适应加速层 基于HBO、CBO的自动、自助物化加速配置,根据用户query的智能数据源路由,多级缓存加速 数据编织层 基于统一数据目录,进行数据跨源异构数据源的组织逻辑编织,形成企业统一数据逻辑图,打破数据孤岛 数据源层 结构化数据、半结构化数据、⾮结构化数据,企业各类数据源 数据源层提供原始数据,经过数据集成层汇聚到统一的数据存储层。数据语义层在此基础上构建统一的业务语义模型,DataAgent层利用这一模型提供智能分析能力。最终通过应用层为 ⽤⼾提供数据服务。 构建AI-ready的数据 统一语义层 有没有一个理想“库” 每个业务场景的数据人员都去一个“库”里找要分析的指标 这个“库”里的指标绝对不会有“同名不同义,同义不同名”的问题 有专业的团队在在维护这样一个标准的“库” 同样一个指标,无论在公司的哪个角落出现,数据绝对是一致的 ChatBI智能问数,机器的回答,用户能看到机器找到了“库”里的哪个指标,用户信任机器的回答 Mobile\小程序 Rest\HttpAPI Js\python\RSDK ? MQL\JDBC notebook\SQL\文档 BI门户 大模型智能分析 数据工程师,应该交付什么 表报表 用户不会用不够敏捷 在哪里找可以算分年龄、地域、用户等级的DAU的表? 那个字段啥意思?怎么过滤出高价值用户?留存率咋统计?SQL怎么写? 我去哪里跑SQL,资源队列选什么?怎么运行? 算了,你帮我写个完整SQL行不行? SQL报错了,啥原因? 分年龄、地域、用户等级的DAU的报表在哪里? 什么?没有?帮我做一个,我写个需求单给你 总DAU报表怎么和分年龄DAU的报表数据对不上? 我还要3个报表:留存、播放VV、阅读量 什么?还需要我明确维度吗?现在也不确定,那就暂定年龄、地域、用户等级维度吧? 假设有以下表,要统计每天的分不同维度看总销售额、大额购买人数? 交付数仓表,带来的使用复杂性 用户购买流水表 timestamp ChannelID Qimei Price BuyCount discount 2020-12-1212:00:01 1001 qimei111 122.34 1 0.95 2020-12-1212:02:01 1002 qimei111 122.8 10 0.8 2020-12-1310:04:01 1002 qimei112 122.8 10 0.8 渠道信息表ChannelID Channel 1001 百度搜索 1002 拼多多 用户属性表Qimei gender qimei111 男 qimei112 女 第一步:问、搜找到相关的表 第二步:要找DE问销售额怎么算?要找DS问什么属于大额购买第三步:创建一张DWS大宽表或者逻辑视图 timestamp ChannelID Channel Qimei gender Price BuyCount discount SELECTdate,SUM(pay)AS总销售额 ,COUNT(DISTINCTif(totalPayPerPersion>1000,qimei,NULL))AS大额购买人数 FROM( SELECTsubstring(timestamp,0,10)ASdate,qimei ,channel,price*buycount*discountASpay ,SUM(price*buycount*discount)OVER(PARTITIONBYsubstring(timestamp,0,10),qimei)AStotalPayPerPersion FROMTable )tmp_table GROUPBYdate 第四步:写一个嵌套的复杂SQL 如果对表做微小的语义增强,会带来什么变化 最简单的语义增强:在逻辑宽表上进行增加度量、维度虚拟字段 timestamp 日期 ChannelID Channel Qimei gender Price Buy Count discount 单次支付金额 总支付金额 每人每天支付金额 2020-12-1212:00:01 Substring(timestamp,0,10) 1001 百度搜索 qimei111 男 122.34 1 0.95 Price*BuyCount*discount sum(pay) sum(pay)over(partitionBYdate,qimei) 2020-12-1212:02:01 Substring(timestamp,0,10) 1002 拼多多 qimei111 男 122.8 10 0.8 Price*BuyCount*discount sum(pay) sum(pay)over(partitionBYdate,qimei) 2020-12-1310:04:01 Substring(timestamp,0,10) 1002 拼多多 qimei112 女 122.8 10 0.8 Price*BuyCount*discount sum(pay) sum(pay)over(partitionBYdate,qimei) Select date, 总支付金额AS总销售额, count(distinctif(每人每天支付金额>1000,qimei,null))AS大额购买人数 fromTablegroupbydate 但,这就够了吗,用户期望的交付是什么? 数据是可被立即分析的:datashouldbe“analytics-ready.” 有清晰的、一致的维度定义:Definitionofconformedanalysisdimensions. 口径是一致的:SingleSourceOfTruth 能够快速找到自己所需:Easytofind 有质量保证:dataqualityassurance UniversalSemanticLayer 全域统一语义层 什么是语义模型 数据是信息,信息需要被方便的消费,就需要有面向消费的信息组织(数据的知识表达、知识工程),这就是语义模型。 Semanticlayerabusinessrepresentationofdatathatletsusersinteractwithdataassetsusingbusinesstermssuchasproduct,customer,orrevenuetoofferaunified,consolidatedviewofdataacrosstheorganization.” 语义模型是知识工程的方法,是表达、共享、重用知识的方法,是可同时被人和机器理解的信息表达方式。 现代数据栈里的语义模型在哪里实现? 人也懂,牛也懂 的语义模型 ~哞~~哞 ~哞 •Explicit(明确的):Theconceptsareexplicitlydefined •Formal(形式化):Machinereadable •Shared(共享的):Acceptedbyagroupandnotprivatetosomeindividual 语义建模是从用户消费为出发点来设计 数据建模是从怎么提高数据生产效率为出发点来设计 两者相互依存 语义模型定义的关键:谁是消费者以及怎么消费 人与机器都能理解的语义是什么? 概念 关系 指标 维度 数据的业务含义 [概念模型] 数据的组织关系 [血缘+逻辑模型] 数据的计算口径 [指标模型] 数据的观测维度 [维度管理] 国家 会员充值 会员分析 主题 会员转化 会员消费 省份 DAU地域 新增会员数性别 年龄 用户 会员数 人均消费 充值金额 渠道类别 渠道 渠道类别 有了语义模型,大模型才能进行业务分析 确定分析主题 确定要分析 的业务过程 确定要分析 指标 确定要分析 的维度 取数 结论总结 Agent智能分析 会员业务的发展怎么样? 会员分析主题 会员转化 会员消费 会员充值 国家 省份 DAU 地域 数据模型 新增会员数 性别 年龄 用户 数据模型 会员数 渠道类别 人均消费 数据模型 渠道 渠道类别 数据语义 充值金额 统一语义层的核心能力 多源异构数据可信语义层智能应用新生态 WeData UnitySemantics MySQL DorisHiveStarrocks LakehouseClickhousePostgresTc-House Agent&ChatBI BI工具 智能检索 文档、office嵌入式分析 核心能力: 1.SemQL(SemanticQueryLanguage):以JDBC方式提供类SQL的语义层查询能力,实现text2SQL转变为Text2Semantic2SQL 2.MetaRAG:基于结构化元数据知识索引、多路召回、混合排序能力 3.SemanticModel:强大的语义建模表达能力,支持复杂指标、维度定义,基于图论的复杂指标SQL生成 4.AutoAcceleration:多级缓存,自适应CTE提取合并IO、谓词下推、自动物化视图推荐和合并 调用API/插件/SDK RestfulAPI SemQL 集成服务 BI插件 分析服务 数据工程人员 服务层 Office插件 JS/PythonSDK 归因分析 指标树 目标拆解 统一语义层 知