数据语义层:从大数据到大模型,从数据资产到 AI 资产 Aloudata CONTENTSCONTENTS 0101 数据智能体的建设挑战数据智能体的建设挑战 0202 数据智能体的可信要求数据智能体的可信要求 0505 数据语义层的价值定位07数据语义层的价值定位07 数据语义层的架构变革:从 Data Warehouse 到 Semantic Fabric10数据语义层的架构变革:从 Data Warehouse 到 Semantic Fabric10 数据语义层的实践案例:NoETL to Trusted AI数据语义层的实践案例:NoETLtoTrustedAl 1313 总结总结 引言 2022 年 11 月 30 日,OpenAI 推出 ChatGPT。2025 年 1 月 20 日,DeepSeek 推出 DeepSeek-R1 模型。短短数年,大模型深刻地改变了科技发展方向,人类开始进入与 AI 共生的新时代。 2025 年企业智能体(Agent)概念爆发,ChatBI、BI Agent、Data Agent 等数据智能体概念逐步被大家熟知,获得了比较持续的企业关注热度,不少企业投入资源进行了验证性的尝试,更多的企业和数据架构师开始思考现有的大数据平台该如何进化,如何才能成为 AI-Ready 的数据基础设施。 作为数据人,我们既站在 AI 的浪潮之巅,也站在 AI 的悬崖边缘,不得不重新审视一切:当数据消费者从数据分析师转向数字分析师,数据生产方式将如何重构?当数据不止服务碳基员工,还要服务硅基员工,企业数据资产又将如何在 AI 时代释放价值? https://aloudata.com/white_papers/2ef9756e3beaef621f24fc4adaae8216本文结合国内外厂商在 AI 架构上的前沿探索,以及我们自身在数据智能体应用中的实践,从数据智能体的核心建设挑战入手,深入介绍和剖析连接大数据与大模型的关键桥梁——数据语义层,并分享 Aloudata 基于“NoETL”理念在这一领域的实践经验。 01数据智能体的建设挑战 随着大模型能力的快速迭代增强,大模型越来越像受过良好高等教育的毕业生,叠加大模型在应用工程上取得的实践突破,出现了类似 Cursor、Manus 这样的现象级产品。智能体(Agent)在随着大模型能力的快速迭代增强,大模型越来越像受过良好高等教育的毕业生,叠加大模型在应用工程上取得的实践突破,出现了类似Cursor、Manus这样的现象级产品。智能体(Agent)在 不同领域快速进入尝试期,其中就有数据智能体,典型应用就是 BI Agent 或者 Data Agent,其主要目标是成为业务人员的数字分析师、数据分析师的数字分身。不同领域快速进入尝试期,其中就有数据智能体典型应用就是BlAgent或者Data Agent,其主要目标是成为业务人员的数字分析师、数据分析师的数字分身。 让 Agent 能够理解复杂指令、可靠地执行目标。典型能力是指令微调( InstructionTuning) 、 RLHF/RLAIF(基于人类或 AI 反馈的强化学习)等让Agent能够理解复杂指令、可靠地执行目标。典型能力是指令微调(Instruction Tuning)RLHF /RLAIF(基于人类或AI反馈的强化学习)等 让 Agent 具备外部知识访问能力, 显著提高准确性与时效性让Agent具备外部知识访问能力,显著提高准确性与时效性 让 Agent 能够自主思考、分解任务、动态决策。典型能力是CoT(Chain-of-Thought,思维链)、ReAct 框架等让Agent能够自主思考、分解任务、动态决策。典型能力是CoT(Chain-of-Thought,思维链)、ReAct框架等 Aloudata 由于数据智能体具有“数字员工”的特性,我们在思考其建设挑战时,可以借鉴企业雇佣数据分析师的方式进行类比。 由于数据智能体具有“数字员工”的特性,我们在思考其建设挑战时,可以借鉴企业雇佣数据分析师的方式进行类比。 也需要向数据智能体“传授”相应的内部知识与业务规则。 也需要向数据智能体“传授”相应的内部知识与业务规则。 在实际工作中,数据分析师需要在成千上万张表中找到符合取数口径的表和字段,生成正确的取数SQL ,需要在业务人员与数据工程师之间频繁对数……,我们可以总结数据分析师经常会面临的两类典型挑战:在实际工作中,数据分析师需要在成干上万张表中找到符合取数口径的表和字段,生成正确的取数SQL,需要在业务人员与数据工程师之间频繁对数..,我们可以总结数据分析师经常会面临的两类典型挑战: 当企业招聘一名数据分析师时,往往需要提供岗前培训,内容包括行业术语、业务黑话、经营指标、业务流程和操作手册等。同样,当企业引入数据智能体(数字分析师)时,犹如引入陌生新员工(数字的),当企业招聘一名数据分析师时,往往需要提供岗前培训,内容包括行业术语、业务黑话、经营指标、业务流程和操作手册等。同样,当企业引入数据智能体(数字分析师)时,犹如引入陌生新员工(数字的), 挑战一:数据找不到 不好找:不知道有哪些数据。缺乏完整、准确的数据目录,分析人员容易陷入“数据迷宫”; 不敢用:不知道该用哪个数据。相似表相似字段,不知道该用哪张表哪个字段; 用不对:不知道数据口径对不对。口径对不齐,分析结论靠不住。·不好找:不知道有哪些数据。缺乏完整、准确的数据目录,分析人员容易陷入“数据迷宫”;·不敢用:不知道该用哪个数据。相似表相似字段,不知道该用哪张表哪个字段;·用不对:不知道数据口径对不对。口径对不齐,分析结论靠不住。 数据分析师通常通过人与人的线下交流来获取这些隐性知识,但这类知识往往不在线、不保鲜、易失效,无法给数据智能体使用。数据分析师通常通过人与人的线下交流来获取这些隐性知识,但这类知识往往不在线、不保鲜、易失效,无法给数据智能体使用。 因此,当数据智能体面对“数据不好找、不敢用、用不对”时,只能依赖事先点对点构建和维护知识库来解决,而这种方式在效率和效果上都难以规模化推广。因此,当数据智能体面对数据不好找、不敢用、用不对”时,只能依赖事先点对点构建和维护知识库来解决,而这种方式在效率和效果上都难以规模化推广。 挑战二:数据取不出 不让取:数据不能开放给全部员工,数据访问权限严格受控,需先通过安全审批; 不够广:基于宽表或汇总表的数据分析缺乏灵活性,难以覆盖更多业务场景; 不让跑:SQL任务过大、计算资源不够、存在性能问题,导致查询无法执行; 要排期:当数据缺失或时效不够时,需要等待ETL排期,往往需要耗时二周以上;·不让取:数据不能开放给全部员工,数据访问权限严格受控,需先通过安全审批·不够广:基于宽表或汇总表的数据分析缺乏灵活性,难以覆盖更多业务场景;·不让跑:SQL任务过大、计算资源不够、存在性能问题,导致查询无法执行;·要排期:当数据缺失或时效不够时,需要等待ETL排期,往往需要耗时二周以上; 现实中,数据分析师可以通过申请权限、协调 ETL工程师等方式解决这些问题。而数据智能体如果要具备同等能力,就必须与企业内部流程和工具系统打通,就必须具备很强的 ETL 工程优化能力,否则仍 会陷入“数据取不出”的困境。 实际上,“数据找不到”和“数据取不出”这类挑战由来以久,并非在企业建设数据智能体时才遇到。 如果一家企业没有思考过如何改善数据分析师的数据工作环境,如何提升数据分析师与业务人员之间的协同效率,形成在线化的工具箱和知识库,那么自然就缺乏数据智能体上岗的土壤。 壤”,以系统性地解决“数据找不到”和“数据取不出”的问题,而解决此类问题通常需要有新的思路、新的架构和新的技术,需要“新瓶装新酒”,才能让数据智能体真正具备可落地、可成长的环境。 在 AI 时代,企业需要为数据智能体构建一层“数据土 02数据智能体的可信要求 首先是口径是“真”的,也就是数据名称与数据取值口径是一致的,做到“同名同义”。实际工作中,业务人员与数据分析师之间会仔细比较对齐双方的口径理解。 首先是口径是“真”的,也就是数据名称与数据取值口径是一致的,做到“同名同义”。实际工作中,业务人员与数据分析师之间会仔细比较对齐双方的口径理解。 企业应用数据智能体除了依赖企业的“数据土壤”之外,还对数据智能体的产出质量有可信要求。 企业应用数据智能体除了依赖企业的“数据土壤”之外,还对数据智能体的产出质量有可信要求。 由于数据智能体属于生成式 AI (Generative AI)应用,生成式 AI 普遍存在一种现象:Easy to Make,Hard to Detect。 我 们 能 够 评 价 AI 交 付 物 是 否 足够 “好 ”, 但 我 们 越 来 越 难 判 断 AI 交 付 物 是 否 足够“真”。当场景对“好”的要求大于“真”的要求时,AI的“Easy to Make”的优势就足够明显地发挥出来,比如 AI 生成文章、图片、视频、代码等场景,用户可以很直观地评估出“好”,所以这类场景就优先跑出了PMF,诞生了不少增长很快的创业公司。而数据分析 这 类 企 业 场 景 却 恰 恰 相 反 , 数 据 分 析 的 前 提是“真”,只有“真”才有“好”,只有“真”的取到与业务口径一致的准确数据,才能产出“好”的报表和报告。 由于数据智能体属于生成式Al(GenerativeAl)应用,生成式Al普遍存在一种现象:EasytoMake,HardtoDetect。我们能够评价Al交付物是否足够“好”,但我们越来越难判断AI交付物是否足够“真”。当场景对“好”的要求大于“真”的要求时,AI的"EasytoMake"的优势就足够明显地发挥出来,比如AI生成文章、图片、视频、代码等场景,用户可以很直观地评估出“好”,所以这类场景就优先跑出了PMF,诞生了不少增长很快的创业公司。而数据分析这类企业场景却恰恰相反,数据分析的前提是“真”,只有“真”才有“好”,只有“真”的取到与业务口径一致的准确数据,才能产出“好”的报表和报告。 其次是数据是“真”的,也就是数据的统计是来源于企业数据库中正确表的真实值,做到“取对表、用对数”。实际工作中,面对成千上万张数据仓库中的表,数据分析师也面临数据不好找、不敢用、取不对的问题。 其次是数据是“真”的,也就是数据的统计是来源于企业数据库中正确表的真实值,做到“取对表、用对数”。实际工作中,面对成干上万张数据仓库中的表,数据分析师也面临数据不好找、不敢用、取不对的问题。 最后是血缘是“真”的,也就是口径与数据的“真”,要靠血缘来证明,做到“正本清源”。实际工作中,只有当指标口径、计算逻辑、数据来源之间形成完整的血缘链条,“有源可溯、有据可查”,分析结果才能被验证、被信任。 最后是血缘是“真”的,也就是口径与数据的“真”,要靠血缘来证明,做到“正本清源”。实际工作中,只有当指标口径、计算逻辑、数据来源之间形成完整的血缘链条,“有源可溯、有据可查”,分析结果才能被验证、被信任。 以上数据分析师遇到的三点“真”,数据智能体也一样会遇到。以上数据分析师遇到的三点“真”,数据智能体也一样会遇到。 那么什么是数据分析的“真”呢?观察业务人员与数据分析师的实际工作,可以发现至少要有三点“真”:那么什么是数据分析的“真”呢?观察业务人员与数据分析师的实际工作,可以发现至少要有三点“真”: Aloudata 那么什么是数据分析的“好”呢,观察业务人员与数据分 析 师 的 实 际 工 作 , 同 样 可 以 发 现 至 少 要 有 三点“好”: 那么什么是数据分析的“好”呢,观察业务人员与数据分析师的实际工作,同样可以发现至少要有三点“好”: 或指标波动,数据分析师需要能够从点带面从更多数据维度中敏锐地捕捉到业务趋势和经营异常,找到业务发力点。 或指标波动,数据分析师需要能够从点带面从更多数据维