王琤Datablau数语科技创始人CEO 王琤(Allen Wang) •曾任CAERwin全球研发负责人,2006年加入CA,十几年经验在数据建模领域,客户多来自世界500强,美国银行(BOA),SunTrust,AT&T,壳牌等。深度参与建设银行新一代系统数据模型设计。 •2016年创立Datablau,成功服务多家国内大型企业的数据治理项目,包括华为、建设银行、平安银行、中国人寿、华泰证券、中金、嘉实基金、美的、海信、南方电网、国电集团、税务等大型企事业单位,具有丰富的数据治理项目咨询,管理和实施经验。 •信通院数据资产专家委员会成员,数据资产白皮书主要撰写人 •IEEE member, OMG member, DAMA CDMP •复旦大学、人民大学、北京航空航天大学客座讲师 •国资委“数据要素”专家委员 服务客户 唯一性 亚太地区唯一入选Forrester MLDC的厂商 Forrester认可Datablau在数据管理领域的探索和实践,在数据模型、数据目录、数据质量、数据标准和元数据等环节自动化应用实现,帮助企业解决AI应用门槛高、开发效率低等问题。Datablau一直致力于通过数据模型管控、数据资产管理帮助企业实现数字化转型,在过去4年多时间已经覆盖到众多行业。面对企业数据应用高速增长期的到来,我们将继续推进MLDC在更多领域的拓展落地,实现企业智能化转型目标。 代表性 Gartner——数据资产管理代表厂商 被国际权威机构Gartner评为数据资产管理的代表厂商,充分体现了中国市场和国际权威机构对Datablau的认可,同时彰显了Datablau在数据资产管理领域领先技术实力和出色的产品能力,在数据模型、数据目录、数据质量、数据标准和元数据等各个领域具有丰富的实践经验,帮助企业解决数据治理工作中的耗时费力、效率低等问题。Datablau一直致力于通过数据模型管控、数据资产管理帮助企业实现数字化转型,在过7年多时间已经覆盖到众多行业。面对企业数据应用高速增长期的到来,我们将继续推进在更多领域的拓展落地,开启数智新时代。 权威发布Gartner发布 报告 01 02 《Hype Cycle for Data,Analytics andAIin China,2023》 市占率 IDC:中国数据治理平台专业厂商市场份额第一 国际权威机构IDC对数语科技的评价:DDM融入了数据治理理念的数据模型设计与管理工具,把数据治理流程推进到数据开发流程中,进行源头治理,解决了标准落地的难题,从根本上管控企业数据质量问题。DAM企业级数据资产管理平台开创性的将数据标准、数据质量和元数据融合在一起实现闭环管理链路。DDC数据资产目录服务平台,从数据资产业务化视角出发,基于内置体系和数据自学习技术,形成企业统一的数据资产目录,依托自动数据分类分目、数据资产检索、数据资产地图等核心功能,极大提高了数据利用效率和提升业务数据应用水平。DDS数据安全管理平台定义数据资产安全级别,建立数据访问控制体系和动态脱敏引擎,确保数据质量、数据服务、数据查询等场景的安全性。数据链路监测平台:基于元数据采集和血缘解析,提升数据治理的透明度和效率。数据血缘解析成功率大于95%,响应速度达到毫秒级。数据资产开发平台:提供端到端的数据资产开发能力,规范数据开发流程,提升数据质量。核心功能包括数据仓库建模、项目管理、智能程序开发等。DDM Archy:基于Datablau DDM推出的架构建模套件,统一贯穿业务到数据、高端架构到初级项目实施,提升数据治理成熟度和数据价值释放效率。DatablauAIC:集成海量行业知识库,赋能元数据补全、数据质量规则构建等数据治理工作。 行业荣誉&客户成功 奖项荣誉 •DAMA数据治理优秀产品奖•信通院大数据星河案例奖•Gartner数据资产管理代表厂商•鑫智奖-数据治理与数据平台创新优秀解决方案•“数智杯”数据管理创新应用大赛优秀奖 超过一半(17家)获得DCMM-5评估认证的企业采用Datablau产品 2025年30+客户通过Datablau产品获得DCMM评估认证20+客户通过Datablau产品获得行业奖项 目 录Contents 数据治理-企业级AI的事实 为什么企业级AI有效性低 02. 本体-企业级AI的实理 为什么企业级AI有效性低 企业落地大模型的挑战 知识过期 幻觉问题 大模型基于概率生成文本,可能导致输出不准确或虚构的信息。 大模型的训练数据是静态的,无法实时更新,导致知识滞后。 数据治理for AI-构建可信AI 如何让AI成为企业可靠的辅驾 AI直接访问数据 数据治理-企业级AI的事实 背景与挑战 传统数据治理,本质上解决不了“三个不”:不可规模化,不可持续、不智能 靠人做治理,不可规模化 一次性项目,可持续差 治理方法不智能 •人力成本与数据规模线性增长,无法实现边际递减•人工维护元数据滞后于数据变化,治理成果始终过时•人工解析血缘复杂度超限,无法应对企业级数据链路•人工打标标准因人而异,规模化后认知混乱加剧 •项目结束即治理停滞,缺乏长效运营机制•靠人工驱动的治理动作无法自动延续•人员变动导致治理成果断层,知识无法沉淀•无自动化闭环能力,治理状态持续退化 •靠人工、靠规则,只能识别显式格式,无法理解隐式语义•基于固定规则匹配,无法自适应业务变化•被动响应查询需求,无法主动推荐与预警•无法推理数据间的隐含关系与业务上下文传统治理•无法自适应业务变化,而AI正是补“智能”这块短板。 智能扩展能力 数据治理的范式转移:从被动管理到主动智能 DAM Agent数据治理智能体 3.主动治理:主动工作,长驻留,治理响应分钟级 •以长驻留智能体形态不间断运行,夜间自动执行质量巡检、模型比对、标准校验等任务,白天即问即答,治理永不掉线。 DDM Dora建模智能体 DDM Dora是数据模型设计的Cursor,一款基于大模型能力的智能数据模型设计器。它专注于数据建模,数据开发和治理的一体化数据智能。它能够理解用户自然语言描述的业务需求,帮助用户快速完成数据实体设计,标准落标,SQL生成与优化等任务,并于经典的DDM建模工具形成自动建模型能力。它可以提升数据建模的效率80%以上,是建模师和开发人员的得力助手。 •对话式模型设计 只需用自然语言描述业务需求,Dora就能自动生成实体、关系,免去复杂的图形化操作,让建模像聊天一样轻松。 •像顾问一样的模型分析 Dora会主动检查模型的合理性,规范性(标准落标),定义准确性,并生成直观的改进建议,帮你把潜在问题提前解决。 •多栈工具联动 数据模型设计、生成DDL,数据库操作,数据探查,文件生成等,让数据建模和开发无缝衔接。 数据模型-落标、管控 数据安全分类分级-激活数据治理智能体 数据安全分类分级-推荐 数据安全分类分级-审批 数据安全分类分级-审批确认 投资回报率(ROI)分析 无感、自治、智能的数据治理,持续提升数据质量 01落标率提升到90% 02标准量提高到5w 03元数据完成度100% 通过落标率的达成,将标准量达到50000+,实现业务数据的主要覆盖。 通过模型检查,将元数据完成度提高到100%,所有的元数据都有业务定义,并保障准确性。现状:60% 通过管控流程,可以将重点与核心系统(含数仓)的落标率提高到90%。 目标:100% 05提高监管数据质量 数据分类分级失效T+0.1 数据资产生成时效T+0.1 通过对监管数据项的重点监控,数据质量检查的前置,提高数据标准统一,质量可控。现状:报送阶段控制 通过主动数据治理,及时进行数据分类分级,实现数据上线就可以做到分类分级。数月 通过一体化流程,可以实现数据资产在项目上线的T+1个时延,就生成到数据资产目录。数月 本体-企业级AI的实理 背景与挑战 AI的应用(包括某些“本体系统”)普遍面临三个问题:能问不能动,能答不稳定、能用不可信 能答不稳定结果依赖检索,缺乏确定性 能问不能动停留在问答,无法驱动业务 能用不可信知其然,不知所以然 •主流RAG系统,Agent体系以问答为核心能力,擅长“解释问题”,却难以真正参与业务执行。缺乏规则与运行机制,无法触发流程、驱动系统或改变数据,最终只能作为辅助工具,而不是生产力系统。 •基于检索+生成的模式,本质是“概率性回答”,强依赖向量召回与上下文拼接。语义不一致、口径漂移等问题难以避免,导致同一问题多次回答结果不同,难以支撑严肃业务场景。 •Agent执行依赖Prompt与上下文推理,过程黑盒化,无法做完整的审计。•缺乏清晰的规则约束与执行边界。难以实现权限控制、过程审计与结果追溯,在企业级场景中存在合规与风险隐患。 智能扩展能力 Foundry–Data & Ontology 数据连接 本体 数据血缘 API Foundry本体示例-工厂 Foundry本体建模ER模型-对象模型 语义升维:让数据模型进化为本体模型 桥接模型从数据模型到本体本体 DDM:管理业务与数据源头 DOM:本体模型 Dora:从数据模型到本体模型 •通过对数据模型,根据业务模型,进行逻辑模型设计•这个逻辑模型是基于关系逻辑模型,面向本体模型的桥接模型•抽象的实体,关系,属性,映射,将转换到本体模型。 •企业的核心业务都在核心的数据库上•本体模型需要从现在数据和业务,构建本体•需要做数据和规则的批量构建 •从逻辑实体到本体类•从关系到对象属性•从字段到数据属性•从UDP到标注•从数据到个体实例 企业的数据模型 本体模型 构建桥接模型 实际的数据(仓)库很多是年久失修的,物理表没有关系,备份表,测试表,废弃表随意丢弃。这导致无法快速应对需求,无法摸清数据关系,新人成长困难。 理想的数据库是分层清晰,数据实体角色清楚,关联关系清晰可见。数据按照业务关系的方式连接在一起。 规则与推理双轮驱动:用规则保障准确性,用推理实现规则仿真 对比:基于通用智能体或者文档问答的系统,逻辑依赖Prompt和流程编排,缺乏稳定的业务规则表达,一旦上下文变化容易出现偏差甚至风险。 特点:本体系统将业务规则直接建模在本体中,并通过事件触发执行,实现规则即系统能力,让AI升级为可以按业务逻辑开展业务的可信智能体。 场景1:银行业客户风险场景 请严格按照系统登记的风控规则,进行多轮和组合的风控判断。基于当前存在的个体执行规则 第一层:事实推理(Fact Rules)把原始行为转化为“异常事实”示例:•大额交易大于100w•休眠账户激活•交易频次突增输出:RiskSignal(type = "LargeTransaction")________________________________________ 第三层:决策推理(Decision Rules)判断是否需要“正式处理”示例:•多个高置信度信号在短时间内出现→创建RiskCase→建议Action输出:•RiskCase(level = "High")•Action(type = "ReviewAccount") 第二层:组合推理(Inference Rules)把多个异常事实,组合成“可疑模式”示例:•休眠激活+频次突增→行为异常•状态变化+大额交易→高价值异常输出:RiskSignal(type = "AbnormalBehavior") 交易事件:1.张三,2026年4.12,给境外机构大额转账120wrmb 2.张三,2026年4.15,给境外女人Jenny大额转账20w美元 3.张三,2026年4.19,多次输错密码,导致账号被锁。4.张三,2026年4.20,在边境地区再次尝试密码登录,未成功。 场景1:银行业客户风险场景 场景2:电销沟通分析-根据某客户电话沟通记录进行分析 Databla