背景 时代趋势:Data+AI双轮驱动高速发展 政策风向标:数据要素-可信空间-高质量数据集 2025年+《高质量数据集建设指南》启动高质量数据集建设工作,覆盖科学、教育、金融、医疗等重点领域, 推动公共数据资源向高质量语料库、行业数据集转化,已建成高质量数据集超10万个,数据规模超890PB。 针对“可信数据空间”这一新型数据基础设施进行前瞻性布局,理念正 式上升为国家数据要素流通的核心战略方向 国家发展和改革委员会发布,旨在充分发挥数据要素的放大、叠加、倍增作用,推动大数据在各行业的深度应用 2022年《要素市场化配置综合改革试点总体方案》 际业务问题”的深水区。Data:从基础设施建设到高质量数据集、数据可信空间升级,数据已经明确成为驱动AI规模 提及拓展规范化数据开发利用场景,推动人工智能、区块链、车联网、物联 网等领域数据采集标准化,为大数据和人工智能的融合发展提供政策支持。 现实困境:AIdemo很亮眼,放到实际业务用不起来 支撑模型训练推理的底层数据还远远没有达到AI-Ready的状态 流程灵活、不容易标准化、容错率低但业务价值大的场景AI应用效果并不好 多源异构难统一结构化与非结构化数据计算存储 与应用彼此割裂,跨系统打通与融合成本极高 标准化、自动化的数据集构建生 数据安全保障缺失、隐私保护与全链路合规审计基础能力薄弱, 数据权限放收两难 高,开发效率低 破局之道:解决数据问题需要下一代数据中台 数据采存不统一 多模态数据统一采存 型数据库,非结构化存储在文件服务器/对象存储中•不同数据的采集也需要用不同的工具,尤其非结构化数据的分散度更高 进行采集和存储,解决更大范围的数据孤岛问题 据用离线实时开发平台,非结构化数据用算法开发平台,数据彼此难互通•非结构化数据开发需要专门的算法人员,上手门槛高 •同时支持高代码与低代码的开发方式,满足不同经验开发人员的需求 •因结构化/非结构化数据开发平台独立,元数据的管 •多模态元数据统一管理:结构化/非结构化元数据 户平台从各个开发平台进行采集•因多平台权限管理不统一导致的数据安全问题频发 统一管理、搜索、进行基于业务主题的数据制品创建、数据安全管控 数栈7.0产品架构及核心能力 数栈7.0:全新升级的多模态数据智能中台 •实现采集、存储、清洗、加工、元数据管理•支持cpu调度,解决结构化数据打通、数据标准建立、数据质量校验、元数据资产化管理•主要面向传统数仓、结构化大数据平台建设 •统一采、存、算、管、用:文本/图片/音频/视频/文档等•支持CPU+GPU混合调度、多模态融合开发•可面向多模态高质量数据集建设、模型训练所需多模态数据、AI应用、Data+AI一体化 产品核心能力1——多模态计算存储底座对接 •集群组件一站式配置:仅需4步,20分钟即可完成一个集群的结构化/非结构化存储、调度和计算组件配置。 •计算资源可视化灵活管控:根据业务规划快速弹性扩缩容、使用情况可视化监控、按业务需求实现租户/项目层资源隔离 产品核心能力3—低代码全景式多模态数据开发 无论是正向的开发还是逆向的问题追溯都能得到一站式全链路的效率提升 需要多处跨平台交互,效率低且不易排查问题 产品核心能力3——低代码全景式多模态数据开发 •AI算力:可配置算子所需的离线和在 MySQL、StarRocks、Oceanbase等16种类型 产品核心能力4——多模态元数据管理和检索 元数据统一存储 产品核心能力5——数据、资源、操作全方位安全能力 权限粒度灵活•数据分级自定义、和脱敏方式多选择、生命周期兼顾安全和性能 节审批流程全平台全量操作审计,细到执行了什么SQL、获取到什么数据均一键溯源 •租户层集群共享,元数据和计算资源隔离•用户角色可在不同项目灵活配置 产品核心能力6——提效40%的灵瞳智能体 灵瞳智能体 数据治理Agent 数据开发Agent 产品操作copilot 数据分析Agent 财务知识库、行业知识库、法务知识库 产品使用帮助文档 库表元数据信息,血缘信息 产品核心能力7——出海解决方案成功落地 从中国方案到全球落地,数栈用统一的多模态数据底座,服务不同地区、不同行业的客户需求 垂直场景解决方案 标杆客户落地案例 产品国际化底座 齐海外用户习惯•海外主流计算存储底座适配,包括AWS•全球多区域合规交付 需求,提供从数据接入、解析到关联分析的一站式方案,帮助客户实现链上资产风控、用户行为分析与合规审计 中国香港:高校数据中台和资产门户立陶宛:制造业多模态数据存算管沙特:中东政企数字化,本地云部署 客户案例 客户案例:某省级金融企业的数据可信空间建设 •跨机构数据不敢共享:隐私泄露、合规风险高•数据不愿共享:权属不清、收益无保障•数据不会融合:无统一技术与标准•监管不可控:使用不可见、流程不可溯 •某省金融监管局牵头,联合8家银行、5家保险、3家券商、征信/政务共19家机构,建设区域金融数据可信空间,解决数据可用不可见问题、实现数据可控可计量、可溯可审计,服务20万+市场主体,支撑普惠金融、联合风控、监管数字化。痛点需求 客户背景 与图像/语音/视频/文档等多模态数据,实现原始数据不出域、特征可流通.•可信流通体系全域构建:基于DID身份认证、数字合约、建立数据权属、使用、计费、审计全流程可信机制。 多模态融合处理:采用MPC、联邦学习、TEE等技术,支撑多模态数据跨机构联合建模与安全计算。•监管闭环与业务价值双提升:构建全链路监管审计体系,支撑普惠授信、联合风控、智能监管等场景。 多模态数据复用客户身份核验效 方案 未来规划 数栈未来规划 统一的lakehouse数据底座 快速复制落地;•通过约束系统、反馈闭环、监控审计建立AI的 •行业场景算子解决方案沉淀,如零售场建立与提示; 据集统一接入;•Flink/Spark/Doris等多引擎协同读写,结合小文件治理与缓存加速提升整体性能;•提供湖表版本管理、血缘等能力,保障数据可追溯可管控; 景的商品理解、评论分析和营销内容生成;•根据业务描述智能推荐算子/生成算子 HarnessEngineering,让AI安全、高效、规模化地运作“数据工厂”;•数据资产、指标、Text2SQL、鉴权等多MCP开放,