您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [杭州玳数科技有限公司]:袋鼠云 - 发现报告

袋鼠云

信息技术 2026-04-14 杭州玳数科技有限公司 木子学长v3.5
报告封面

版权声明 本材料版权属于杭州玳数科技有限公司(简称袋鼠云),并受法律保护。 转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:杭州玳数科技有限公司(简称袋鼠云)”。违反上述声明者,本司将追究其相关法律责任。 目录 版权声明................................................................................................................................1前言........................................................................................................................................11.多模态数据中台概述...........................................................................................................21.1.行业背景与趋势.........................................................................................................21.2.定位与简介................................................................................................................41.3.产品架构...................................................................................................................41.4.核心能力...................................................................................................................51.5.为什么选择数栈多模态数据中台................................................................................61.6.数栈优势...................................................................................................................72.多模态整体功能说明...........................................................................................................82.1.控制台Console...........................................................................................................82.2.离线开发BatchWorks...............................................................................................112.3.元数据资产MetaDataAssets......................................................................................162.4.AI辅助大数据开发与应用.......................................................................................203.大数据服务体系................................................................................................................293.1.多模态运维部署说明...............................................................................................293.2.从规划到应用落地,提供“管家式”数据化服务。.....................................................304.产品解决方案....................................................................................................................314.1.多模态数据集成解决方案........................................................................................314.2.多模态数据处理解决方案........................................................................................325.典型客户案例....................................................................................................................355.1.某制造企业的多模态数据中台升级..........................................................................35 前言 随着企业数字化转型的不断深入,数据形态正从单一的结构化向文本、图像、音视频等多源异构的复杂模态演进。当前,结构化数据价值挖掘已接近天花板,增量有限,而半结构化、非结构化数据规模加速增长,其价值利用率却不足10%,成为未来数据领域开发的“蓝海”。只支持结构化数据资产的开发管理,意味着企业只能管理不到20%的数据资产。因此,面向结构化、半结构化及非结构化数据的多模态数据管理,已成为未来数据资产管理演进的必然趋势。 在此背景下,如何有效整合与治理多模态数据,挖掘其深层价值,已成为数据驱动业务创新的关键命题。数据作为新型生产要素的价值日益凸显,企业在数据资产管理与智能化应用方面的需求也迈入全新阶段。 袋鼠云作为领先的数字化基础软件与应用服务商,始终致力于为企业提供稳定、高效、卓越的产品与服务。其旗下大数据平台数栈DataStack,在原有数智基建与数智应用两大领域基础上,全面升级多模态数据处理能力,构建覆盖多源异构数据集成、统一治理、智能分析与服务的一站式多模态数据中台。平台在保留大数据计算引擎EasyMR、离线开发BatchWorks、实时开发StreamWorks、数据资产DataAssets、数据服务DataAPI、智能指标AIMetrics、标签洞察TagInsight、智能数据分析EasyBI九大产品优势的同时,新增多模态数据处理与理解能力,助力企业面向文本、图像、音视频等复杂数据场景实现统一开发、治理与服务,赋能企业构建面向AI时代的私域数据底座。 数栈始终坚持自主可控,致力于帮助客户打造国产创新的企业级多模态数据基础平台,夯实数据基座,建立覆盖多模态数据全生命周期的管理体系,使数据“可见、可用、可管、可理解”,释放多模态数据融合价值,让数据真正具备业务生命力。 本白皮书将从数字技术、产品能力、应用实践、服务支持四个方面全面介绍数栈多模态数据中台能力,重点解读多模态数据集成、AI驱动的多模态数据开发与治理、DataOps在多模态场景下的实践,以及面向行业的多模态智能应用落地经验。同时,结合大量客户案例,总结多模态数据基础平台的建设路径与最佳实践,希望为各行业企业在多模态数据时代的数字化转型提供有益参考。 1.多模态数据中台概述 1.1.行业背景与趋势 1.1.1.AI时代下数据地位变化:数据是至关重要的底层支撑 随着人工智能技术从判别式向生成式演进,企业AI能力的构建愈发依赖于数据、算力、算法三大要素的协同发展。其中,数据作为AI模型的训练基础与推理依据,已成为决定AI应用效果的关键变量。 算力可通过基础设施投入获得,算法可通过开源模型快速调用,但企业私域数据具有独特性和不可复制性,是构筑差异化AI能力的核心资产。通用大模型的知识来源于公开数据,难以覆盖企业特定业务场景、客户画像、产品细节与行业经验。企业AI应用的落地,必须建立在对自身私域数据与领域知识的高效管理基础之上。 以上变化推动了数据地位的跃升,数据不再仅是业务系统的附属产物,而是企业生产力构建的核心要素。企业拥有的数据在全面性、质量、有效性等方面的水平,直接决定了其在AI应用中的竞争力。AI时代的企业竞争,本质上是数据资产能力的竞争。 1.1.2.AI时代对数据提出新要求 AI应用的落地对数据平台提出了不同于传统数据中台的全新要求。面向AI场景,企业数据平台需要在以下三个维度实现能力升级: (1)全面性:覆盖多模态数据类型 传统数据平台主要面向结构化数据,如交易记录、业务表单等。然而,企业AI应用需要调用的数据类型更为丰富,包括文本、图像、音视频、日志文件、PDF等半结构化和非结构化数据。这类数据占企业数据总量的80%以上,但长期未能得到有效开发利用。AI时代的数据平台必须具备多模态数据的统一接入与管理能力,为AI模型提供完整的数据视野。 (2)高质量:确保数据可信可用 AI模型对数据质量高度敏感。数据的不准确、不一致、不完整会直接影响模型训练效果,甚至导致推理结果偏差。数据平台需要建立完善的数据治理机制,覆盖数据从采集、处理到供给的全生命周期,保障数据的准确性、一致性和可追溯性,为AI应用提供可信赖的数据输入。 (3)有效性:实现数据敏捷供给 传统数据开发模式周期较长,难以满足AI应用快速迭代的需求。AI时代需要构建高效的数据供给链路,实现数据从生产端到模型训练及推理应用的敏捷流动。DataOps等理念的实践,有助于提升数据开发与交付效率,支撑AI应用的持续优化。 1.1.3.多模态数据应用场景 多模态数据的统一管理与融合分析,正在推动各行业AI应用场景的落地与深化。以下以电商、高校、汽车三个典型行业为例,展示多模态数据的应用实践。 (1)电商行业 电商平台的数据资产涵盖多种模态:结构化数据包括用户信息表、商品信息表、订单表、供应商表、物流信息表及往年活动分析表;半结构化数据包括用户评论、活动规则、网页浏览埋点日志;非结构化数据包括商品图片、商品介绍视频、直播热点、客服对话及往年活动复盘文档。基于多模态数据的融合分析,电商平台可实现智能运营与精准营销,如个性化推荐、大型营销活动策划优化、客户体验提升等。 (2)高校行业 高校数据环境同样呈现多模态特征:结构化数据包括学生信息表、课程信息表、成绩表、考勤表、活动记录表;半结构化数据包括在线学习日志、选课偏好标签;非结构化数据包括作业文本、论文、课程视频。通过多模态数据的统一治理,高校可构建个性化培养与智慧管理体系,如学习行为分析与学习路径推荐、课程设置优化、学生综合管理等。 (3)汽车行业 汽车行业的数据资产涵盖