本报告版权属于腾讯云计算(北京)有限责任公司,并受法律保护。转载、摘抄或利用其他方式使用本报告文字或观点的,应注明“来源:腾讯云计算(北京)有限责任公司”。违反上述声明者,公司保留追究其法律责任的权利。 企业构建Data+AI平台需要具备哪些关键能力03目录Data与AI技术的可组装性 / 07端到端的Data+AI全生命周期开发与业务集成 / 07多模态数据(结构化非结构化数据)的处理与增强 / 07统一元数据驱动的治理与合规 / 07自主代理分析(Agentic Analytics) / 07云原生弹性架构与多云部署 / 08驱动企业构建Data+AI平台的核心要素02主动选择:主要是针对头部企业在构建面对AI赋能的大数据平台时, 需要突破现有的能力范畴,构建新的AI应用场景 / 05被动应对:主要是针对现有的数据资产通过AI赋能进行优化,以解决现有的问题,通过AI提升团队对数据资产的管理能力,降低整体成本 / 05生成式AI时代的数据挑战:企业转型的核心瓶颈0 1 Data+AI未来发展06Data+AI典型行业应用场景05腾讯云数据分析智能体(TCDataAgent)(即将上线) / 14腾讯云BI智能助手ChatBI / 17WeData Notebook / 19WeData DataOps / 20WeData MLOps / 22WeData Unity Semantics / 24Oceanus流批增量一体化 / 27数据湖计算DLC / 28AI数据湖服务TCLake(即将上线) / 29ES向量搜索 / 31TBDS多模态数据湖仓 / 32腾讯云数据库AI服务 / 36腾讯云向量数据库 / 38TDSQL-C / 39腾讯云智能体开发平台TCADP / 42腾讯云TI平台 / 43Data Platform数据平台解决方案 / 44Data Engine数据枢纽解决方案 / 46数据万象MetaInsight / 48日志服务CLS / 50腾讯云数据和智能安全 / 52腾讯云Data+AI产品方案及优势04WeData Agent / 11 060401 58 数据是数字化时代企业的核心战略资产。生成式AI(GenAI)与大语言模型(LLM)的崛起,正深刻重构企业的生产力范式、协作模式、业务流程与组织架构。它推动企业从“部门割裂”走向“跨职能协同”,从“层级管控”迈向“网状协作”。在LLM日益商品化与生态多极化的背景下,提升数据管理能力以赋能业务价值,已成为企业唯一可持续的竞争差异点。DeepSeekR1等模型的开放与低推理成本加速了这一趋势,竞争焦点正从“模型竞争”转向“高价值数据资产竞争”——AI发展的核心瓶颈日益凸显于数据质量而非算法本身,企业亟需构建系统性数据工程能力,通过持续迭代优化数据(而非频繁调整模型)来释放AI潜能。Gartner表示,企业组织数据的关键差异不在于拥有多少数据,而在于拥有多少高价值数据,而这些数据是其他公司难以复制的。一家拥有宝贵数据却未能将其应用于人工智能和分析计划的公司,本质上是在迎接颠覆。然而,传统数据平台在应对生成式AI带来的新型数据需求时,正面临严峻挑战:Gartner研究表明,非结构化数据占当今组织数据的70%至90%。受生成式人工智能(Generic AI)计划、多模态数据处理需求的爆炸式增长以及合规性压力的推动,企业对非结构化数据管理的需求急剧增长。因此,非结构化数据处理支出在数据管理总支出中所占的份额将越来越大。Gartner预测到2027年,专注于多结构化数据管理的IT支出将占数据管理技术和服务总IT支出的40%。传统数据处理工具在元数据提取、智能分块、摘要生成和高效向量化存储等方面能力不足,难以满足GenAI应用的复杂要求。升级工具链与方法论,是释放海量非结构化数据价值的先决条件。腾讯基于以上挑战,推出了开放、统一数据湖服务TCLake,混合搜索的ES;而应对私有化场景的海量非结构化、多模态数据挑战,腾讯也推出了TBDS多模态数据湖仓服务。如何激活沉睡的数据资产,释放非结构化数据价值AI的真正价值在于将企业蕴藏的庞大数据资产转化为可行动的智能。然而,调研显示企业AI项目平均落地周期长达数周甚至数月,远落后于业务需求的快速迭代节奏。其核心瓶颈在于传统模式下,数据管理与AI开发严重割裂——数据团队的工作台与AI工程师的训练/部署平台互不相通,形成巨大的协作断层。导致:如何打破壁垒,实现数据到智能的高效转化随着生成式AI在企业业务中加速渗透,海量、实时、动态的数据处理需求不断涌现:无论是客户服务中的对话生成、金融风控场景(譬如信用卡盗刷、秒级放贷),还是供应链中的动态预警,都对系统的吞吐能力、实时性和横向扩展性提出了挑战。如何驾驭数据洪流,应对海量数据高并发协作、实时数据处理的新挑战腾讯基于以上挑战,推出了Data+AI一体化解决方案:DLC+WeData DataOps+WeData MLOps,将大数据与AI、机器学习等功能集成于一体,实现更好体验和更低成本。- 02时效性差:从数据到分析预测涉及多系统、多团队、多流程,响应迟钝(如零售销售预测因周期长导致库存问题)。效果不稳定:实验室里表现优异的模型,到了真实业务场景中常常“水土不服”(因为数据环境变了却难以及时更新),影响决策质量;重复投入成本高:数据工程师大量精力耗费在跨平台数据搬运、格式转换与系统对接上,而非创造差异化AI应用。 生成式AI时代的数据挑战:企业转型的核心瓶颈01 然而传统数据架构为批处理而生,难以支持流式数据的秒级响应与动态查询;数据与AI的交互过程更进一步拉高了对数据读写和加工时效性的要求。腾讯基于以上挑战,推出了Oceanus 深度融合流处理和AI,保障业务实时性。在生成式AI应用场景中,数据质量、合规性和安全保障成为企业面临的核心难题。一方面,企业面临数据源激增、数据孤岛严重的挑战(据统计企业平均管理400+异构数据源);另一方面,企业需打造动态、可追溯的数据治理体系,避免“幻觉输出”与隐私风险。根据2023年Gartner分析和人工智能采用调查,解决风险和治理问题以及对发现的分析/指标缺乏信任是自助服务分析开发人员面临的最大挑战。根据2024年Gartner数据和分析治理调查,近一半的受访者认为“难以在不同部门/业务单位之间标准化数据”是其组织面临的最大D&A治理相关挑战之一。同时,在上述2024年网络研讨会上,当受访者被问及不在ABI平台内利用GenAI的原因时,28%的受访者强调GenAI功能未得到内部安全/法律/合规团队(内部政策)的批准,另有20%的受访者提到对数据质量缺乏信心。然而,传统数据平台在数据治理上还有很多不足:缺乏统一的数据标准和业务口径;依赖静态规则,难以灵活应对生成式AI场景下动态多变的数据访问需求(如基于上下文的敏感信息实时脱敏);治理流程自动化程度低、效率差。企业需要更智能、更动态的数据治理和隐私保护机制。腾讯基于以上挑战,推出了WeData Unity Semantics和WeData DataOps,破解数据孤岛、业务技术鸿沟和治理难题。如何构建可信的数据治理与安全体系生成式AI时代要求企业从数据中提升效率、获取洞察的速度大幅提升——例如产品销售型企业需要更实时地解读客户反馈,供应链型企业要能更及时地预测物流风险。这要求三类人群快速提升数据能力:如何让数据智能赋能全员,加速组织效率然而,当前传统平台依然使得开发者陷入低效重复工程,业务人员的数据需求响应周期长达数周。导致组织难以挖掘数据价值、对于市场响应迟滞于竞争对手。为了让数据智能赋能全员,腾讯云推出了一系列智能产品,其中WeDataAgent服务数据工程&数据科学人员;TCInsight服务运维人员;针对业务人员、管理者如何能更高效获得洞察,腾讯推出了专注于解析数据的ChatBI,和强调探索分析的TCDataAgent,真正促进组织转型。由此可见,生成式AI时代的数据挑战核心在于:挖掘非结构化数据的价值、打通数据到智能的转化壁垒、驾驭海量实时数据洪流的处理需求、构建可信的数据治理与防护体系,以及实现数据能力的全员普惠。数据工程人员需要提升效率:传统的编码方法需要手动拼接SQL和Python工具链,单个数据分析管道的部署通常需要数天时间。未来,AI增强的数据集成工具将使管道设计、错误修复和数据映射方面的人工工作量大幅减少。运维人员需提效:过往大企业需要多个5年以上经验的运维团队。但如果通过工具提效,运维团队需要的人数、所需经验都可大幅下降。业务人员需零门槛获得洞察:一线人员因无法用自然语言直接提取数据(如“请列出上月退货率>5%的产品”),被迫依赖IT团队中转,延误业务决策时机。自然语言将成为数据生态系统交互的标准接口,利用语义抽象来掩盖底层技术复杂性,从而显著提升业务用户的数据消费效率。03 - 02驱动企业构建Data+AI平台的核心要素 数据资产是AI时代的“新石油”,而Data+AI平台则是驱动数据价值转化的“精炼引擎”。高质量训练数据决定LLM模型性能的上限,企业要在这场AI浪潮中胜出,必须构建Data+AI双轮驱动的一体化平台——这是企业智能决策与业务创新的核心基石。通常来说,驱动企业构建Data+AI平台主要分为主动选择以及被动应对两个方面的因素:主动选择:主要是针对头部企业在构建面对AI赋能的大数据平台时,需要突破现有的能力范畴,构建新的AI应用场景,包括以下两个部分:被动应对:主要是针对现有的数据资产通过AI赋能进行优化,以解决现有的问题,通过AI提升团队对数据资产的管理能力,降低整体成本,包括下面三个部分:大模型微调、多模态数据处理、提示工程等能力需要高度专业化人才;AI价值需通过人才实现从“技术可用性”到“业务适配性”的转化(例如将通用大模型改造为行业专属模型)。而统一Data+AI平台能够减少重复性投入:通过企业级Data+AI平台统一技术栈,避免各部门重复搭建数据管道、训练基础模型;破除单一数据源的协作壁垒,减少因数据孤岛产生的内耗,降低跨部门数据对齐的沟通成本;可视化低代码工具让业务人员自主完成80%的常规分析,释放技术人才聚焦高价值任务。针对统一平台与数据基座降低“非必要成本”Data+AI能够提供更高效治理的数据(包括非结构化数据),让企业在AI实际落地的场景中去规避数据安全隐私的问题,减少AI的幻觉,增强用户使用AI所带来的用户体验和正反馈。需要提升数据治理的质量,以便保护已有的数据资产Data+AI能够让数据和AI团队在一个平台上进行协作,端到端的完成AI开发,数据管理为AI应用提供高效数据支撑,而AI又能反向增强数据管理的智能化水平(例如基于LLM构建Copilot等),进而形成Data和AI相互促进相互提升的良性循环。构建数据和AI在统一平台高效联动提高快速应对业务复杂性的能力高层对于Gen AI等新技术对业务落地有紧迫性。而另一方面,市场上GPU资源非常难采购且非常昂贵。导致数据团队负责人需要在Data+AI部署时既要兼顾业务价值敏捷迭代又要兼顾投资费用。需要提升业务敏捷与控制创新浪费生成式AI(GenAI)与主动元数据管理结合,可自动化数据摄取、清洗及转换等繁琐流程,减少人工干预。通过统一数据生态系统整合分散的数据管理组件,减少多平台维护复杂度。自动化数据流程提升效率05 - 03企业构建Data+AI平台需要具备哪些关键能力 07 -在技术高速迭代的时代,Data与AI技术的可组装性(Composability) 已成为企业构建数智平台的核心挑战。当前技术迭代速度飞快,技术生命周期缩短,关键组件的有效性窗口期急剧压缩。例如,AI领域的大语言模型平均每3-5个月即出现代际升级(如从GPT-3到GPT-4),数据管理领域的向量检索、湖仓一体架构等技术也在快速演进,半年前的技术方案可能在短期内被颠覆。单一技术很难长期占据核心地位。以数据平台为例,当前向量数据库因支持AI语义理解而成为关键能力,但随着图计算、神经