编委会 主编 徐晓敏、姜春宇 编委(排名不分先后)谷龙、董云川、陈海洋、康宸、田稼丰、刘彦美 参编单位 腾讯云计算(北京)有限责任公司中国通信标准化协会大数据技术标准推进委员会(CCSA TC601) 0101. AI时代下大数据产业洞察 0202031.11.21.3自主可控与数据安全成为产业发展的核心问题AI浪潮下数据产业面临多重挑战我国大数据产业发展新范式正加速形成 0502. 大数据技术演进的核心路径与挑战 0608102.12.22.3大数据技术产品国产化——分阶段、分层次的系统性工程安全可控的企业级部署——从“合规底线”到“竞争力壁垒”Data+AI一体化架构演进 1303. 腾讯云Data+AI一体化平台的系统工程实践 1415173.13.23.3TBDS三层融合架构核心技术创新与亮点TBDS核心能力支撑 04. 大数据平台实施建议 19 2105. 未来展望 附件 腾讯云TBDS产业落地案例 11图1元数据管理演进 14图2 TBDS 三层融合架构图 / CONTENTS表目录 06表1 国产芯片梳理06表2 国产操作系统梳理07表3 大数据国产化关键组件梳理08表4 数据工具与应用梳理09表5 部分行业关键要求梳理09表6 企业级部署场景优化方向梳理11表7 国内外主流厂商路线对比 AI时代下大数据产业洞察01 当前,全球数字经济进入深度发展阶段,数据已成为驱动产业升级、保障国家竞争力的核心生产要素,而数据平台作为承载数据存储、加工、分析与价值释放的关键基础设施,其安全可控性直接关系到数字经济发展的根基。在国际技术竞争日趋激烈、国内政策监管不断收紧、企业数字化转型加速深化的三重背景下,自主可控已从“可选方向”转变为“必由之路”,中国大数据产业正迎来一场以信创替代为核心、以安全合规为底线、以价值释放为目标的深刻变革。本章将立足行业宏观背景,剖析当前企业大数据平台面临的核心痛点,洞察产业发展趋势,为企业推进自主可控大数据平台转型提供全面的行业洞察与基础认知。 自主可控与数据安全成为产业发展的核心问题1.1 随着全球数字竞争格局发生深刻变化,技术供应链的不确定性、数据安全的复杂性持续提升,推动我国数字发展战略从“高速增长”向“安全可控、高质量发展”转型。核心技术自主可控与数据安全保障,已成为国家数字安全战略的核心组成部分,也是企业数字化转型不可逾越的底线。 全球地缘格局持续变化,加剧了关键技术领域的竞争壁垒。海外头部企业在大数据底层引擎、核心组件及商业化发行版等关键环节占据先发优势与市场主导地位,一定程度上给国内信息基础设施产业的稳健发展与自主可控建设带来外部竞争压力。近年来,国家先后出台《“十四五”数字经济发展规划》《数据安全法》《个人信息保护法》《关键信息基础设施安全保护条例》等一系列政策法规,明确提出“强化核心技术自主可控,推进国产化替代,加强数据安全治理,保障数据主权与隐私保护”的发展要求,将信创产业发展与数据安全保障提升至国家战略高度。其中,大数据平台作为信息基础设施的核心组成部分,其国产化替代被纳入重点推进领域,为产业转型提供了明确的方向指引与政策支撑。 从产业层面来看,截至2025年底,我国数字经济规模持续壮大,数字经济核心产业增加值占 GDP 比重已达10.5%以上,核心产业规模超过14.7万亿元,大数据作为数字经济的核心引擎,应用场景已覆盖政务、金融、能源、通信、医疗、制造等各个关键行业。随着各行业数字化转型的深入,企业数据量呈现爆发式增长,数据类型日益复杂,从传统的结构化数据扩展至非结构化数据、半结构化数据、多模态数据,数据的核心价值不断凸显。但与此同时,数据泄露、违规使用、跨境数据流动不合规等安全事件频发,不仅给企业带来巨大的经济损失,企业也面临严厉的监管处罚,数据安全与合规已成为企业不可忽视的核心诉求。 从企业层面来看,数字化转型已成为企业提升核心竞争力的关键路径,而大数据平台作为企业数据资产的“蓄水池”与“加工厂”,其稳定性、安全性、自主性直接决定了企业数字化转型的成效。过去,国内多数企业的核心大数据平台高度依赖国外Hadoop、Spark等开源组件及商业发行版,底层技术架构、版本迭代、安全补丁、功能升级均受制于外部厂商,一旦出现断供、停服或技术封锁,将直接影响企业核心业务的正常运行。在此背景下,越来越多的企业开始意识到,只有实现大数据平台从硬件到软件的全栈自主可控,才能牢牢掌握数据主权,保障业务连续性,降低安全风险,为数字化转型筑牢基础。 如今,全栈自主可控已不再是企业的“被动选择”,而是主动提升核心竞争力、保障自身安全的“战略举措”,在政策驱动、安全刚需、产业升级的三重合力下,我国大数据产业正进入自主可控、安全合规的全新发展阶段。 AI 浪潮下数据产业面临多重挑战1.2 当前,在国产化转型实际推进过程中,受技术积累不足、生态不完善、治理体系不健全、人才短缺等多重因素影响,企业普遍面临技术、治理、安全、融合、运维五方面痛点,这已成为制约企业数字化转型与信创落地的关键瓶颈,亟待系统性解决。 一是技术自主可控缺失,“卡脖子”风险凸显。长期以来,我国大数据产业发展依赖国外开源技术与商业产品,底层核心技术积累不足,自主研发能力薄弱,形成了“重应用、轻底层”的发展格局,带来潜在“卡脖子”风险。一方面,国外厂商可能因地缘政治、商业利益等因素,限制核心功能的使用、停止版本迭代或安全补丁更新,导致企业大数据平台面临功能受限、安全漏洞无法修复等问题,直接威胁核心业务的稳定运行;另一方面,开源组件本身存在兼容性、稳定性等问题,且缺乏定制化优化,企业在使用过程中需要投入大量的人力、物力进行二次开发与适配,增加了技术应用成本。某大型银行核心数仓运行在CDP上,CDP商业发行版调整授权策略后,银行面临短期内完成迁移自建的难题。原有数百个ETL作业、上千张表的血缘关系和运维知识,都绑定在平台生态内——“不迁不行、迁了又怕断”成为真实困境。 二是数据孤岛与治理困境,价值释放受阻。在传统烟囱式IT架构下,企业的业务系统、数据仓库、文件存储、第三方应用等 相互独立,数据分散存储在不同的系统中,形成了一个个“数据孤岛”。这些数据孤岛之间缺乏有效的数据互通机制,数据标准不统一、数据格式不一致、数据口径不规范,导致跨部门、跨系统的数据整合效率极低,大量数据难以发挥其核心价值。数据孤岛与治理困境的存在,导致企业数据资产难以转化为可支撑决策、驱动业务创新的生产要素,制约数字化转型的成效。如某省级电网公司拥有700+套业务系统、90万+张数据表,但同一个“电量”指标在营销系统、计量系统和财务系统中定义不同:营销口径含线损,计量口径不含,财务口径含税。一份看似简单的“全省月度电量报表”,需要3个部门协调数天才能对齐口径,分析师80%的时间花在“找数据、核口径”而非分析业务。 三是安全与合规监管收紧,合规成本持续走高。随着数据安全法、个人信息保护法等法律法规的发布,以及行业监管要求的持续收紧,企业面临的安全与合规压力日益增加,尤其是金融、政务、能源、通信等关键行业,对数据本地存储、敏感数据脱敏、操作留痕、审计溯源等提出了更高要求,合规已成为企业生存与发展的底线。据行业统计数据,部分关键行业企业的合规投入占大数据平台总投入的比例已超过30%,安全与合规已成为企业大数据平台转型过程中不可忽视的重要成本因素。例如,某银行发现,数据分析师为完成报表需求,将生产库中含有客户身份证号、手机号的数据导出为CSV文件后上传到本地Jupyter环境——全程无脱敏、无审计、无权限管控。因系统缺乏从“数据取用”到“结果输出”的全链路安全管控能力,只能临时封禁下载功能,严重影响正常分析工作。 四是AI融合瓶颈突出,智能化转型滞后。当前,大模型快速普及,AI技术已成为企业提升核心竞争力、实现业务创新的重要支撑,多模态数据处理、大规模模型训练与推理、向量数据管理等已成为企业大数据平台的核心需求。但传统大数据平台的设计初衷主要是针对结构化数据的存储与处理,缺乏对非结构化数据、多模态数据、向量数据的有效管理能力,难以满足AI发展的需求。例如,某券商尝试构建RAG知识库用于智能投顾,但企业核心知识分散在研报、会议纪要和财务报表中。大数据平台仅具备结构化数据管理能力,文件堆在业务系统里无人治理。AI团队多轮手动解析文档、清洗数据,最终只覆盖了约30%的存量知识,且无法持续更新——“有大模型没知识、有算力没数据”成为AI落地的最大障碍。 五是运维复杂度高企,人力与成本双重承压。在国产化替代过程中,企业大数据平台的架构日益复杂,国产芯片、操作系统、数据库、大数据组件与国外产品形成异构混合架构,不同组件之间的兼容性、协同性较差,导致平台部署、升级、监控、故障定位等运维工作的复杂度大幅提升。某大型能源集团同时运行Hadoop2.x(存量业务)、Hadoop3.x(新业务)、Kubernetes上的AI训练集群和独立的StarRocks实时分析集群,四套集群分属不同团队维护,监控告警分散在Grafana、Ambari等平台上。一次跨集群Hive查询超时故障,运维需要多天才定位到根因是Kubernetes集群的DNS解析策略变更影响了YARN队列——“到处救火、无法全景”是千节点运维的真实写照。 我国大数据产业发展新范式正加速形成1.3 面对当前的行业痛点与发展需求,我国国产化大数据产业正加速转型,逐步摆脱对国外技术的依赖,形成以自主可控为核心、以安全合规为底线、以价值释放为目标、以技术融合为支撑的全新发展范式。需要明确的是,国产化并非简单的“国外产品替换”,而是以“可用、好用、易用”为目标,实现安全可控、性能优化与业务适配的深度融合,新一代自主可控大数据平台正呈现几大核心发展趋势。 一是信创替代全面加速,从外围走向核心。随着国家信创战略的深入推进,信创替代已从办公软件、终端外设等外围系统逐渐向大数据平台、数据库、中间件、算力底层等核心技术栈延伸,形成了“芯片-操作系统-存储-计算引擎-数据工具”全层级的国产化替代格局。随着国产化技术的不断成熟,国产化大数据组件的性能、稳定性、兼容性大幅提升,已逐步应用于企业核心业务场景,信创替代进入“深水区”。 二是数据要素化全面提速,安全与价值并重。随着《“十四五”数字经济发展规划》明确提出“加快数据要素市场化配置改革,推动数据要素化”,数据作为第五大生产要素的地位日益凸显,数据确权、流通、交易、治理机制持续完善,企业对数据价值的重视程度不断提升。过去,企业大数据平台的核心功能是“数据存储”,重点关注数据的安全性与可用性。如今,企业已从“数据存储”转向“数据运营”,在保障数据安全合规的前提下,通过数据治理、数据分析、数据挖掘等手段,最 01AI时代下大数据产业洞察 大化释放数据价值,实现数据资产的保值增值。未来,数据治理与数据价值释放同步推进,将成为企业大数据平台的主流运营模式。 三是Data+AI一体化成为标配,平台能力全面升级。大模型与生成式AI的快速普及,推动大数据平台从单一的数据加工、存储、查询,向“数据处理、AI训练、模型推理、应用服务”一体化平台演进。传统大数据平台与AI技术的割裂,已无法满足企业智能化转型的需求,Data+AI一体化成为大数据平台的核心发展趋势。新一代自主可控大数据平台将整合数据处理、向量存储、异构算力调度、AI工作流编排等核心能力,实现结构化数据、非结构化数据、多模态数据、向量数据的统一管理,打通数据采集、数据预处理、模型训练、模型部署、模型监控的全链路,降低AI落地门槛。 四是湖仓一体架构普及,兼顾灵活与高效。湖仓一体架构融合了数据湖的低成本、灵活性与数据仓库的高性能、强事务能力,支持多源数据统一入湖、标准化加工、自助化分析,既可以实现海量数据的低成本存储,又可以满足企业实时查询、复杂分析的需求,有效平衡了存储成本与查询效率。目前,湖仓一体架构已成为企业大数据平台的主流架构选择,以实现数据的高效管理与价值释放