孙云龙腾讯云大数据专家架构师 目录 01大数据国产趋势 02 03腾讯云大数据实践 04 自主创新的国产替代迫在眉睫 对华出口管制事件: 自2018年以来,面向半导体、计算、材料等重要先进技术领域,某国 持 续 加 强 对 华 出 口 管 制 措 施 CentOS停服事件: CentOS82021年12月31日停止维护CentOS72024年6月30日停止维护 国资委79号令:复杂国际形势加速安可(XC)替代 总纲 2027:央企100%完成信息化系统安可替代,必选替换范围已明确;2022.11:要求央企100%完成方案报送;国资委每季度Review进展; 中央:国资委成立安可推进领导小组;各央企:党委/党组书记牵头,作为定期向国资委汇报进展的负责人; 全面替换(OA,门户等);应替就替(ERP,CRM,风控等);能替就替(生产制造,研发等); XC替代进度与国际形势复杂度显著正相关,预计未来将显著加速 日渐丰富的XC生态对大数据平台兼容性提出更高要求 企业部署自主创新的国产大数据平台已成必然趋势 CDH&HDP停更无法获得持续支持 国产软硬件适配受限许可证受限风险(法律与国际形势) 开源社区版问题 •无法直接贴合企业内部复杂的大数据业务场景•技术迭代快,开源生态丰富,但缺乏顶层设计•组件间架构松散,缺乏体系化的协作•版本混乱、组件安全问题•…… 基于开源能否自主创新和自主创新?是否具备专业化大数据产研服务团队? 传统平台四大核心需求 国产需求 降本增效需求 复杂业务需求 数据治理需求 1.基于开源Hadoop组件或CDH构建,无法支持国产软硬件的适配;2.CDH集群组件版本低,Hadoop新特性无法支持;3.缺少新兴大数据组件能力来满足快速变化的业务需求;4.无统一运维入口,平台运维复杂度高、压力大5.缺乏有效的平台安全管控能力,无法进行一体化管控,系统安全风险高;6.缺乏多租户与项目空间构建能力,无法有效利用系统资源并做好资源与相关权限的管控 1.多集群环境管理困难,不支持集群间的纳管,元数据/数据资产不统一;2.在离线分开部署,资源利用存在波峰波谷、利用率低;3.存算一体架构水平扩展时导致资源利用存在浪费;4.无法实现真正弹性伸缩;5.无法支持更广泛的数据文件格式,混合存储能力弱;6.由于内存限制的元数据扩展性缺陷、块汇报风暴、全局锁等问题; 1.数据集成、开发工作无法在线调试和发布;元数据管理及应用能力不足,缺乏数据血缘、数据权限控制等;2.数据开发与治理工作分离,沟通成本高,开发治理长效执行困难;3.偏重治理而非资产运营,不符合DataOps研发运营一体化理念4.缺乏数据跨源跨IDC的联邦查询能力,多源异构的多集群造成数据孤岛,需要数据搬迁后才能统一计算5.需要选择不同引擎负责不同的计算,缺少统一查询计算的入口6.普通人员缺乏专业知识来选择最佳执行引擎以应对不同数据场景 1.仅能处理结构化与部分半结构化数据,处理非结构化数据困难2.计算风格单一,流计算、图计算支持能力弱;3.超大规模的批量计算能力差,无法支持海量数据处理;4.无法有效利用普通的、廉价的硬件资源,集群存在理论上限,扩展性能力差5.缺乏云化大数据能力,集群伸缩时效性低;6.缺乏云化计算层,无法实现完善的资源隔离、弹性伸缩与高可用能力; 方案理念 依托三项能力建设,解决传统大数据平台四大核心需求,实现国产自主创新目标要求 湖仓统一存算底座引擎1 适应BI\AI数据应用需求,同时支持数据湖、数据仓库的云原生存算底座引擎,实现平台数据存算管理、技术栈统一的目标 DataOps工具链2 依托DataOps数据研发运营一体化理念,构建WeData工具链实现敏捷、协同的一站式数据开发治理运维,确保数据高效生产、数据安全可靠。 XC适配能力 国产生态产品的全面适配,完全自主创新的开源/自研组件功能,在满足安全可靠前提下,实现平台性能稳定性全面提升。 腾讯大数据XC大数据平台框架 •1腾 讯 云TBDS(Tencent Big DataSuite)是基于开源体系,融入腾讯内部海量数据处理先进实践,面向数据全生命周期,提供一站式的,满足政企级性能、全面支持XC、安全可信、多级多租户的大数据统一存储、计算、分析平台; •2 TCHouse是腾讯自主研发的分布式超大规模在线分析数仓,支持行列混存,具备极速OLAP响应、超高性能计算、存储计算分离、租户资源隔离、高效数据压缩、企业级数据安全、多级容灾等能力; •3 WeData是基于DataOps理念设计的一站式敏捷数据开发治理平台,提供数据规划、数据集成、数据开发、数据质量、数据服务等全链路开发治理能力,能够灵活应对不同应用场景,助力产业数字化转型升级。 腾讯专有云PaaS底座+TencentOS+自主创新硬件 大数据统一存储、计算、分析平台 TBDS(Tencent Big Data Suite)是基于腾讯多年大数据实践,面向数据全生命周期,对外提供的安全、可靠、易用的一站式、高性能、企业级大数据存储计算分析平台。 主要应用场景 六大核心能力 生态兼容&开箱即用 全景湖仓能力 兼容更广泛的云服务以及Hadoop生态系统组件,使历史构建在hadoop上的大数据平台可以平滑迁移。全开放的数据存储格式,可按需灵活搭配、多驱动接入,二次开发API,无需额外配置,不怕绑定、专业支持 虚拟计算服务,支持跨集群统一调度资源,支持秒级启停和扩缩容;弹性伸缩控制,支持多层级资源隔离,存算根据资源动态、伸缩策略等进行弹性伸缩;自带敏捷探索分析,轻松发掘数据价值。 统一管控服务 极致性能与可扩展性 管控与优化服务,提供统一元数据服务和一键建仓能力,权限集中管理,一次配置,多处无忧使用 单项目10万+节点,单集群万节点,日接入百万亿条数据,日实时计算5万亿次。基于开源组件深度优化其性能稳定性,综合性能提升30%+,资源利用率提升50%+,运营成本降低30%+ 多场景生态融合 国产适配安全可信 按需提供多场景解决方案,包括云原生数据湖、实时/离线数仓、湖仓一体、云数一体、国产数据中台,联合行业TOP级大数据合作伙伴,构建集成与被集成生态圈,有效支持全行业在统一存储、弹性计算、高效应用、低成本运营、国产替代的诉求。 国产信息技术融合创新生态全面适配和落地经验,高可用热备与故障秒级切换,TBDS提供了严格的数据安全分类管理策略,完整4A安全体系完全满足安全合规要求,支持kerberos认证、国密安全算法等。 安全自主创新-全面信息技术融合创新与合规支持,CDH替换最优选择 •已收录进《信息技术融合创新技术图谱》产品库•国密算法软模块符合商密一级要求•KM4密钥管理符合商密二级要求 全面支持国产软硬件生态,涵盖主流芯片、操作系统、服务器等领域。 安全自主创新--国产生态全面适配 全面支持XC国产生态,涵盖国产芯片、操作系统、服务器、数据库等领域,支持对常见的鲲鹏、海光、飞腾、申威、兆芯、中标麒麟、银河麒麟、中科红旗、统信UOS、腾讯云TDSQL等XC产品的适配。 腾讯云大数据产品获得工信部网安中心的“2020年度信息技术融合创新解决方案”典型案例,并于2022年10月被工信部下属XC工委会收录于《XC技术图谱》产品库 安全自主创新—平台组件自主创新 腾讯云大数据产品在坚持核心技术自主创新的同时,持续回馈开源社区,主导发布了Hadoop 2.8.4、2.8.5和Spark 2.3.2,也是多个项目的核心贡献者,包括Hadoop、Spark、Flink、HBase、Hive、MXNet、Parquet等 安全自主创新-立体防护全面增强 强大的多租户数据安全和合规特性保证数据安全 认证/账号 高效运维-TBDS-Manager全场景管控 管控升级 1.云上云下同源同构,100%自研2.部署效率、稳定性、指标监控增强3.多形态集群统一管理4.容灾,备份,多租户体系 管控目标:覆盖引擎全场景 1.CDHManager迁移到TM2.湖仓统一部署/监控/资源管理3.存算一体&云原生形态支持CDH迁移湖仓统管云原生 运维效率:问题工单下降超过50+% 1.大数据运行任务资源分析2.完善规则库、错误码体系3.全链路诊断,主动预发现可观测自助运维主动巡检 高效运维-灾备合规守护,确保业务永续无忧 可视化配置 高效运维-精细化资源及权限管理 管理租户 关联集群创建、管理所有已关联集群创建、分配、回收二级租户资源二级租户的所有功能 二级租户 关联管理租户部分集群管理本租户下所有资源创建、管理本租户下存算资源池创建、管理本租户下执行资源组创建、管理项目 项目、任务 项目关联本租户已经创建的资源池任务选择本项目已关联资源池支持项目、任务级资源隔离支持跨集群使用资源 云数一体融合,让大数据存算随“云”触手可及 云数一体是指大数据平台与云平台相结合,大数据平台可以借助云平台的云虚拟机、云存储、容器化底座、用户体系、运维监控、网络安全等基础能力实现云底座、大数据之间多种能力的融合统一,降低大数据建设及使用成本。 带来哪些价值 更高效地处理和应用大数据资源,为企业提供更好的业务洞察和决策支持 安全合规性 业务场景支持 高效运维管控 降低技术门槛 成本效益 提供了丰富的安全功能和合规性控制,确保数据的安全性和隐私保护提供多租户资源隔离,确保安全条件下的资源数据协同共享 提供行业多场景解决方案,适配复合业务需求按需进行资源弹性扩展和缩减,快速响应需求变化生态兼容与开放API能力,支持数据协同共享 提供快速部署和扩展的能力,一键迁移,无需繁琐软硬件参数设置自动化工具策略实现可观测智能运维,配合迁移灾备工具降低运维复杂度 充分利用弹性化资源,实现更灵活的成本控制和预算管理 成功案例:某大型能源电力企业数据湖案例 加速数据应用的融合 承载4大平台数据实时入湖 入湖效率提升30% •各业务数据统一归集到数据湖底座•数据服务层作为数据中心对外提供服务能力的应用层。 •支撑电网管理平台、客户服务平台、企业运管平台、调度运行平台的数据实时采集入湖。•整体规模1200个节点 •腾讯基于开源社区组件的增强改造•存储IO,计算能力优化•Inlong+iceberg实时入湖,TB级天增量入湖。 客户痛点 应用场景 方案架构 •各平台独立建设,烟囱耸立,资源管理和利用效率低下•架构陈旧,运维能力不足,无法支撑微信账单、设备台账等业务性能要求。•难以实现公共数据积淀,无法形成企业统一管理视图 价值亮点 实现4个贯通(服务贯通、数据贯通、平台贯通、网络贯通);通过1套创新治理体系,实现“存量”治理全、准、快,“增量”治理避免新孤岛、推动系统整合、融合开放,提升公司精益化管理水平和辅助决策能力。 成功案例:某大型机械制造数据中台助力精准营销、售后服务增长和供应链库存优化 Thanks




