您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:腾讯云TCHouse-D云上实时湖仓构建和进化 - 发现报告

腾讯云TCHouse-D云上实时湖仓构建和进化

信息技术2024-04-25李德腾讯D***
AI智能总结
查看更多
腾讯云TCHouse-D云上实时湖仓构建和进化

李德ApacheDorisPMC成员 个人介绍01TCHouse-D的选型思考02TCHouse-D产品介绍03后续规划及社区共建计划04 目录 李德–腾讯云TCHouse-D研发负责人 ApacheDorisPMC成员&Committer原百度Palo团队核心开发者和开源技术负责人曾受邀参加在美国举办的Apache软件基金会20周年庆祝会和ApacheCon2019开源峰会,并在会上做了演讲 TCHouse-D的选型思考 面对云数据仓库的诸多挑战,选择Doris作为腾讯云的实时数仓 综合选择Doris作为腾讯云实时数仓 云数据仓库面临诸多挑战 开源开放,社区活跃、用户基数大 复杂查询、混合负载下的极速性能 •Apache协议,开源开放;社区活跃,功能迭代快速,用户基数大,issue能够快速被发现和解决 •基于大数据和混合负载场景的极致性能需求,包括业务报表、多维分析、获取洞察等 性能极致,功能丰富,能应对多种场景需求 数据能实时流动和增量计算 •在向量化、多核pipeline、基于CBO和RBO的先进优化器,先进的缓存技术加持下,获得了极佳的查询和写入性能 •支持丰富的场景需求,包括多维分析、高并发、日志分析、在线分析业务等。 •数据从摄取到最终分析需要实时流动;数仓分层和ETL需要能实时增量处理 高并发、高可用、高可靠的在线业务 •在线分析业务需要支持高并发、高可用、高可靠的分析性分布式数据库作为后端 具有良好的MySQL/Hadoop湖仓生态兼容度 生态兼容和湖仓一体 •兼容MySQL协议及其相关生态,原有业务无缝对接•作为湖仓引擎,可以直接读写Hive/Iceberg/Hudi数据 •需要兼容原有业务和生态组件,迁移成本低,湖仓异构数据需要通过统一引擎读写 通过全托管产品形态,低成本、高易用全面保障业务稳定可靠 自建or半托管产品存在诸多问题 全托管产品:包运维、省人力、降成本 全面保障业务稳定运行 •包含多名PMC和Committer在内的专家开发团队支持;新需求定制、bugfix、社区新功能合入等; 打造产品易用性,降低人力操作/运维成本 产品稳定性无法保障 人力投入成本高 集群管理复杂 •白屏化操作、集群一键管理、一键跨集群数据迁移等•打通云上生态,提供一站式数据集成/开发/分析平台 •集群创建、扩容、销毁等操作复杂•缺乏统一安全管控(如操作审计)和账户权限体系•缺乏统一的监控、巡检告警和售后服务体系 •需要投入多名集群运维人员,保障业务7x24小时稳定可靠•需要投入多名内核维护人员,新Feature开发,bugfix,社区修复合入升级等 •内核稳定性没有保障,出现问题无法及时修复•缺乏产品使用最佳实践引导,无法发挥产品最佳性能,甚至可能踩坑•版本升级和新功能使用无法保障 协助资源降本 •支持资源自动弹性(资源按需付费)、支持数据降冷(冷数据存对象存储,存储降本)等 TCHouse-D的产品介绍 定位:打造云原生、全托管、一站式的实时数仓及湖仓统一引擎 产品描述 腾讯云数据仓库TCHouse-D基于ApacheDoris内核构建,与云上大数据生态体系融合,提供丰富的集群管控能力,及完善的巡检告警体系,为客户提供简单易用、极简运维的云上全托管服务,助力客户快速进行实时OLAP数据分析及实时湖仓构建。 简单易用 开箱即用、标准SQL、兼容MySQL协议 极简运维 整体架构简洁、FE/BE均可水平扩展、系统自动进行数据重分布 安全可靠 全托管服务,SLA保障,FE节点高可用部署,数据多副本管理 生态兼容 具备TCHouse-D联邦Hive/ES/Iceberg/Hudi,以及腾讯相关产品,包括BI,大数据,数据湖等产品的能力 完善的全托管服务、丰富的企业级特性 企业级高可用 完善的管控能力 强大的专家支持团队 •安全组隔离、节点负载均衡•跨多可用区高可用•多业务资源隔离•主备容灾集群(规划中) •可视化集群管理,一键资源扩缩•精细化权限管理,可视化SQL查询•查询分析及数据审计•数据备份恢复,及一键跨集群迁移 •团队2名PMC,7名Committer•客户接入1对1指导•专业的售后运维及SRE团队 云上生态的深度联动 集群运维巡检能力 产品稳定性保障 •DataInlong联动,高效数据同步•EMR联动:数据湖查询加速•DLC联动:一键开启湖仓一体•BI联动:快速可视化数据分析 •丰富的集群、机器、业务监控指标•集群监控检查,主动问题预警•实时问题巡检,快速问题解决 •99.9%的产品可用性承诺•内核稳定性的持续优化•产品bug快速响应解决•7x24小时工单支持 持续的稳定性建设,99.9%产品可用性保障 云上DataInlong联动,实时数据同步 WeDataInLong+TCHouse-D/DLC,无需进行SQL/代码开发,可视化、向导式实现数据的实时同步。 联动腾讯云数据湖DLC,提供全托管的极速湖仓一体服务 基于DLC+InLong搭建批流一体近实时数据分析平台,数据从业务数据库实时/批量写入DLC,经过DLCServerlessSpark完成数据ETL后形成汇总层高价值宽表,并将高价值数据写入TCHouse-D或通过外表查询。 百万级/秒吞吐实时数据入湖 DLC结合腾讯云DataInlong可实现百万级数据量/秒实时湖仓写入,数据时效性从天/数小时级提升到分钟级。 5-8倍的数据湖查询加速 •通过外表亚秒级实时查询DLC数据湖中数据,满足大部分实时查询任务的时效性•高价值数据实时同步TCHouse-D后实现毫秒级查询,满足高实时要求场景 统一用户/权限体系,一体化使用体验 •一键开启DLC湖仓一体,通过Muticatalog共享DLC的元数据•打通DLC的用户/权限体系,用户无需进行多次授权 腾讯云大数据产品矩阵 后续规划及社区共建计划 腾讯云TCHouse-D的后续产品规划 腾讯云TCHouse-D社区贡献及社区共建计划 腾讯云将持续回馈社区,TCHouse-D将与社区一同成长 团队累计PR1000+,2024年度截止11月底,已提交PR400+ 积极参与社区活动 •在多个外部大会进行技术布道,联合主办DorisSummitAsia线下峰会,积极投身于社区推广宣传。 Ranger集成适配 开发支持Pamion 需求反馈与文档共建 •将腾讯云TCHouse-D在服务客户过程中遇到的需求与问题进行沉淀,及时反馈至社区,并参与社区的联合研发以及文档优化工作。 开发共建,及代码反馈 支持行过滤、列屏蔽等数据脱敏 支持冷数据备份恢复等 •将腾讯云TCHouse-D开发的更多功能合入社区,如支持用户、权限的备份恢复、支持存算一体/存算分离间数据迁移等。 贡献者最多、贡献度最大的云厂商