您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[StarRocks 2024 年度技术峰会]:3_移动云_x_StarRocks:构建下一代云原生数仓 - 发现报告

3_移动云_x_StarRocks:构建下一代云原生数仓

AI智能总结
查看更多
3_移动云_x_StarRocks:构建下一代云原生数仓

陶捷移动云数据库技术专家 移动云数据库团队十年前正式诞生,以实现数据库核心技术自主可控为目标,目前已构建完整产品和市场体系,并实现大规模商用。 移动云一站式云原生数据库服务 •移动云基于K8s构建云原生数据库底座,全线产品达云原生L1级•自研海山数据库系列,采用存算分离架构,并全面向Serverless演进•在中国移动算力网络战略下,大力探索算力网络数据库,积极推进相关技术以及行业标准制定•24年9月发布《中国移动算力网络数据库白皮书》 第四代:云原生数仓 第三代:新架构实时数仓 第二代:传统MPP数据库 第一代:单机分析型数据库 近五年来以SnowFlake为代表的云原生数仓,强调与云的基础设施融合,云原生、一体化、湖仓融合是主要的发展趋势。 上世纪90年代以Oracle、DB2为代表的单机分析型数据库 近十年来以Clickhouse、Doris为代表的新架构实时数仓,吸收开源大数据技术架构和能力,在分析实时性、支撑数据规模上有了显著提升 2000年代以Teradata、Greenplum、Vertica为代表的MPP架构数仓,具备支撑TB级别数据分析能力 EMR 移动云产品演进 海山数仓 高性能实时数仓引擎 极简化数据集成生态 云原生极致性价比 物化视图、向量化引擎、行列混存、CBO优化器 Zero-ETL、湖仓融合 •高性能数仓引擎 基于Starrocks内核构建高性能计算引擎。支持向量化引擎、CBO优化、物化视图、智能缓存等能力。 •存算分离架构 基于Starrocks实现存算分离能力,计算存储独立的扩展,支持无状态计算节点,持久化存储基于对象存储,通过本地缓存加速;实现多个计算实例共享数据存储,降低存储冗余和同步开销。 •统一管控云平台 对各类数据库进行统—抽象和封装,形成算网数据库管控底座;提供适配算力网络模式的新型数据库资源供给能力。 •高兼容性 支持MySQL协议,兼容SQL99/2003,支持多种外部数据源、联邦查询能力,兼容Iceberg、Hudi等开放数据湖格式。 共享存储 公有云:存算分离架构 •公有云场景支持存算分离架构,具备更好资源弹性;私有云场景支持存算一体架构,具备更健壮架构•持久化存储基于对象存储,降低约80%存储成本,容量可弹性扩展至PB级•本地SSD提供缓存加速能力,大部分缓存命中查询性能与存算一体持平•计算/存储资源独立扩展,有效提升资源利用率 •多个Warehouse共享一份数据,避免集群间数据复制成本•不同Warehouse应用在不同的业务负载。计算资源可以进行物理隔离•具备完备的多租户权限控制(Role BasedAccess Control) 数据库云平台-新一代云原生数据库管理架构 •数据库容器化,将数据面和管理面功能分离后,不仅将数据库生命周期管理标准化,也将运维和管理能力进行标准化 •在管理面将运维操作和经验自动化和平台化,提供丰富的数据库Day-2运维功能;实现标准化监控系统的接口和数据格式,通过插件机制可扩展支持将可观测性数据写入到监控系统、日志系统及消息中间件等,并提供丰富的可视化面板 •在数据面将数据库映射到位于四个层次的对象上:Cluster、Component、InstanceSet和Instance,形成了分层的架构,通过这些API定义组件的拓扑关系、启动的依赖顺序及引用关系等 Zero-ETL提升数据集成能力 ETL的痛点 在数据分析的场景中,通常分析型数据库本身不生产数据,数据来源于业务系统的输入。在传统数据分析应用中,ETL相关的工作量占比达到70% Zero-ETL服务 旨在实现事务处理和数据分析—体化,交易型数据库数据能够—键同步到分析型数据库,实现建仓成本的降低和入仓效率的提升 功能完备 •支持MySQL整库全、增量—体同步•支持动态Schema变更:增加列、删除列、新增表•支持多源合并能力 卓越性价比 •服务Serverless化,根据负载动态分配资源及并行度•全量同步20w条/s,增量同步5w条/s,对比业界竞品3w条/s•同步延时低于15s,对比业界竞品延时5min AI+数据库内核能力增强 学习型索引:通过机器学习模型来替代传统数据库索引结构,学习型索引通过使用机器学习模型来预测键的位置,从而减少索引的大小和访问次数,提高查询效率。在云原生分析型数据库场景,学习型所以可以降低对对象存储的访问开销,从而显著提升查询效率。 l性能困境:一次索引查需多次读对象存储和多次二分查询;l成本困境:多次对象存储交互导致用户成本提升。 l分组模型一:数据范围分组,支持字符串的学习型位图索引;l分组模型二:数据特征分组,降低内存占用,提高查询效率。 l学习数据分布特性,机器学习算法替代二分查询算法;l启发于聚簇索引,存储单元存储字典和位图;l充分利用对象存储的吞吐能力l性能表现:1.64x到2.03x。 项目背景 移 动 云中间 号 业 务 深 耕 垂 直 行 业 语 音 市 场,该 业 务 将 号 码( A )与 号 码( B )通 过中间 号( X )灵活 绑 定,双 向 隐 私 通 话,双 方 来电 显 示 均 为中间 号,为滴滴、美团、阿里、腾讯、京东等超500家头部企业提供服务。中间号平台通过广州、呼和浩特两个资源池承载全国的务间号业务,采用云MySQL承载话单数据,每天基于话单数据进行运营分析查询。存量数据量约7TB,日增数据量约1亿条。 •实时数据分析场景通过Zero-ETL将南北方MySQL数据实时同步至移动云海 山数仓产品,以实现近实时分析MySQL中的业务数据 •数据同步时延从MySQL数据同步到数仓中查询可用约10s。 •查询性能使用异步物化视图优化技术,单表1亿条数据查询,时间 最快可达到200ms(原Clickhouse查询时长1-2秒) 中国移动设计院融基平台聚焦解决质量、成本、效率和安全四大核心需求,致力于构建一站式云原生运维管理平台。其中,数据计算服务支撑数据仓库建设、数据分析和汇总分析等需求,承载调度云、门户云、用户云和设计院云的MySQL、PG的数据共享和贯通查询需求。Clickhouse替换需求,存量数据量约7亿条,存储约3TB,日增数据量约1000万条。 •实时同步通过Zero-ETL实现整库全增量一体同步(270+表),以实 现近实时分析MySQL中的调度表数据 •离线/在线分析基于Multi-warehouse使用两个海山数仓实例将查询和分 析库的分析需求隔离,减少峰值期的资源抢占。 •数据源扩展海山数仓支持PostgresSQL/MySQL数据源,并实现近实时 分析能力。 苏州银行实时场景承载各业务分析场景需求,业务总数据量约2PB,每日数据500G左右。基于现有建设情况,存在痛点:1,采集数据源较多,方式不统一;2,数据分析延迟高,难以满足实时性要求;3,多套技术栈资源和维护成本高。 建设效果 •实时数仓,端到端延时低于1分钟•基于主键模型大幅提升实时数据查询性能2.x倍•基于物化视图实现多层面逻辑视图嵌套,降低数仓各层级之间数据处理延时•湖仓一体架构降低离线数据迁移和存储成本 云原生持续深化 Data + AI •数据开发助手:NL2SQL、SQL补全•AI+内核:学习型索引、智能物化视图•Data+AI平台一体化 •Serverless:极致资源供给能力•从云原生到算网原生•一体化架构:HTAP Thank you!