您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:中国移动(侯鹏):北京移动数据库数智化生态能力研发与创新 - 发现报告

中国移动(侯鹏):北京移动数据库数智化生态能力研发与创新

信息技术2024-08-26侯鹏-L***
AI智能总结
查看更多
中国移动(侯鹏):北京移动数据库数智化生态能力研发与创新

侯鹏|中国移动通信集团北京有限公司 自主·创新·引领 目录Contents 数据库市场发展现状中国移动磐维数据库解决方案电信行业数据库国产化难题北京移动数据库数智化生态成果与应用01020304 Chapter01 数据库市场发展现状 数据库市场规模稳定增长 2024年国内数据库市场规模预计543.1亿,2022-2027年复合增长率为30.67% 2022-2027年国内数据库整体市场将维持增长态势,2024年整体市场规模预计为543.1亿,到2027年将增长至1183.8亿,2022-2027年复合增长率达到30.67%。 洞察一:在党政领域,数据库市场重心由省部级向地市、区县下沉党政领域内部办公与电子公文在省部级的存量替换已接近尾声,当前向地市和区县大面积下沉,地方政府采购订单逐渐增加。 洞察二:在八大行业,数据库正从非核心、次核心系统向核心突破 不同于党政,八大行业更加注重国产数据库的稳定性,为了防止核心业务风险的出现,前几年国产替换主要以非核心系统为主。以金融业为例,银行核心系统的国产数据库替代率15%左右;证券和保险核心系统的国产数据库替代率不超过20%。相关领域将成为未来三年国产替代的重点。 洞察三:关系型数据库云部署占比已超过本地部署 以阿里云、腾讯云、华为云等为代表的头部厂商投入大量资源进行研发,云部署市场规模逐渐超过本地部署,2023年关系型数据库中,云部署市场规模约178亿,占比65%左右。 数据库国产化发展主要趋势 四大驱动因素,推动国产数据库进入快速发展期 信创改造升级 数字经济发展 《“十四五”数字经济发展规划》提出,到2025年,数字经济核心产业增加值占国内生产总值比重达到10%,数据要素市场体系初步建立,数据库作为支撑国家数据经济发展的三大基础软件之一,在政策红利下加速发展。 预计央国企将在2027年前后100%完成核心信创系统的替代,目前金融行业非核心系统约40%,银行核心系统约15%,制造业、医疗等行业国产数据库替换率整体不足5%,蕴藏着巨大的市场空间。 数据要素治理 新质生产力 新质生产力是驱动国产数据库长期发展的重要因素,能触发国产数据库提供商投入更多资源,用于核心产品的研发,满足业务系统对于数据库在稳定性、高可靠性、高并发等方面的核心需求。 在数据要素治理过程中,企业需要从各个数据库采集数据,并形成前置数据库,需要大量数据转化的工具组件,形成增量的数据库市场,并催生数据库生态的发展。 Chapter02 电信行业数据库国产化难题 电信行业数据库国产化难题 电信行业数据库国产化难题:核心系统业务重要并且复杂,缺少稳定可靠的国产化解决方案 数据量庞大 业务形态众多 电信行业分为B域、O域和M域三大领域,包含ToB、ToC业务系统,系统间差异大,分布式数据库和集中式数据库都有大量存在,IT架构呈现出敏态和稳态共存的双态架构 经济发达地区的省公司,以B域的计费系统、经分系统;O域的信令系统、采集系统和告警系统为主,超大数据量非常容易造成系统的I/O发生瓶颈 国产化替代要求迫切 性能和稳定性要求极高 IT基础架构复杂,存在大量异构的服务器硬件和数据库软件。未来要求从次核心系统到和核心系统,需要逐步替换国产化信创数据库产品,做到核心系统全栈自主可控。 B域的核心系统必须部署本地容灾中心和异地容灾中心,以两地三中心,甚至三地五中心的架构部署为主 电信行业数据库国产化机遇和挑战 自主可控实践过程面临的挑战 无全局性框架指导 各单位均在试点摸索,缺少全视角、框架性策略体系和成熟案例指导 选型评估难 现网应用多、数据连接及事务繁杂,国产数据库品牌众多、场景复杂,造成对性能能力折射失真。 工具生态不成熟、迁移效率低 当前国产库商用周期短,工具生态不完备,迁移成本高、效率低。 智能化、易用性待提升 缺少统一监控、智能检测、智能审计,易用性不足,不利于推动新质生产力发展。 Chapter03 中国移动磐维数据库解决方案 中国移动磐维数据库发展历程 移动云原生数据库的研发是中国移动响应国家“加快建设科技强国”战略、践行中国移动创世界一流“力量大厦”战略规划的重要举措。 研发背景 从无到有 成长壮大 •充分调研多种开源数据库内核特点,最终采用发展趋势较好且无开源传染风险的openGauss路线;•组建数据库产品、研发和交维团队,全面开展数据库产品的研发与应用工作;•2022年12月发布磐维数据库1.0版本,适配国产信创软硬件,配套易用工具,并在内部多个业务系统试点上线。 运维平台•政策层面:数据库作为信创产业生态链的重要基础软件,具有更高的自主可控要求;•市场层面:预计2025年中国数据库市场份额将达688亿元,市场规模巨大;•行业层面:数智化转型对IT基础架构建设提出了新的挑战,国产软硬件兼容性不足,数据库迁移难度大,运维效率低。 •2023年发布磐维数据库2.0版本,大幅提升兼容性与工具易用性,支持分布式能力,提供多种部署形态与高可用方案;•在20多家内外部单位上线1300+节点,支撑150+业务系统,最长稳定运行500+天,支撑用户达数亿规模;•发挥技术应用与变现优势,在AI4DB、全密态计算等方向积极探索,规划布局。 中国移动磐维数据库市场定位 移动云原生数据库作为中国移动自主研发的数据库产品,满足内部系统自主可控要求的同时,积极推动生态建设,不断完善并提供面向多场景、多行业的企业级数据库产品与服务。 配套工具与解决方案 自主可控产品 生态建设 行业赋能 与国产软硬件厂商通力合作,实现全链条、全方位的协同运转,丰富信创产业生态。 深入研究数据库技术体系,从功能、性能、平滑过渡等多方面,构建自主可控的企业级数据库产品。 围绕数据库内核,搭建数据库迁移平台+运维管理平台,并提供整套数据库解决方案。 建设数据库服务体系,加入企业数智化转型市场,实现多行业、多领域赋能。 中国移动磐维数据库关键特性 高性能执行引擎 -行存、列存、内存等多种存储模式、多样负载-提供主备式、分布式、一体机、云化多样部署 -主流数据库Oracle/MySQL/PG等超融合兼容引擎-基于多种国产平台软硬协同 -NUMA-AWARE技术、极大提升多核处理器-SQLbypaas特殊执行路径 TPCC>170万,TPCH时延<300秒 开源数据库:80%+;商用数据库:50%+ 存储成本下降:50% 高智能AI自治 高效率一键迁移 中国移动云原生数据库 -多数据源、多模式、全自动化迁移-自动兼容评估,智能改造建议 -强化学习的参数自调优、启发式索引推荐-循环神经网络的多指标监控告警 索引推荐新能:30%;准确率:80%+ 迁移效率:300M/s;校验效率:150M/s 高安全国密算法 -提供同城双中心、两地三中心、异地双活集群-逻辑备份、物理备份,多种备份恢复策略 -接入认证、权限管理、安全审计、保障系统安全-基于国密算法的全密态存储/传输/计算 -简化安装部署,多层次系统管理-全方位监控,全自动巡检,智能告警 数据的实时采集、汇聚和分析 每隔150~300ms进行失败检测 SM3、SM4等国密算法 中国移动磐维数据库产品体系 移动云原生数据库为行业应用提供高兼容、高可靠、高性能、高安全的数据库产品,除数据库内核外,具备面向迁移、运维、开发的完整工具体系,支持高可用集群、分布式集群、一体机、云化部署等多种部署形态。依托于多年的数据库应用经验,打造了完善的售后服务体系,高效、便捷的服务全国各区域用户。 服务体系 产品标准服务 远程支持/安装部署/补丁等 年度维保服务 巡检/紧急救援/现场值守等 运维平台 专家高级服务 快速安装部署简化监控运维 咨询规划/迁移/性能优化/备份容灾/升级/培训等 基础平台支持 Chapter04 北京移动数据库数智化生态成果与应用 打造“数据库自主可控数智生态体系” 数据库自主可控数智生态体系 自主可控改造管理流程 数据库基于产品全网问题的对标和规避,与数据库厂商制定产品的版本和补丁,数据库参数的方案经产品研发侧正式确认。 双平面方法论 双平面方法论 核心库国产化挑战 双平面回切方案 第一步 Ø性能有“差距” 数据级双平面 通过迁移工具将Oracle全量数据同步到国产库 在BSS领域测试主流国产库性能普遍低于Oracle 业务系统 Ø迁移有“风险” 第二步 核心系统业务连续性保障紧急情况下要有逃生方案 Oracle为主库运行模式:校验国产库在生产负载下性能情况 应用级双平面 Ø模拟测试”困难” 业务系统 硬件损耗性能差异软件版本迭代演进配置频繁变更 第三步 国产库为主的数据库运行模式:Oracle库做应急保障 三引擎方法论 •基于代价改写能力,查询计划生成时间和空间占用,是否高效,准确。算法对于复杂多表关联能否找到最小驱动结果集。•基于代价的优化器:执行计划是否能准确包含数据的节点分区物理位置信息、网络通讯开销和cpu的并行度等。•针对分布式数据库,是否能结合分布式优化框架和分布式代价模型让整个计划变得更加高效和准确,是否能通过分布式算法进一步优化超大规模表的关联。实现自适应连接枚举 SQL语句 优化器 执行计划 •能充分调度cpu的多线程多进程。•包括指令级的向量化并行引擎。按列批量解码和向量化SIMD加速•从执行层让复杂查询的性能进一步提升,覆盖了基础算子的性能提升充分利用分布式能力,基于并行执行引擎的自适应的分布式算子下压,能自适应OLTP+OLAP混合负载的执行引擎 执行引擎 数据访问 •是否有行列混存结构,数据在存储层有编码信息以加速查询•查询谓词算子能够下压到存储,能在io中利用编码聚合信息快速过滤,以及按列过滤充分利用剪枝,从底层实现查询算子的io过滤 存储引擎 自主研发数据库数智化生态工具集 京信数据可信管理平台 京融数据交换平台 京审SQL智能管控平台 京维数据库智能运维平台 具备对结构化非结构化等重要数据资产持续检查确认数据是可信状态,数据一但有异常有问题,能够快速发现、告警、分析定位,并修复到可信状态。 具备自动分析,平台自动生成分析报告,历史数据留存,随时调取态势感知,智能预警等功能。 SQL监控和建模分析平台,具备SQL监控和审核,SQL运行模型建立,自动分析等功能。 具备数据迁移,数据对比,自动生成报表,数据清洗,数据映射等功能。 实时计算多库关联强大兼容 主动修复分析审计实时告警 智能预警 主动防御 安全评级数据备份 动态展示性能分析 “京融”数据交换平台--实现异构数据实时融合 关键特性 解决方案 痛点难点 Ø自研高性能消息队列,通过操作系统句柄数量动态管理技术、底层编译优化,实现支持百万级topic快速访问。对标kafka,提升了数据传输性能、减少主机资源消耗。 •断点续算:出现问题后,重溯异常断点,保证计算结果准确性和数据不丢失。•物化视图自动合成:基于数据实时复制和流数据处理融合技术实现,减少重复计算,提高数据查询和分析的性能•数据预计算:优化数据传输和处理效率 Ø随着核心数据量增大,场景变复杂,数据传输软件性能低,消耗大。 Ø自研异构数据计算服务,通过异构数据库语法解析技术,实现关联语法转换成关联结果DDL操作,实现异构数据融合功能,减轻数据库计算压力。 Ø公司内部系统复杂,异构数据库多,数据离散度高,聚合困难。 应用效果 Ø国产数据库上线侯性能压力大,严重依赖资源的增加扩展计算能力。 •数据传输零时延和断点续传,提升系统高可用能力。•异构数据库数据传输、计算及处理效率提升20%。•通过区块链技术降低数据校验时间损耗30%。 “京维”数据库智能运维平台--实现异构数据库智能运维 解决方案 关键特性 痛点难点 Ø构建清理分析模型、分区合