您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[爱分析]:《小步快跑,数据库持续敏捷迭代——2024爱分析·数据库应用实践报告》 - 发现报告

《小步快跑,数据库持续敏捷迭代——2024爱分析·数据库应用实践报告》

信息技术2024-04-28-爱分析机构上传
AI智能总结
查看更多
《小步快跑,数据库持续敏捷迭代——2024爱分析·数据库应用实践报告》

报告编委 特别鸣谢(按拼音排序) 目录 1.报告综述6 2.分析型数据库 3.云原生数据库17 20 关于爱分析21 研究咨询服务 法律声明23 报告综述 1.报告综述 在信创政策、技术创新和业务需求等因素共同驱动下,我国数据库市场保持快速发展,据大数据技术标准推进委员会测算,2022年中国数据库市场规模为403.6亿元,预计2027年将达到1286.8亿元,年复合增长率为26.1%。 信创已经成为国家战略之一,通过发展信创产业实现信息技术领域的自主可控,保障国家信息安全是国家经济稳定发展的前提。随着大量中央及地方信创相关政策的出台,信创在“2+8+N”行业加速落地。其中数据库作为承载企业数据存储和管理的基础设施,是信创基础软件的替换重点,国产数据库市场迎来加速发展的黄金时期。 在信创政策推动下,以金融、电信、政府、制造、交通为代表的行业对国产数据库需求旺盛,未来,随着信创在更多行业的落地,国产数据库厂商将迎来巨大的市场空间,这也为国产数据库突破核心技术、储备技术人才、丰富产品形态提供发展契机。 技术端:AI、云计算与数据库融合加深,大数据、IoT技术催生数据库品类日益丰富 随着大模型落地加快,大模型与数据库的融合场景愈加成熟,如将生成式AI技术与数据库结构设计、架构设计、数据分析挖掘等场景结合,能有效提升数据库开发、运维和分析效率,正成为数据库厂商智能工具开发新方向。 上云是企业数字化转型的重要战略。为适应云应用的研发需求,数据库厂商正联合云厂商推出云数据库产品,为用户提供高效、便捷的数据库服务,如基于云计算的数据库即服务(DBaaS),支持用户在云端访问和使用数据库系统,可提供灵活的数据库管理解决方案。进一步,云计算中的无服务架构(Serverless)技术和服务模式逐渐成熟,其极致的可扩展性和资源细粒度自动控制的特点,使Serverless成为云厂商的重点布局。 此外,大数据、IoT技术的快速发展,使企业数据体量呈爆炸式增长,同时带来异常丰富的数据类型,如时序、GIS、图像、视频、文本等数据类型日益丰富,推动图数据库、时序数据库、时空数据库、文档数据库等各种专用数据库涌现并快速发展。 需求端:企业分析需求多元化促进分析型数据库技术更新迭代 随着数据资产的积累,企业正将数据分析广泛的应用到各个业务中,对分析型数据库的需求也从结构化数据、T+1周期分析,变成海量、多源异构、高并发、实时等复合需求,推动数据库从性能、可扩展性、架构等多方面持续迭代。 在以上背景下,本报告选择分析型数据库和云原生数据库市场作为重点研究对象,围绕两个市场的典型应用实践展开研究。 分析型数据库 2.分析型数据库 随着市场的快速变化和数据资产的快速增长,企业对数据分析的应用愈加广泛,对数据分析的性能要求也越来越高。在场景方面,除固定报表外,自助式分析、即席分析、复杂分析、预测分类场景也日益普遍,正成为企业日常经营的必要手段。在性能方面,以精准营销、风险控制、经营统计为代表的企业实时和准实时业务决策场景在快速增加。而基于Oracle、MySQL搭建的传统查询分析引擎在以上场景中表现严重不足,如在对海量数据高并发、实时查询场景响应缓慢,难以适应跨系统的多源异构数据的联邦查询,难以支持复杂分析的准实时场景等。 针对以上挑战,分析型数据库厂商采用多种手段满足企业复杂场景下的性能需求,如优化存储和计算架构,存储上采用存算分离架构,计算上采用分布式计算、MPP或全内存等架构;如通过外表联邦查询、湖仓一体满足对跨系统多元异构数据的融合分析;以及通过预计算、索引优化、物化视图、向量化执行引擎等多种方式提升固定报表、复杂查询的查询速度等。 呩⢾务鸑䘯鵘ꅾ匬侨䰘务䗱忘駈⚌⸉㢴猫撑勇ⴔ區꨽宠 中通快运成立于2016年,是中通品牌旗下快运企业,聚焦数智物流新趋势,提供面向企业及个人客户的全链路一站式物流服务。目前中通快运全国揽派件网点有21000余家,分拨中心超80个,自有运输车辆9600余台,区县覆盖率达99%。 ⠛絡卹匬ꦼ⟄鷓䎾⚌⸉䘯鸟〄㾝 中通快运率先在业内提出“数字快运”概念,在产品可追溯、物流智能管理、智慧供应链、辅助决策系统等方面持续投入。中通快运在数字化之初,搭建了基于Oracle的数据分析环境。近年来,中通快运业务规模保持快速增长,日快递单量能达到50万票,考虑到下单、揽件、运输、分拣、中转、签收等各个节点的操作,单表的最大写入量能达到20亿条,业务对海量数据、高并发、实时分析的复杂需求日益高涨,这为中通快运的IT系统带来严峻挑战,具体如下: 1.传统架构设计混乱,横向扩容受阻,系统性能面临瓶颈 中通快运传统架构在建立之初,为解决运营操作问题,软件开发中的数据分析和业务操作都在大运主库Oracle中实现,分析数据和业务操作数据杂糅,业务逻辑和数据逻辑均通过Java应用程序实现,所有表之间存在复杂的级联关系。并且,IT部门普遍以大运主库OGG同步的方式开发数据服务,使得底层数据架构的复杂程度进一步升级,成为主库横向扩容的阻碍。虽然中通快运通过对主库进行了纵向升级,但OGG同步路线的快速增长已经逐步消耗掉主库纵向升级带来的性能提升。此外,中通快运传统架构中以宽表的方式进行数据建模,一旦业务运营模式发生变化,需要对宽表进行调整或重构形成复杂的数据模型,如多个表之间存在多对多、嵌套关系等,导致数据同步困难,难以满足业务对数据分析的时效要求。 2.难以满足业务日益广泛的复杂分析需求 为保证业务正常运行,主库Oracle中只能存储3-6个月的数据,更早的数据则以文件格式进行备份。然而业务部门对数据分析的应用场景愈发普遍,并涌现出更多复杂分析场景,如车辆调度、路线规划、仓储管理、用户需求预测等越来越多的场景需要基于大跨度的历史数据进行预测分析,但备份中的数据难以调用。 3.开发和部署方式呈现烟囱式,无法快速响应业务变化 中通快运的系统之间相互独立,多年来对业务需求的支持以烟囱式开发为主,缺乏统一的数据规范,使得数据开发过程需花费大量时间处理数据格式、数据一致性等质量问题,造成数据开发效率缓慢,同时也带来重复开发、资源浪费的问题。 在对业务和数据反复思考过程中,中通快运大数据团队意识到,只有推动系统架构设计和业务运作流程同时演进,才能实现数据赋能。这意味着大数据团队不能仅仅作为一个支撑部门,更要具有主动赋能的意识。 为推动业务流程变革,中通快运大数据团队开始推动集团高层重新定位部门价值,将数据部门确定为业务赋能核心,纳入业务战略规划中。同时,数据团队与业务部门紧密合作,理解业务需求,提供相应的数据服务和解决方案,实现数据驱动的业务决策和优化。 在技术支持上,IT部门对数据中心的系统架构进行重构,并着重解决大数据量、高并发、实时场景下的OLAP分析问题。在陆续使用过HBase、Clickhouse等数据库后,中通快运将目光转向开源数据库,并有两点核心诉求:1)功能上,数据库需具备强大的联表查询能力,且支持大数据量、高并发、实时分析等场景;2)运维支持上,中通快运IT资源有限,并且需要将更多资源投入业务支持中,因此要求数据库具有简易运维的特点,且有商业厂商做支撑。综合考虑数据库功能和中投入产出比,中通快运最终选择与基于StarRocks的商业化公司镜舟科技一起解决核心OLAP分析问题。 北京镜舟科技有限公司致力于帮助中国企业建立卓越的数据分析系统,形成自己的“数据护城河”,旗下产品镜舟分析型数据库和镜舟湖仓分析引擎是基于StarRocks发展起来的企业级商用数据库,支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据,同时具备水平扩展、高可用、高可靠、易运维等特性。镜舟科技服务70亿元以上客户数量超过350家,包括不限于腾讯、携程、平安银行、中原银行、中信建投、招商证券、众安保险、大润发等企业。 ꅾ匬侨䰘务䗱卹匬䒊霃㹊傞ծⲥ㹊傞ㄤ㣐騗䏞㣐侨䰘ꆀ♲㽻侨䰘剪⸉腊⸂ 中通快运数据中心系统架构设计上,主要实现了两个关键点:1.对操作和分析进行解耦,将数据查询任务与DML任务隔离。2.对数据服务能力进行分层,按照实时、准实时和大跨度大数据量三层的服务能力。具体来看: 1.对操作和分析解耦 针对操作和分析杂糅的情况,中通快运对操作和分析进行解耦。 1)针对DML操作,由TiDB做业务实时数据的落地库,提供实时插入、更新、删除等数据操作服务,TiDB实时宽表可实现10秒及以内的实时响应。 2)针对数据分析,通过镜舟分析型数据库、湖仓分析引擎和Paimon数据湖搭建批流一体架构,由镜舟的分析型数据库和湖仓分析引擎承担核心OLAP能力。 镜舟分析型数据库能支持大规模的多表关联查询,其提供的CBO(基于代价的优化器)、向量化引擎、前缀索引等技术,能实现高效的多维度聚合操作与明细数据的拉取,此外,镜舟分析型数据库提供的物化视图可以在明细查询的基础上做不同维度的融合操作,最终实现应用层上的多维灵活分析。 批流一体架构提供准实时和大跨度大数据量的数据分析服务: ž面向(一年期内)大数据、高并发、实时要求高的分析场景,镜舟湖仓分析引擎从Paimon中读取并存储一年期数据,提供准实时响应,响应速度在10s左右。ž面向跨年的长期历史数据的大规模复杂查询,由镜舟分析型数据库直接对Paimon历史数据进行分析,整体从业务端数据传输到服务端的响应时间控制在2-3分钟内。 2.建立数仓分层架构,实现数据管理 镜舟湖仓分析引擎中的物化视图能简化湖仓分层建模,如中通快运通过物化视图可将Paimon数据湖中数据作为ODS层,进一步加工处理形成DWD、DWS层。湖上数据可以由镜舟湖仓分析引擎直接进行分析,也能通过物化视图将湖上数据写入到镜舟湖仓分析引擎中加速查询。数仓分层架构下,不同层级的数据能为不同的应用程序提供查询服务。 3.使系统具备弹性扩展能力 通过镜舟分析型数据库的MPP执行框架以及存算分离的特点,中通快运数据中心具备了弹性扩展能力,计算、存储能分别独立扩展。 4.简化数据开发操作,加速数据开发效率 借助镜舟科技的数据库产品,中通快运大幅提升数据开发效率,如在数据集成上,镜舟分析型数据库提供多种数据导入方式,包括实时数据导入、批量数据导入、流式数据导入等,以满足不同业务场景下的数据导入需求。在数据建模方式上,镜舟分析型数据库提供了星型、雪花、大宽表、预聚合等方多种数据建模方式。此外,在升级后的批流一体架构中,镜舟湖仓分析引擎支持通过Paimon Catlog组件直接查询Paimon数据,以及结合insertinto操作实现数据的转换和导入,能极大简化数据集成和处理流程。 넞佪ⴔ區佅丒⚌⸉㖞兞⚹⚌⸉〄㾝餻腊 1.高效满足业务多种分析需求 1)针对实时分析场景,实时数据导入、更新和计算,可以广泛应用于物流订单状态更新、TP数据库同步、多流join写入宽表等场景。 2)支持复杂分析的准实时场景,以往中通快运使用Oracle存储数据时,业务流程经常崩溃,数据服务难以维系。数据中心重构后,中通快运利用镜舟分析型数据库强大的多表关联查询能力,能在量本利、运营统计等各种复杂分析场景下对一年期内数据实现秒查,有效支撑业务需求。以中通快运对在线分拨中心的货物滞留计算为例,传统Oracle存储下,对60天的滞留数据计算需每两小时计算一次,每次计算需要将数据拆分为60次进行循环计算,经常由于资源不足或性能限制导致计算任务无法完成。在使用镜舟分析型数据库后,中通快运对60天滞留数据一次性查询,计算时间平均为8分钟。 3)支持跨年长期历史数据的大规模复杂分析。如进行回溯对账分析,或是基于强化学习对车辆调度、路线规划、仓储管理等场景进行预测分析,提升经营效率。 未来,中通快运计划利用镜舟分析型数据库的异步物化视图能力进一步优化加速,减少外部调度任务,进一步降低运维成本,实现业务响应和成本控制的双重提升。 2.数据架构优化,系统实现弹性扩展 数据操