AI智能总结
目录 u数据库产业概况 ---------2 •数据库的概念及主要类型•数据库技术发展趋势 u中国关系型数据库市场现状 ---------9 •国产数据库品牌逐渐崛起及采取多种技术路线•国内开源数据库根社区和根⽣态初步形成 u中国关系型数据库市场重点⾏业应用场景与特点---------15 •⾦融及电信⾏业数据库应用场景与特点•政府及制造⾏业数据库应用场景与特点 u国产数据库在重点⾏业应用态势分析---------20 •数字化创新转型由⼀般系统转向核⼼•集中式数据库在OLTP核⼼系统的作用不容忽视•分布式数据库成为⾦融、电信等⾏业的新选择•应用更关注数据安全•兼容性、迁移适配⽅法论逐步成熟 u国产数据库⾏业应用深化面临的问题 ---------27 •关键核⼼技术能⼒不⾜;⾏业应用迁移替代难度⼤•产业⽣态⼒量布局分散;产业链风险问题急需解决•数据库专业研发⼈才短缺 u对策建议 ---------32 •强化原创性技术创新;深化⾏业应用牵引机制•优化产业发展环境;保障产业链韧性安全•加⼤研发⼈才培养⼒度 中国关系型数据库产业发展和行业应用(2023) 章节⼀数据库产业概况 数据库的概念与分类 关键发现 •数据库(Database)是按照数据结构来组织、存储、管理,并且可共享的数据集合软件,是IT系统存储与计算的基础,与芯片、操作系统共同组成IT系统的核⼼,⼴泛服务于各类⾏业应用,是软件产业⽣态体系构建的重要枢纽•按照不同的维度,数据库有不同划分(1)按数据结构模型可分为关系型数据库和非关系型 数据库;(2)按⽹络架构可分为单机型数据库、存算分离性、集中式数据库和分布式数据库;(3)云数据库,是指被优化或部署到⼀个虚拟计算环境中的数据库 按数据结构模型可分为关系型数据库和非关系型数据库 关系型数据库(SQL),采用了关系模型来组织数据,以⾏和列的形式存储数据。关系型数据库的⾏和列的集合被称为表,表的集合则组成数据库。其诞⽣40多年,已形成较为成熟的产品体系,代表 产 品 如Oracle、DB2、SQL Sever、MySQL、PostgreSQL、openGauss等,其优点是事务的⼀致性,在⾦融等⾏业要求数据完整性、⼀致性较⾼的领域中⼴泛应用。 带来的诸多挑战,尤其是⼤数据应用难题,其包 括 :键值存 储 数 据 库(Key-value),典型产品有Memcached、Redis和Ehcache;列存储数据库,典型产品有Cassandra和HBase;面向⽂档数据库,典型产品有MongoDB和CouchDB;图数据库,典型产品如Neo4J、InforGrid;时序数据库,典型产品如InfluxDB。非关系型数据库具有扩展性强、⾼并发读写、灵活的数据模型等特点,⼴泛应用于数据量⼤的业务系统。但是也存在明显的短板,如,种类多、需要兼顾各类非关系型数据难度较⼤、⽆法对传统的数据类型(关系型)的应用进⾏升级等。 非关系型数据库(NoSQL),泛指除关系型以外的数据库,是对关系型数据库的⼀种补充。非关系型数据库的产⽣是为了解决⼤规模数据集合多重数据种类数据库的分类 中国关系型数据库产业发展和行业应用(2023) 数据库按结构模型分类 关系型数据库优点在于数据结构清晰、提供ACID事务特性和丰富的管理⼯具,但在⾼并发读写和数据扩展⽅面表现较差。非关系型数据库具有⾼读写性能、灵活的数据结构和扩展性强的优点,但处理多种数据库和升级传统关系型应用⽅面存在挑战。 中国关系型数据库产业发展和行业应用(2023) 数据库按⽹络架构分类 单机型数据库、存算分离性、集中式数据库和分布式数据库特点 单机数据库即是传统意义上的数据库,又称为完全共享型(Shared Everything)数据库。数据库管理软件部署于单台服务器 上(PC服务器,小型 机,⼤ 型 机等),使用本地磁盘存放数据。 集 中 式架 构是IOE(IBM,Oracle,EMC)提供的计算设备、数据库技术和存储设备共同组成的系统,同时也是目前银⾏、电信等⾏业的主流应用模式。 分布式数据库是由若⼲个节点集合⽽成,它们通过⽹络联接在⼀起,每个节点都是⼀个独立的数据库系统,它们都拥有各自的数据库、中央处理机、存储,以及各自的局部数据库管理系统。分布式数据库具有⾼可用、⾼可靠、可扩展的特性,在Google、Amazon、Facebook、阿里巴巴、腾讯等互联⽹公司⼴泛应用。随着数据量⼤幅增长以及⾼并发环境下对数据处理能⼒的要求越来越⾼,分布式数据库也逐渐被⾦融⾏业关注和应用。 存算分离型数据库是指数据库管理软件依旧部署到单台服务器上,但是存储部分利用⾼速⽹络技术,将存储外挂,利用磁盘阵列,分布式存储等设备将单台服务器的有限存储进⾏拓展。 集中式数据库是指采用集中式架构,将数据存储在⼤型主机或小型机上进⾏集中管理,其操作系统,中间件,数据库等“基础软件”多为闭源商用系统,典型的 来源:沙利⽂整理 中国关系型数据库产业发展和行业应用(2023) 分布式数据库与传统数据库的区别 集中式数据库vs分布式数据库 据量增长。虽然集中式架构在可维护性和⼀致性⽅面可能更具优势,但分布式系统通过采用先进的分布式中间件和运维平台,也可以达到甚⾄超过集中式数据库的性能和可靠性⽔平。分布式中间件可以帮助管理和协调分布式系统中的各个节点,提供统⼀的服务接⼝和数据处理能⼒,从⽽简化开发和运维的复杂性。同时,运维平台可以对分布式系统进⾏全面的监控和管理,确保系统的稳定性和⾼效运⾏。 集中式与分布式数据库各有优缺点。近年来、分布式数据库架构发展比较迅速,首选,在经济性⽅面,分布式架构通常能够更有效地利用计算资源,通过⽔平扩展来降低成本,⽽集中式数据库往往需要昂贵的硬件和基础设施来支持其运⾏;其次,在安全自主性⽅面,分布式数据库往往设计有更严格的权限控制和数据隔离机制,能够更好地保护用户数据的安全和隐私;此外,分布式架构在灵活性和可伸缩性⽅面也具有显著优势,能够轻松应对不断变化的业务需求和数 来源:沙利⽂整理 中国关系型数据库产业发展和行业应用(2023) 云数据库 云数据库是指被优化或部署到⼀个虚拟计算环境中的数据库,可以实现按需付费、按需扩展、⾼可用性以及存储整合等优势,其本质是将各类数据库技术与云平台技术结合,通过虚拟化、容器化或者裸⾦属等⽅式将数据库进⾏云化管理,以服务的形式对用户进⾏交付,⽽非传统的License交付。云数据库不仅提供WEB界面进⾏配置、操作数据库实例,还提供可靠的数据备份和恢复、完备的安全管理、完善的监控、轻松扩展等功能支持。相对于用户自建数据库,云数据库具有更经济、更专业、更⾼效、更可靠、简单易用等特点,使用户能更专注于核⼼业务。 DMMPP数据库等。同⼀个分类维度之间也不是“非⿊即白”,存在“跨界”产品。如混合事务-分析处理数据库(HTAP)同时具备事务型数据库和分析型数据库的能⼒,多类型数据库是可同时管理关系型、键值型、⽂档型等模型的数据库。 由于中国数据库产品呈现以关系型为主,非关系型数据库为辅的局面,关系型数据库在中国数据库总体市场中的占比超过60%,成为中国数据库创新发展的“主战场”,本报告的分析集中于关系型数据库领域。 数据库不同分类维度之间,可以互有交叉。⼀个数据库产品可同时是“关系型-决策 型-分 布 式”,如Greenplum数 据 库、 云数据库特点 •云数据库可弹性扩展,快速提供存储和计算资源,适应业务增长,⽆需⼤量⼈⼒和硬件投⼊ •云数据库具备⾼可用和可靠性,通过分布式架构和冗余备份,确保故障时的数据安全和系统可用性,保障业务连续性 •云数据库灵活可定制,提供丰富配置选项和参数调整,适应业务需求。用户可按需选择存储引擎、调整资源比例 来源:沙利⽂整理 中国关系型数据库产业发展和行业应用(2023) 数据库技术发展趋势 发展趋势1 数据库架构⾛向存算分离、资源池化 存算分离架构将计算和存储资源充分解耦并实现资源池化,计算节点转为⽆状态节点,支持按需分配;外置的共享存储可以使用中⼼化的存储集群,提升存储的可靠性和扩展性。存算分离将存储资源和计算资源拆分为独立的模块进⾏建设,在资源利用率、存储资源⾼效共享、多场景灵活部署等⽅面具有显著优2 势。此外,随着⾼性能盘、NVMe新协议、RDMA/NoF新型⽹络等新技术的⼤量涌现,为存算分离架构提供了更好的技术支撑,使得存算分离架构成为技术演进趋势上的选择。目前,AWS Aurora、阿里云PolarDB、openGauss等都不约⽽同采用了存算分离架构去提升数据库的整体能⼒。 混合事务与分析型数据库需求不断增长 在需要同时支持OLTP和OLAP场景,基于创新的计算存储框架,在同⼀份数据上在保证事务的同时可支持⾼效实时分析,省去费时的ETL过程,构建出混合事务分析处理的HTAP数据库。HTAP数据库采用事务处理、分析处理、数据同步、查询优化、资源调度等多种技术,实现3 在事务型⾏存基础上,定期将增量数据合并到列存储中,用以满⾜分析型负载,并结合分布式调度技术实现并⾏化,进⼀步加速处理。目前各⼤厂商都在布局HTAP,如阿 里云PolarDB、腾 讯云TDSQL、openGauss等。 多模态数据库将成为流⾏ 数据库的下⼀个模式会向多模⽅向发展,同时支持关系、KV、⽂档、图、时序等模式。多模数据库支持灵活的数据存储类型,将各种类型的数据进⾏集中存储、查询和处理,可以同时满⾜应用程序对于结构化、半结构化和非结构化数据的4 统⼀管理需求。目前已经有多种原⽣多模数据库,如ArangoDB、OrientDB等,但 也 有 传统 的 关 系 型 数 据 库,如PostgreSQL、openGauss等,通过插件扩展支持时序、图、GIS等多种模态。 分布式数据库迎来快速发展机遇 分布式数据库是采用计算机⽹络将物理上分散的多个数据库单元连接起来组成的⼀个逻辑上统⼀的数据库,具有⾼并发/⾼吞吐读写、海量存储、弹性伸缩、⾼可靠性等特点。相较于传统数据库,分布式数据库具有更⾼的性能和可扩展 性,能够满⾜⼤规模数据处理和实时数据更新的需求。目前被⼴泛应用于互联⽹、⾦融、电商等领域。目前各⼤厂商数 据 库都 具 备分 布 式 能 ⼒,如华为云GaussDB、奥星贝斯OceanBase、腾讯云TDSQL等。 来源:沙利⽂整理 中国关系型数据库产业发展和行业应用(2023) 数据库技术发展趋势5 AI使能数据库成为未来发展的重要⽅向 管理效率、降低错误引⼊率、减少安全隐患的同时也⼤⼤降低了运营成本。目前学术界和⼯业界共识的研究重点是将机器学习与数据管理在功能上融合统⼀,来实现更⾼的查询和存储效率,自动化处理各种任务。目前业界openGauss在这⼀块处于领先位置,已经具有较完备的AIforDB和DBforAI能⼒。 可以通过AI技术实现数据库的自优化、自监控、自调优、自诊断;另⼀⽅面可以实现库内AI训练,降低AI使用门槛。从赋能对象来看,⼈⼯智能与数据库的结合既可以体现在数据库系统自身的智能化,包括但不限于数据分布技术智能化、库内进⾏训练和推理操作、数据库自动诊断、容量预判等;也可以体现在数据库周边⼯具的智能化,能够在提升 软硬协同是数据库效能提升的关键 新兴硬件可以从计算、存储和传输三个层面赋能数据库。计算层面,借助众核CPU、GPU、FPGA、AI芯片等,可以实现包括但不限于多核并⾏优化、事务并发控制、查询加速、存储层计算卸载、数据压缩加速、⼯作负载迁移等能⼒;存储层面,随着NVMe的出现和发展,内存和外存的界限变得模糊,针对传统块存储设计的索引在NVMe中面临新的性能 挑战;传输层面,RDMA带来⽹络传输⾼性能表现和CPU卸载能⼒。为充分榨取软硬协同的系统性能,未来可能对数据库系统的架构设计带来颠覆性变化。 目前各数据库都在利用硬件进⾏加速,如:PostgreSQL利用GPU加速复杂查询、ope