简述行业变化: 数据库管理软件作为计算机三大基础软件之一,是信息系统的核心软件。 关系型数据库诞生了Oracle、DB2、SQLServer、MySQL等明星产品。但随着数据的快速增长,新需求不断涌现,理论技术推陈出新,全球范围内创新型数据库快速涌现,市场格局剧烈变革。我国数据库企业增速仍在高位,产品矩阵日趋丰富,产品力不断加强,其中中国关系型数据库市场阿里、腾讯、华为和达梦合计占比超过50%,Oracle、微软等仍有较大存量。 全球数据库市场快速增长 根据CCSA TC601大数据技术标准推进委员会(以下简称CCSA TC601)发布的《数据库发展研究报告(2023年)》,2022年全球数据库市场规模为833亿美元。关系型数据库仍是目前应用最广泛、最成熟的数据库类型,例如Oracle、SQLServer、MySQL、DB2等。但是随着互联网、大数据等新技术、新场景的发展,非关系型数据库、分布式数据库、HTAP混合负载、云数据库等逐渐兴起。截止2023年6月,全球数据库产品共有653款(剔除2款网状数据库),其中非关系型数据库344个,占比达到52.7%,2020年至今,全球有80家数据库初创公司诞生,行业竞争日趋加剧。 中国数据库市场增长迅速潜力较大 根据CCSA TC601统计2022年中国数据库市场规模为59.7亿美元(约合403.6亿元人民币),占全球7.2%。预计到2027年,中国数据库市场总规模将达到1286.8亿元,市场年复合增长率(CAGR)为26.1%。按数据库部署方式划分市场规模,2022年中国公有云数据库市场规模为219.15亿元,较2021年增速51.6%,占比54.3%;本地部署数据库市场规模为184.45亿元,较2021年增速14.4%,2022年公有云数据库市场规模首次过半,预计2023年公有云市场占比将达到59.8%,规模达到323.16亿元。 中国数据库市场竞争激烈 伴随着数据规模的高速增长,受益于政策和多元化需求驱动,我国数据库产业进入重大发展机遇期。截止2023年6月,我国数据库产品提供商共150家,2020年至今,国内有53家数据库初创公司诞生。在2024年1月墨天轮数据库流行度排行榜中,已经收录了219款数据库产品,其中前10名均为关系型数据库,OceanBase、PolarDB、OpenGauss、TiDB和人大金仓位居前5,达梦、GaussDB、TDSQL、GoldenDB等紧随其后,行业竞争加剧。 投资建议 在全球数字经济浪潮下,数据库作为承载数据存算的关键数据技术,正经历又一轮发展热潮。未来中国数据库市场将呈现多元供给的局面,国内云厂商凭借强大的技术实力和用户基础有望取得更大的市场份额;国内独立第三方数据库厂商依托信创市场和细分应用场景获取一定的市场份额,例如达梦数据、人大金仓、南大通用等依托行业信创进程加速,逐步进入更多细分行业市场。考虑到公有云厂商数据库业务占比较低,建议关注:独立第三方数据库供应商达梦数据(待上市)、人大金仓(太极股份);积极布局向量数据库的星环科技-U;积极参与OpenGauss生态建设的海量数据。 风险提示:政策落地不及预期,技术发展不及预期,行业竞争加剧风险。 1.数据库产业欣欣向荣 1.1数据库是信息系统核心软件 数据库是“按照数据结构来组织、存储和管理数据的仓库”,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。在IT系统架构中,数据库管理软件作为计算机三大基础软件(操作系统、数据库、中间件)之一,向下可充分发挥基础硬件算力,向上支撑上层的应用需求,是信息系统高效运行的关键基础。数据库具有较小冗余度、较高数据独立性和易扩展性,并可为各种用户共享。数据库由于综合成本低、处理能力高,扮演各类信息系统的核心角色。 图表1:数据库是信息系统核心基础软件 在数据中心软件栈中,数据库产品兼具通用性和多样性的特点,相比操作系统和中间件是一个集中度更低的且快速发展的市场。 数据库管理系统(DBMS)作为能够使用户定义、创建、维护和控制访问数据库的软件系统其整体架构与技术路线不断深化发展,如今呈现集中式与分布式并存,数据模型不断拓展等技术现状。数据库大致可以由内核组件集与外部组件集共同组成,其中外部组件集以数据库配套的独立支撑软件为主,例如数据库驱动等。内核组件集则一般可以分为管理组件、网络组件、计算组件、存储组件4大模块。 图表2:典型数据库管理系统各模块架构图 1.2全球数据库发展历程 首款企业级数据库产品诞生于上世纪60年代,此后发展过程中,数据库共经历前关系型、关系型和后关系型三大阶段。前关系型阶段数据库的数据模型主要基于网状模型和层次模型,该类产品在当时较好地解决了数据集中存储和共享的问题,但在数据抽象程度和独立性上存在明显不足。关系型阶段以IBM公司研究员E.F.Codd提出关系模型概念,论述范式理论作为开启标志,期间诞生了一批以DB2、Sybase、Oracle为代表的数据库产品。21世纪随着新场景、新应用层出不穷,非关系型数据库、分布式数据库、HTAP混合负载、云数据库等逐渐兴起,与现有关系型数据库形成了良好的市场互补关系。 图表3:数据库发展历程重要里程碑 当前数据规模大幅增长、数据类型愈发丰富、数据应用快速深化,促使数据库产业再次进入创新周期中的混沌状态。全球范围内创新型数据库产品快速涌现,市场格局剧烈变革,我国数据库产业进入重大发展机遇期。 1.3数据库种类繁多 数据库选型时需要考虑因素包括数据模型、性能要求、可用性、成本等。不同的数据库类型具有各自的特点和优势。当前数据库按不同的标准和特征可以进行多种分类。 图表4:当前主流数据库分类 1)按数据模型分类: 关系型数据库(RDBMS):数据以表格的形式存储,使用SQL进行查询和管理,具有严格的结构和模式。常见的关系型数据库包括MySQL、Oracle、SQL Server等。 NoSQL非关系型数据库:适用于半结构化或非结构化数据。它们包括文档型、键值型、列型和图形数据库。例如,MongoDB、Cassandra、Redis等。 2)按数据处理方式分类: OLTP(On-Line Transaction Processing联机事务处理)数据库:用于在线事务处理,处理大量短期事务,通常需要高并发。关系型数据库常用于OLTP应用。 OLAP (On-line Analytical Processing联机分析处理)数据库:用于在线分析处理,支持复杂的数据分析和查询,常见的OLAP数据库包括Snowflake和Redshift。 HTAP(Hybrid Transaction / Analytical Processing混合事务分析处理)数据库:HTAP数据库简单理解就是OLAP业务和OLTP业务都统一地在一套数据库系统里内完成。 3)按技术架构分类: 集中式数据库:数据库运行在单一计算机上,不支持分布式数据处理。 分布式数据库:数据库跨多台计算机分布式存储和处理数据,分布式数据库有许多变种,包括NewSQL数据库和分布式NoSQL数据库。 图表5:分布式数据库示意图 4)按开源和商业分类: 开源数据库:数据库系统的源代码可供公开查看和修改,通常免费使用。例如,MySQL、PostgreSQL和MongoDB等。 商业数据库:数据库由商业公司开发和销售,通常需要购买许可证。例如,Oracle Database和Microsoft SQL Server等。 还可以按应用领域分类:嵌入式数据库和大数据数据库,例如Hadoop HBase和Cassandra是专门用于存储和处理大规模数据的数据库系统;按数据存储方式又可以分为内存数据库和磁盘数据库,例如Redis和Memcached是典型的内存数据库。用户可以根据实际需求和应用场景的不同而选择合适的数据库类型。 1.4全球数据库行业竞争加剧 全球数据库以非关系型和混合型为主 全球数据库产品数量整体分布呈现以非关系型及混合型数据库为主。据CCSA TC601大数据技术标准推进委员会(以下简称CCSA TC601)统计分析,截止2023年6月,全球数据库产品共有653款,其中非关系型数据库344个,占比达到52.7%,2020年至今,全球有80家数据库初创公司诞生,行业竞争日趋加剧。非关系型数据库中,键值型数据库82个、时序数据库53个、图数据库52个,在非关系数据库中依次占比23.84%、15.41%和15.12%。 图表6:全球数据库产品类型分布 我国数据库产品数量呈现以关系型为主 中国市场中关系型数据库产品156个,非关系型数据库有82个,占比分别为65.5%和34.5%。非关系型数据库中,图数据库24个、时序数据库24个、键值数据库10个、列存数据库10个,在非关系数据库中依次占比29.27%、29.27%、12.20%和12.20%。2020年至今,国内有53家数据库初创公司诞生。 图表7:中国数据库产品类型分布 数据库开源模式发展迅猛 首先开源并不等于免费,开源只是把源代码公开。开源的商业化数据库主要是通过不同的版本,例如社区版和企业版,分别采用不同的授权方式。社区版本完全免费以便更好的推广,而从企业版的许可销售和支持服务获得收入。例如MySql,MongoDB。 同时大量的公司利用现有的开源数据库进行修改打造成自己的商业化产品。 全球开源数据库兴起于20世纪90年代。自90年代开源数据库不断推出,2001-2015年,每隔5年,产品数量均呈2-3倍增长。开源数据库于2006年后迅速发展,目前共268款,占全部数据库比例40.9%。其中在2011-2020年进入发展高峰期,大量开源数据库产品不断推出。这10年间,一共出现了159个产品,全球59.3%的开源数据库均诞生于在这一时期。 图表8:全球现存开源数据库开源时间 新场景新需求催生数据库类型多样性 关系型数据库是目前应用最广泛、最成熟的数据库类型,关系型数据库是建立在关系模型基础上的数据库,相对其他非关系型数据库有易理解、高度通用、生态成熟等优势,例如Oracle、DB2、SQLServer。但是随着互联网、移动网络、大数据等新技术、新业态的发展,为应对更多样、更敏捷的信息处理需求,以及更大规模、更大容量的数据访问和存储需求,非关系型数据库、分布式数据库、HTAP混合负载、云数据库等逐渐兴起,导致行业竞争日趋加剧。 图表9:全球主要数据库产品图谱 根据DB-EngineRanking官网,截至2024年1月,已经收录了417款数据库产品,虽然关系型数据库中的Oracle、MySQL、SQLServer仍然保持流行度前3名,但是可以看出Top20中非关系型数据种类多样且都保持了一定的流行度。 图表10:全球数据库流行度排行 1.5数据库技术发展趋势 当前数据库技术正围绕助力用户降本增效、护航数据要素安全流通、赋能新兴业务场景三个目标持续发展,呈现12个细分发展方向。分别为交易分析一体化、多模处理一体化、数据湖仓一体化、软硬协同一体化、AI与数据库融合、云与数据库融合、密态数据库、区块链数据库、图联邦学习、向量数据库、图数据库、时空数据库。 图表11:当前数据库12个细分发展方向 HTAP(混合事务分析处理)数据库能力显著提升 HTAP数据库的起源于2010年代,有三条技术路线:单机数据库、云数据库和NewSQL。其中SAP HANA是以内存数据库为主的单机架构,MySQL在2021年发布的Heatwave。Google AlloyDB参考了AWS Aurora的架构,有了显著的提升。 NewSQL的分支起源于Google的Spanner,但同为NewSQL架构的TiDB持续在实时HTAP加强投入,TiDB早期解决了MySQL分库分表的问题就面临用户的在线分析需求,在2018年TiSpark的引入,2020年TiFlash架构