您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[赛迪]:中国分布式存储市场研究报告 - 发现报告
当前位置:首页/行业研究/报告详情/

中国分布式存储市场研究报告

信息技术2023-05-31赛迪更***
中国分布式存储市场研究报告

中国分布式存储市场研究报告(2023) CONTENTS目 录报告概览第一章厘清概念,把握分布式存储的核心要点一、分布式存储是什么二、分布式存储的分类 三、分布式存储的优势 四、分布式存储的应用领域 第二章量化研究,明确分布式存储的发展现状一、2020-2022年中国分布式存储市场规模 二、2020-2022年中国分布式存储市场结构三、2022年中国分布式存储主要场景市场 四、2022年中国分布式存储区域市场 汇报人:010406080914151718 第三章瞄准企业,洞察分布式存储的厂商动态一、2022年中国分布式存储市场重大事件 二、2022年中国分布式存储厂商竞争力情况 三、2022年中国分布式存储部分厂商发展情况 四、2022年中国分布式存储部分细分市场情况第四章谋篇布局,预测分布式存储的未来发展一、2023-2025年中国分布式存储市场规模预测 二、驱动及阻碍因素分析 三、分布式存储的发展趋势第五章建言献策,助力分布式存储的全面跃升企业:根植应用个性化需求投资机构:关注自研路线厂商政府及第三方协会:细化多维度标准CONTENTS目 录2021232427293134 报告概览分布式存储指基于分布式架构,通过软硬件协同,依托高效网络连接多个节点来实现存储功能的IT产品和服务。在传统存储面临拓展性有限、结构化/非结构化数据兼容性不佳、I/O性能与成本不经济、可靠性不高和面向新应用(如容器)支持能力有待提升、用户体验不佳等问题的背景下,分布式存储一定程度上与传统存储实现了较好配合分布式存储与集中式存储相互配合,满足了多个场景用户的个性化需求相比传统的集中式存储,分布式存储在以下领域表现突出:云原生:指“生在云上、长在云上”的政企业务场景,典型的有容器和微服务等高性能计算(HPC):支撑每秒百亿亿次浮点计算(EFLOPS)场景的分布式存储融媒体:指文件大且I/O延迟要求低的元宇宙、虚拟数字人和虚拟现实等场景智能备份:指视频监控、医疗影像和智能制造等场景2022年,分布式存储在云原生、高性能计算(HPC)等领域表现突出2020-2022年,中国分布式存储市场规模快速发展;2022年文件存储占比最大从规模看,近三年中国分布式存储市场规模均保持30%以上的高速增长,2022年市场规模达104.2亿元从结构看,2022年,文件存储占比最高,一体机、分布式混闪、虚拟化融合在各自领域占比较高从场景看,HPC在2022年中国分布式存储主要场景市场中居于重要地位从区域看,2022年华北、华东地区占据半壁江山,京津冀、长三角市场领跑01 报告概览2022年中国分布式存储市场中,领导者有华为、中科曙光、浪潮、新华三挑战者有XSKY、 SmartX、 NetApp、 Dell&EMC、焱融科技跟随者有同有、杉岩和中国电子云可期待者有深信服和联想中科曙光在分布式存储教育科研和气象市场份额居首位,SmartX在分布式块存储金融市场居首位中国分布式存储厂商加快构筑自身竞争力驱动因素:数据爆发式增长、可靠性要求提升、硬件性能提升、云原生加速业务创新阻碍因素:资金人才支撑不足、标准滞后缺失主要发展趋势:分布式块、文件和对象存储快速发展,分布式全闪存适用范围扩展,在云环境、云原生场景普及,自研线路具有较好发展前景预计到2025年,中国式存储市场规模有望达到211.4亿元企业、投资机构和政府部门需形成合力企业:根植应用个性化需求,根据不同应用对存储性能的要求,提供高适配性产品投资机构:关注自研路线厂商,建议关注具备面向应用需求的架构自研、技术自研的厂商政府部门:细化多维度标准,统筹产学研用各方力量,推动相关评测认证体系的推广宣贯和评测结果的发布02 第一章厘清概念,把握分布式存储的核心要点01 一、分布式存储是什么分布式存储指基于分布式架构,通过软硬件协同,依托高效网络连接多个节点来实现存储功能的IT产品和服务。分布式架构:与集中式架构不同,分布式架构没有负责所有业务的中心节点,而是由多个可相互通信、协调的普通节点构成集群,对外提供服务。软硬件协同:硬件主要由存储控制系统(CPU、缓存)、硬盘/闪存盘和网络等构成,软件则是与硬件适配的存储操作系统,以及存储服务软件、管理软件、状态监控软件等应用软件。图 1集中式架构与分布式架构............中心节点普通节点1普通节点2普通节点3众多可通信、协调的普通节点集中式架构分布式架构随着数字中国加速落地,数据作为数字经济的核心部分,具有基础战略资源和关键生产要素的双重作用,对于建设网络强国、科技强国、质量强国都具有重要意义。在新一代信息技术不断迭代升级的背景下,全球数据量呈现爆发式增长。作为全球数据生产大国,中国数据量也面临急剧增长的态势。数据量的急剧扩展,愈发凸显了数据存储及管理的重要性。数据存储作为数据管理的必要手段,其发展迎来了新机遇。传统存储面临拓展性有限、结构化/非结构化数据兼容性不佳、数据读写任务(I/O)性能与成本不经济、可靠性不高和面向新应用(如容器)支持能力有待提升等问题,用户体验不佳。在此背景下,分布式存储近年来迅速发展,一定程度上与传统存储实现了较好配合,满足了多个场景用户的个性化需求。04 图 2分布式存储架构图通用存储节点存储节点1存储节点2存储节点3存储节点4......可扩展节点操作系统层自研/开源分布式存储系统存储协议层块存储文件存储大数据存储(HDFS)对象存储存储资源层全闪存硬盘1全闪存硬盘2全闪存硬盘3混合闪存硬盘1混合闪存硬盘2......混合闪存硬盘3混合闪存硬盘3......应用服务层虚拟机云原生文件共享大数据应用程序解决方案层虚拟化人工智能可靠存储医疗影像云原生自动驾驶智慧城市融合媒体......高效网络:并不是传统的TCP/IP网络,而是采用存算分离的设计思路,不通过CPU,直接由内存传输到智能网卡完成I/O的远程直接地址访问网络(RDMA)。表 1常见的分布式存储软硬件类型名称特点硬件CPU相比服务器的CPU,侧重计算数据存放位置、备份功能缓存常规操作无需更多内存,但在执行恢复操作时,内存负载大硬盘/闪存盘考虑需求和成本,配置硬盘和闪存盘的数量网络每个存储节点至少2个千兆网卡;PB级集群则多为一个10G网卡软件操作系统调度硬件资源构成灵活的存储资源池服务软件提供副本、纠删码(EC)、远程复制、缓存加速等功能其他软件资源、硬件状态监控;简化配置、在线扩容等功能05 二、分布式存储的分类根据场景特点和需求,2022年中国分布式存储产品共有四种主要的分类方式:按存储对象,可分为分布式块存储、分布式文件存储、分布式对象存储、分布式统一存储;按产品形态,可分为一体机、纯硬件和纯软件;按存储介质,可分为分布式全闪存、分布式混闪;按部署方式,可分为虚拟化融合方式、容器融合方式和分离方式。 (一)按存储对象分类分布式块存储:指将各存储节点的硬盘、闪存盘等存储硬件资源通过划分逻辑卷(LVM)、创建独立冗余存储阵列(Raid)、逻辑分区等方式,由物理存储资源转化为面向需求的逻辑块,提高使用效率。LVM1LVM2Raid逻辑分区......硬盘、闪存盘等分布式存储物理资源三类典型的分布式存储逻辑块图 3分布式块存储示意图分布式文件存储:指基于文件系统对各存储节点的数据进行存储,形成目录、子目录、文件,常见的分布式文件存储应用有Ceph、HDFS、GFS、FastDFS、GridFS、mogileFS、TFS等。F:/rootF:/root/aF:/root/bF:/root/a/data1F:/root/a/data2F:/root/b/data1F:/root/b/data2F:/root/a/data3F:/root/b/data3..................图 4分布式文件存储示意图分布式对象存储:指各存储节点由标识符、数据和元数据的对象数据构成。其中标识符在该存储系统中唯一,用于区分不同存储区域;元数据将提取数据特征,便于快速检索。分布式对象存储相比块存储和文件存储,数据查找和提取的效率大大提升,适用于文本、音频、视频等非结构化数据。06 分布式统一存储:指各存储节点同时支持块、文件和对象三大类型数据,满足虚拟化、云平台和容器平台等新兴存储需求,为用户提供服务典型应用和计算平台的统一存储资源池。(二)按产品形态分类一体机:从设备层面将各节点存储资源进行融合优化,同时软硬件为同一厂商生产、一体交付,适配度高,可有效缓解单个节点或设备短板导致整体系统功能受影响等问题。扩展能力较强,且可在线增加节点,对前段业务完全透明。不足之处是价格偏高。纯硬件:指交付形态为磁盘阵列、闪存盘集群等硬件资源的分布式存储产品,适配的软件分为自研和开源二次开发两种路线。纯硬件交付模式成本高,但可靠性较高,适用于重要敏感数据存储场景。纯软件:指交付形态为定制化应用软件、平台授权码等的分布式存储产品,一般应用于优化存储硬件的场景,如老旧数据中心改扩建等。纯软件交付定制化空间大、成本低、交付周期短,但扩容及存储硬件兼容性问题一定程度上也会影响运行效率。(三)按存储介质分类分布式全闪存:指各存储节点完全由固态硬盘(SSD)构成,主流的适配接口为NVNe,每秒读写次数(IOPS)可跃升至百万级别,相比传统的机械硬盘(HDD)提升了近千倍。缺点是价格高昂,且受限于系统总线协议和其他部件,分布式全闪存性能较难完全发挥。分布式混闪:指各存储节点由SSD、HDD等构成。尽管性能不及分布式全闪存,但可针对场景需求进行个性化定制,从而最大程度上均衡成本和性能,是目前主流的分布式存储产品。(四)按部署方式分类虚拟化融合:指在分布式存储(块存储为主)的架构基础上,利用服务器虚拟化的隔离机制,实现存储和服务器虚拟化在同一硬件节点上的部署。这种架构的优势在于整体架构更为简单,并且节省了硬件成本,缺点是计算和存储需要同时扩展,不适用于计算和存储应用不均衡的场景。容器融合:面对容器化持久化存储日益增长的需求和Kubernetes特有的管理架构,专门针对此类场景的分布式存储产品也开始涌现。容器融合的分布式存储产品对 K8s集群内的存储资源进行整合与管理,不仅可以通过与容器融合部署降低成本,简化系统架构,还可以无缝融入 K8s原生的开发和运维体系,更加符合K8s运维团队的使用习惯。 07 图 5分布式存储容器融合部署方式......KubernetesOpenshiftNomadDocker SwarmRancherMesos......厂商自研容器管理平台MySQLSparkTensorFlow......分布式存储物理资源容器插件开源/自研容器管理平台基于容器的各类应用分离:指各存储节点资源与应用分离,虽然架构更加复杂并需要更多的硬件节点,但方案更为灵活,并适用更多场景,尤其适合大容量的数据存储,以及从裸金属、虚拟化到容器的不同计算节点的混合资源池。三、分布式存储的优势 高可靠性:分布式存储的数据采取存放在多个存储节点中的全冗余部署,通过多时间点快照、周期增量复制两大核心技术,可实现在一定时间间隔内,对各版本数据的保存,并且同时进行恢复,可帮助分析和研究,避免类似灾难的再次发生。图 6 多时间点快照、周期增量复制技术原理T0T1T2......版本1版本2版本3版本4在T2时间,仍可恢复T0时间的数据版本多时间点快照技术写入/再写入读取校验形成存储块/文件/对象文件1的I/O周期文件1其他文件复制同步......周期增量复制技术高效作业:面对可划分为若干个并行运行的子任务的存储任务,分布式存储可将这些子任务分散到不同的存储节点上,使其同时运行作业,从而提高效率。另外,分布式存储系统具有任务负载平衡功能,如果某个存储节点的负载过重,则可把其中一些作业迁移到其他节点去执行,从而减轻该节点的负载,实现整体效率的提升。高可扩展性:分布式存储横向连接了多个存储节点,可按存储容量和性能的需要,灵活横向拓展(Scale-out)新节点。新存储节点和原系统连接到同一个网络,同