您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DSIA]:分布式存储发展白皮书(2023年) - 发现报告
当前位置:首页/会议纪要/报告详情/

分布式存储发展白皮书(2023年)

2023-12-06-DSIA黄***
分布式存储发展白皮书(2023年)

版权声明 本白皮书版权属于分布式存储产业方阵,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:分布式存储产业方阵”。违反上述声明者,本方阵将追究其相关法律责任。 编制说明 牵头编制单位: 分布式存储产业方阵 主要参与编制单位: 中国信息通信研究院、华为技术有限公司、新华三技术有限公司、曙光信息产业(北京)有限公司、戴尔(中国)有限公司、联想凌拓科技有限公司、国际商业机器(中国)有限公司、中移(苏州)软件技术有限公司、中电信数智科技有限公司、北京星辰天合科技股份有限公司、浪潮电子信息产业股份有限公司、联通数字科技有限公司、安超云软件有限公司、深圳市杉岩数据技术有限公司、深信服科技股份有限公司、中电云数智科技有限公司、华瑞指数云科技(深圳)有限公司、北京焱融科技有限公司、天翼数字生活科技有限公司、深圳市泛联信息科技有限公司、云宏信息科技股份有限公司、南京道熵信息技术有限公司、京东科技信息技术有限公司、极道科技(北京)有限公司、上海霄云信息科技有限公司 主要编制组成员: 栗 蔚、陈屹力、马 飞、闫 丹、焦 辉、毛馨纬、王旭东、丁江波、张 震、刘德华、孙建国、沈玉良、张天洁、张玉君、张委、杨利锋、吕磊、何营、刘飞龙、过晓春、陈学伟、孙翠锋、刘翰超、陈侃、舒坦、隋成龙、张文涛、汤杰皓、朱敏健、程少锋、许 刚、王丽华、成思敏、殷康龙、胡晓宇 前 言 在数字化时代的浪潮中,数据已经变成了推动社会进步的核心驱动力。每一次网络互动、每一笔交易、每一帧画面,背后都隐藏着海量的数据。对这些数据的存储、管理和分析在现代社会中已变得不可或缺。存储是数据的载体,分布式存储作为其中的一种重要形态,已经成为大数据、AI等数据智能技术深化发展的重要基石,正持续地为各行各业提供着稳固、高效、可靠的数据支撑。 中国分布式存储市场保持着稳健的增长态势,尤其在中东部区域和关键行业中,数字化转型正在推动存储市场的蓬勃发展。与此同时,AI大模型、大数据湖仓一体、数字化病理、量化交易、数据网络等新兴应用场景也在不断地扩展,为分布式存储带来更多的机遇和挑战。分布式存储产业方阵积极响应产业需求,联合产学研用多方力量,共同推动分布式存储的技术标准研制、生态体系建设、应用推广等工作,在2022年白皮书基础上,围绕新的应用场景、发展趋势,为读者提供一个清晰、系统的分布式存储产业全景,支撑政府、金融、教育、制造等各行业数字化转型,推动我国分布式存储产业健康发展。 希望通过这本白皮书,读者可以更好地理解分布式存储的价值和未来,同时也为相关行业和研究者提供有价值的参考和启示。 目 录 版权声明 ........................................................................................................................ 1 一、 数据智能,引领分布式存储创新发展 .............................................................. 1 (一) 大模型快速崛起,开启海量数据应用新时代 ................................ 1 (二) 算力发展需要互联互通,加速数据流动需求 ................................ 2 二、 产业解析,纵观分布式存储产业进展 .............................................................. 4 (一) 步入稳定增长阶段,筑稳非结构化数据底座 ................................ 4 (二) 供需应用更加多元,上下游生态合作更加紧密 ............................ 7 (三) 介质协议加速升级,全闪与融合形态快速发展 .......................... 10 三、 场景解读,指引分布式存储新兴应用 ............................................................ 12 (一) AI大模型 ........................................................................................ 12 (二) 大数据湖仓一体 .............................................................................. 15 (三) 数字化病理 ...................................................................................... 18 (四) 生物信息分析 .................................................................................. 21 (五) 量化交易 .......................................................................................... 23 (六) 边缘计算 .......................................................................................... 25 (七) 数据网络 .......................................................................................... 28 四、 技术透视,展望分布式存储发展趋势 ............................................................ 31 (一) 架构方面,向融合负载、更高密度、更快网络发展 .................. 31 (二) 功能方面,向场景化无损压缩、多活容灾发展 .......................... 34 (三) 硬件方面,向全闪存化、高效节能发展 ...................................... 36 (四) 生态方面,向云存开放对接、存储直通发展 .............................. 38 五、 共建共赢,推进分布式存储生态发展 ............................................................ 42 图 目 录 图1 2019~2022年分布式存储市场规模 .................................. 4 图2 2022年中国各省市新增分布式存储容量 ............................. 5 图3 分布式存储垂直行业增长表现 ..................................... 6 图4 分布式存储典型应用场景 ......................................... 7 图5 分布式存储产业生态图景 ......................................... 9 图6 分布式存储在AI大模型场景应用 ................................. 13 图7大数据进入湖仓一体新阶段 ....................................... 15 图8 分布式存储在数字化病理场景应用 ................................ 19 图9 分布式存储在生信分析场景应用 .................................. 22 图10 分布式存储在量化交易场景应用 ................................. 24 图11 单框多节点架构示意 ........................................... 32 图12 传统 TCP/IP 数据传输过程 ..................................... 33 图13 RDMA 数据传输过程 ............................................ 34 图14 分布式液冷存储示意图 ......................................... 38 图15 GPU直通存储示意 .............................................. 40 分布式存储发展白皮书(2023年) 1 一、数据智能,引领分布式存储创新发展 (一) 大模型快速崛起,开启海量数据应用新时代 大模型的快速发展让大模型的训练效率引起了业界的广泛关注,大模型训练一方面对互联带宽提出了新的挑战,另一方面也对数据存储、流动的效率提出了更高的需求。从2018年谷歌发布BERT开始,业界开启了预训练大模型之路。2023年出现了第一个杀手级应用ChatGPT,由OpenAI公司在2022年11月推出,到2023年1月已经达到1亿月活用户。2023年3月英伟达在GTC大会上也表示AI的iPhone 时刻已经到来,标志着大模型快速崛起,进入应用阶段。 大模型在训练过程中所需数据量庞大。模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类复杂,数据量大。在深度学习算法刚刚诞生时,主流模型只有几百万参数,而BERT发布时模型参数就已经过亿,将深度学习推进到了大模型阶段。到了ChatGPT阶段,主流模型已经有几千亿参数,甚至业界已经开始规划万亿模型。几年时间里,AI模型的参数提升几千倍,如此庞大的数据与模型都需要进行存储,这就成了大模型爆发给存储的第一大考验。 大模型的另一个显著特点是对非结构化数据的高度依赖。目前会广泛提到AI大模型采用了全新的模型结构,因此对非结构化数据会有更好的吸收效果与鲁棒性,这对于AI最终效果非常重要,但也 分布式存储发展白皮书(2023年) 2 带来一个衍生问题:如何妥善处理存储和调用海量的非结构化数据。比如,2023年9月OpenAI宣布ChatGPT开启多模态输出模式,ChatGPT在升级后加入了识图、语音识别等多模态能力,因此其训练数据也需要在文本基础上加入大量图片、语音,再比如自动驾驶车辆,每天要将大量实地测试视频存储起来作为模型训练依据。这些非结构化数据,带来了AI相关数据的海量增长,也带来了存储和处理这些数据的难题。据统计,当前全球新增数据有80%都是非结构化数据,年复合增长率达到38%,应对多元化的数据激增,已经成为大模型时代必须克服的困难。 大模型对存储的性能和安全性也提出了更高的要求。大模型往往需要频繁读取和调用数据,ChatGPT的数据访问使用量达到单月17.6亿次,平均响应速度在10秒以内,并且AI模型的工作流程包括采集、准备、训练、推理四部分,每个阶段需要读写不同类型的数据。因此,大模型对存储性能也带来了要求。此外,围绕ChatGPT展开的一系列数据主权、数据保护争议,也提醒我们AI大模型带来了数据安全方面新的风险。试想一下,如果不法分子攻击数据库,从而令大语言模型生成错误信息欺骗用户,其危害结果既严重且隐蔽。 (二) 算力发展需要互联互通,加速数据流动需求 2023年10月,工信部等六部门联合印发《算力基础设施高质量 分布式存储发展白皮书(2023年) 3 发展行动计