您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [益企研究院]:AI时代的存储基石 - 发现报告

AI时代的存储基石

信息技术 2025-03-20 - 益企研究院 Elise
报告封面

AI 时代的存储基石 张广彬张翼王海峰I著 目录CONTENTS 前言:存储是人工智能的关键基座················04 第一章:AI 与存储技术 开启未来数据新纪元·····09 典型 AI 应用带来的存储增长趋势····················1 2 大模型场景下的以存强算························1 2自动驾驶 3.0 时代的数据循环·····················1 4边缘 AI 存储成为热点····························1 7 存储技术的挑战与机遇·····························1 7 存储系统的智能化······························18算力与存力高效协同····························19计算存储协同促进 AI 落地························19 第二章:AI 应用场景与存储需求·················2 1 准备数据·········································22训练过程·········································24检查点及其作用································24数据量与读写压力······························25检查点的保存··································27检查点的恢复··································29推理过程·········································33KV Cache 及容量需求···························33RAG 与向量数据库······························35内容生成·········································37生成式 AI 促进数据生产··························39边缘侧计算和存储能力增长······················40数据留存与复用································4 1小结·············································42 第三章:AI 应用中的存储层级···················43 HDD··········································47SSD···········································49 存取性能·········································52 顺序读写······································52随机读取······································53随机写入······································54耐久性········································55分层存储·········································56 第四章:技术演进与生态·························59 容量趋势·········································60硬盘··········································60SSD···········································62性能趋势·········································64多磁臂········································65FDP···········································67统一生态·········································68绿色节能·········································7 1功耗水平······································72增长趋势······································72液冷选项······································74长效节能······································74硬盘再生······································76 结语:AI 重新定义数据存储的量与质·············77 因“数”而变,以存强算存储是人工智能的关键基座 自 2022 年底通用大模型技术取得突破以来,人工智能领域进入发展快车道。2024年 2 月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用价值。近期,得到广泛采用的开源大模型通过系统性优化,在保持高性能的同时大幅降低训练成本,引发行业广泛关注。而另一技术方案则通过大规模算力集群的部署,验证了算法效率与算力规模协同发展的重要性,为行业提供了多样化的技术路径参考。 从 2018 年始,希捷参与了益企研究院发起的数字中国万里行活动。几年来,数字中国万里行团队足迹遍布 “东数西算” 八大枢纽节点,考察了云计算、自动驾驶、高教、金融、制造等相关行业上百个数据中心,见证了云计算、人工智能高速发展下的技术应用趋势和架构演进。 2024 年,希捷科技再次联合益企研究院,针对不同行业场景深入调研和解读。我们发现算力和存力的紧密结合,正推动着数字经济高质量发展。 基于本次调研,我们认为以下三个方面值得在更大的范围内进行探讨。 首先,随着数据的爆炸式增长,生成式 AI 应用走向普及,更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。 根据市场研究机构 IDC 的预测,到 2028 年,全球预计将产生 394ZB 数据。而现代数据中心存储的所有数据中,有 80% ~ 90% 是非结构化数据,包括文本文件、图像、视频和电子邮件等,它们无法规则地纳入到传统数据库中。在 AI 赋能业务的过程中,企业利用数据的能力提升,带动数据存储、管理、使用的需求增长。用户越来越关注数据存储容量、数据访问速度、设备与系统的能效等方面。 △ IDC:全球生成的数据中,只有不到 5% 会被保存下来。预计到 2028 年,存储在云端的 数 据 约 10ZB( 具 体 构 成 如 上 图,HDD 占 比 约 80%, 是 SSD 的 6 倍 多), 企 业 端 约6ZB,消费端约 4ZB 更重要的是,高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、一致性和时效性直接影响着 AI 模型的训练效果和决策的可靠性。不准确的数据可能导致模型产生错误的预测和判断。反之,良好的数据管理,跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策,还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据,使 AI 模型更加全面准确地反映现实世界情况,确保推理的可确定性。 其次,AI 工作负载在不同阶段需要不同特点和类型的算力、存力支撑。 在大型数据中心部署中,AI 相关数据在使用和创建的无限循环中流动。工作流程的每个阶段都需要不同组合的内存和存储设备。 △ AI 数据从源数据到训练模型、创建内容、存储内容、保留数据、重复利用数据的无限循环 AI 相关数据周而复始的无限循环从定义、查找和准备数据开始。通过网络访问的存储便于共享和扩展,其中硬盘(HDD)能够长期保存原始数据并提供数据保护,固态盘(SSD)则充当可即时访问的数据层。在模型的训练过程中,先要快速地从存储中加载数据到 HBM(高带宽内存)、DRAM 以及本地固态盘以供后续的计算密集型 操作使用。网络硬盘和固态盘存储检查点,以保护和优化模型训练。推理过程中的内容创建主要依靠 HBM、DRAM 和本地固态盘或硬盘完成。随后,内容被存储起来,以便不断进行优化。硬盘用于存储并保护内容的副本。在这一系列步骤之后,数据被妥善保存下来,成为构建可信赖 AI 的基础。最后,数据会被重新利用,为 AI 模型提供反馈信息。网络硬盘和固态盘在不同的地理位置存储 AI 数据。 对模型训练来说,为了能够快速恢复训练,需要频繁创建检查点。大容量、高性能的 AI 存储系统能够显著节省训练所需的时间,并确保 AI 集群计算能力的高可用性。数据的持续生成带来更多存储需求,而后者反过来又推动了数据生成和人工智能的进化,形成了一种良性循环。 随着人工智能基础设施的更新,AI 工作负载在性能、容量和能耗方面对数据中心和边缘计算的存储提出了严峻挑战。数据的处理和存储在整个 AI 业务流程和生态系统中扮演着重要角色,而存储与计算共同构成了 AI 落地的关键基础设施。 最后,在 AI 相关的数据中心,对存储容量要求大幅增长,不同的存储介质在性能和可扩展性方面各具优势。 希捷的热辅助磁记录技术突破了硬盘面密度的增长瓶颈,有效提升了硬盘容量、性能和能效。 基于魔彩盒 3+(Mozaic 3+)技术的希捷银河新一代企业级硬盘,已经在超大规模数据中心部署。以希捷为代表的机械硬盘厂商与服务器厂商、最终用户紧密协作,不断扩展存储能力,构建高可靠、高价值存储方案与服务,以保证整体解决方案的性能和稳定性,有效地激活数据价值。 结论 AI 时代,存储比以往任何时候都更为重要,因为它支撑着最核心的资产——数据。在 AI 迅速发展的当下,数据成为了推动人工智能进步的关键要素。存储作为数据的载体,其重要性不言而喻。为了充分抓住 AI 带来的机遇,企业需要进行长期的、战略性的存储容量和性能规划。只有这样,才能满足 AI 对海量数据的存储需求,为人工智能的发展提供坚实的基础。 AI 生态系统的重构对计算、存储、网络等多种组件提出了更高的要求。存储作为人工智能大模型的关键基座,不仅提供了数据存储和管理的基础支撑,还推动了生态互通。大模型缩放定律面临着算力、存力、能效等方面的挑战,计算与存储高度融合,才能不断加速 AI 应用落地的步伐。 AI 与存储技术开启未来数据新纪元 AI 与存储技术开启未来数据新纪元 人工智能(Artificial Intelligence,AI)技术自诞生之初,便开启了从理论探索到实践应用的发展历程。初期,以专家系统为代表的 AI 技术,尝试模拟人类专家的决策过程,为特定领域提供智能支持。随着技术的不断进步,机器学习(MachineLearning,ML)、深度学习(Deep Learning,DL)等更为先进的 AI 技术相继涌现,推动了自然语言处理、计算机视觉等领域的飞速发展。伴随着大模型的爆发和人工智能技术的快速迭代,计算架构、算法框架、数据供给正面临深刻变革,生成式 AI 正在重新定义存储的内涵。 以 ChatGPT 为代表的大语言模型(Large Language Model,LLM)是 AI 创新从量变到质变长期积累的结果,也是 GenAI(Generative AI,生成式人工智能)发展的重要里程碑。从 GPT-4 开始,超大规模预训练模型展示了一条通向通用人工智能的可能方向,人们通过输入提示词和