AI智能总结
版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 编写团队项目经理:刘怡华为技术有限公司工作组长:郭亮中国信息通信研究院贡献专家:郭亮中国信息通信研究院李善甫华为技术有限公司董浩华为技术有限公司肖健华为技术有限公司伍波华为技术有限公司程卓华为技术有限公司张霁华为技术有限公司蒲贵友华为技术有限公司向清懿华为技术有限公司贾信磊华为技术有限公司谢丽娜中国信息通信研究院李佳媛中国信息通信研究院胡泽志北京三快在线科技有限公司(美团)李根深圳大普微电子股份有限公司曹仲深圳大普微电子股份有限公司韩港霄深圳大普微电子股份有限公司方兴烽火通信科技股份有限公司刘伯书浪潮电子信息产业股份有限公司孙志超曙光信息产品股份有限公司罗挺得一微电子股份有限公司贾秀秀得一微电子股份有限公司 目录 大容量SSD技术要求及评价指标.......................................1一、适用范围.......................................................1二、术语、定义和缩略语..............................................12.1大容量SSD.................................................12.2缩略语.....................................................1三、大容量SSD需求及应用场景........................................13.1大容量SSD需求产生的背景...................................13.2大容量SSD应用场景.........................................33.3大容量SSD面临的挑战.......................................7四、大容量SSD技术痛点..............................................94.1高密硬件设计...............................................94.2可靠性....................................................104.3寿命......................................................114.4功耗......................................................134.5接口速率..................................................134.6性能......................................................14五、大容量SSD要求及评价指标.......................................155.1外观及物理尺寸要求........................................155.2容量......................................................155.3功耗......................................................165.4能效......................................................165.5性能......................................................175.6寿命......................................................175.7可靠性要求................................................185.8状态监控及预测............................................185.9安全要求..................................................19 大容量SSD技术要求及评价指标 一、适用范围 本文主要研究大容量SSD的典型应用场景,提出大容量SSD面临的主要技术问题以及可能的解决方案,从而明确大容量SSD的技术要求,以及相对于HDD的评价指标。 本文适用于对大容量SSD进行设计、生产、交付验收和评估。 二、术语、定义和缩略语 2.1大容量SSD 存储容量高于主流商用HDD容量,通常指单盘容量≥30TB,聚焦于企业级/数据中心应用的固态盘。 2.2缩略语 三、大容量SSD需求及应用场景 3.1大容量SSD需求产生的背景 随着数字化转型升级和新技术的普遍应用,海量非结构性数据存储 成为信息产业的新挑战。预测到2030年,全球每年新增数据量将突破1YB量级。到2027年全球数据量达到500ZB,其中80%为非结构化数据,这些数据来自各行各业。数据中心存储量占比将超过70%,企业级固态硬盘出货量和平均容量不断增长。这种增长不仅要求提高容量密度,还要求降低每GB的成本和功耗,以实现经济和环境上的可持续发展。 AI技术加速模糊数据分层边界:传统“热-温-冷”三级架构正进化为“热-温”双层模型,AI场景下80%的温冷数据需高性能大容量的存储支撑。全闪存技术凭借容量、能耗、性能的全面优势,正成为数智化转型的核心引擎,温冷数据全闪化替代趋势明显。 随着数据量的快速增长,数据中心需要处理和存储的数据量越来越 大,而物理空间(如机架空间)的增长速度却远不及数据增长的速度。这种剪刀差导致了对更高容量密度存储解决方案的需求,特别是大容量SSD的开发和应用。介质容量密度与存储数据量的增长仍存在较大差距。 预计到2030年,介质容量密度有望提升10倍,但相比存储数据量23倍的增长仍存在较大差距,需要介质应用创新来填补这个差距。数据中心机架建设规模以及能耗约束要求存储介质必须具备大容量、高性价比、低能耗的特点。 3.2大容量SSD应用场景 1、AI应用 随着人工智能技术的飞速发展,存储在其中发挥着至关重要的作用。在AI训练过程中,SSD的高性能和可靠性对于提升训练效率和保证数据安全具有不可替代的作用。SSD将会在AI发展中发挥两个至关重要的作用:一是作为本地高速缓存,将训练数据送到GPU上的HBM,需要高性能、高IOPS、低延时SSD。二是作为数据湖训练数据集主存,需要大容量、低成本、高带宽SSD,这直接推动了对60TB至100TB甚至更大容量SSD的需求。 AI对SSD的诉求包括: 1)AI训练服务器需要的SSD更多,容量更大:相对于通用服务器一般配置1-8个SSD,容量多在几TB以内,而AI训练服务器通常配置8-24个甚至更多SSD,总容量达上百TB; 2)部分AI训练对吞吐要求较高,需要通过SSD满足:训练场景主要IO特征是顺序读为主,同时包含一定的随机读写,推理场景主要是随机读。整体诉求为读写带宽和随机读IOPS。 3)RAG向量时延和容量的要求高:要求低时延加快响应,同时向量数据库的大小是处理前的近10倍; 4)多机集群与全局存储池应对模型规模膨胀:随着模型指数级增长,单机存储无法完整承载,需要全局存储池实现跨节点数据共享。这一场景对大容量SSD提出刚性需求,传统HDD受单盘容量、多盘管理复杂 度等限制难以满足。 从调研的客户需求来看,某AI存储系统需要EB级的存储。业界陆续推出了大容量SSD以满足客户低TCO、大容量、高性能的应用需求。 从AI不同数据处理阶段的需求来看,大容量SSD主要适用于AI推理场景、视频存储、冷数据归档等场景,核心需求在于最大化存储密度(TB/单位空间)、优化成本($/TB)和保证顺序读写带宽,大多数是用于替换HDD。这类场景对IO随机访问性能要求相对较低,要求高带宽。因此大容量盘多采用QLCNAND,容量可扩展至64TB、122TB、245TB甚至更高,具有TCO优势。 2、替代HDD 在对象存储场景中,主要存储的是图片、视频、音频、游戏安装包等大量的非结构化数据。目前,该场景通常采用16-24TB的HDD,以提供大容量且低成本的存储解决方案。业务的核心关注点在于单位存储成本,对性能的要求相对较低,能够接受较高的访问延迟。随着技术进步,大容量SSD已能达到30TB及以上,其单位容量成本逐渐接近HDD。当客户对CAPEX的敏感度有所降低,或者大容量SSD相对HDD 的价格差距进一步缩小,客户有意愿进行替代。同时,SSD在随机性能读取方面具有显著优势,相比HDD也能更好地应对多用户并发的场景,改善用户体验。对于HDD而言,在盘片密度进一步提高后,磁头定位的难度和误差风险相应增加,导致可靠性有所下降。大容量SSD具有更高的稳定性和可靠性,能在长期存储过程中更好地保证数据完整性和可访问性。因此,大容量SSD替代HDD成为部分云存储服务商、媒体分发平台等的选择。 大数据采集场景主要用于日志采集、历史交易记录归档等,这些数据在写入后通常较少进行修改,偶尔需要查询。在该场景中传统的做法是采用HDD提供数据资源池,以实现低成本的数据存储。然而大容量SSD具备更高的带宽优势,这使得在需要对冷数据进行检索时,如审计日志查询等操作,SSD能够以更快的速度读取数据,加速查询过程。部分企业在进行成本效益分析后,愿意为了获得更低的运维风险和更快的数据检索速度,接受SSD的资本支出。对于工业IoT数据存储、金融交易历史记录以及科研数据归档等业务,这些业务既需要考虑成本因素,又对数据的可靠性和可访问性有一定要求,在这些场景下,大容量SSD替代HDD能够在满足成本要求的同时,提供更好的性能和稳定性。 在企业办公文件共享场景中,多个用户共享办公文档、PDF、压缩包等非高频修改的数据,存储池需要具备较大的容量。常见做法是采用多个HDD组成RAID阵列,以提供大容量的廉价存储解决方案。大 容量SSD同样可以提供更高的并发处理能力,能够更好地应对多用户同时访问的需求。 综上所述,大容量SSD在读密集型业务以及性能要求不高但成本敏感的业务场景中,在满足特定条件时可以替代HDD。对于读密集型业务,客户更关注带宽、并发访问稳定性或长期可靠性,并且大容量SSD的资本支出与HDD的差距逐渐缩小,因此SSD能够提供更优的性能表现。大容量SSD在性能、能效和运维成本方面的优势,使其在企业级分析、媒体存储等领域,逐渐成为一种更具竞争力的存储解决方案。 3.3大容量SSD面临的挑战 大容量SSD的开发与应用是一个涉及多个技术层面的复杂工程,涉及到底层介质开发、硬件整合(包括功耗、前端、链路、后端)、介质特性(如功能、盘控、管理、IO等)的全面优化,都是确保其能够满足数据中心容量密度和高性能计算需求的关键。 底层介质开发是大容量的基石,也是最根本的挑战。通过持续增加堆叠层数在单位面积内放入更多存储单元,层数越高,工艺难度和信号干扰就面临更大的挑战;此外,还需要优化QLC的耐久性、误码率和数据保持力等指标,使得可靠性上能满足AI时代的数据存储需求。 硬件整合能力是指将NANDFlash和SSD控制器、接口、缓存等整合成一个高效稳定的系统,涉及到功耗、前端主机接口协议、内部互连和后端NA