您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[其他方案]:华为&超级计算创新联盟:2023数据密集型超算发展白皮书2023 - 发现报告

华为&超级计算创新联盟:2023数据密集型超算发展白皮书2023

2023-09-20其他方案y***
华为&超级计算创新联盟:2023数据密集型超算发展白皮书2023

2023年8月超级计算创新联盟 数据密集型超算工作组 顾问 陈国良 张云泉 周跃峰 主编 金钟 林新华 唐卓 张兴军 王毅 肖利民 王怡东 庞鑫 顾雪军 副主编 潘景山 李少波 韦建文 王继彬 高巍 苏亮 徐恩松 张洋 李亚子 贾海鹏 韩振兴 王旭东 编委(排名按姓氏拼音不分先后) 陈阳 陈振华 柴旭清 戴奇志 段芳成 丁江波 樊春 范靖 龚斌 高亦沁 高芬 郭武郭洪星 胡俊 胡广超 李会民 李昕伟 刘畅 李斌杰 鲁蔚征 郄军利 宋平 宋天宇孙晓艺 孙敏淮 唐小勇 王青 王成伟 王继彬 王炳强 万林 魏旗鹏 姚舸 曾帆曾令仿 张凯丽 张震 邹有 赵顺存 责任编辑 王世葆 感谢以下机构参编支持(排名不分先后): 北京大学 北京航空航天大学 长沙理工大学 贵州大学 河南师范大学湖南大学 兰州大学 南京大学 上海交通大学 山东大学 深圳大学 西安交通大学中国人民大学 中国医学科学院 中国科学技术大学 中南大学 超级计算创新联盟 国家超算济南中心 国家超算长沙中心 华为技术有限公司科大讯飞 崂山实验室 联科中国 鹏城实验室 青岛国实科技有限公司中科院科学计算所 中国信息通信研究院 之江实验室 数据是对客观世界状态变化的数字化记录,在数字经济和数字中国的大战略下,数据已成为国家基础性战略资源和关键生产要素,是数字化、网络化、智能化的基础。今年发布的《数字中国建设整体布局规划》进一步强调夯实数字基础设施和数据资源体系“两大基础”。 国际安全形势和低碳化全球趋势下,超算安全、绿色节能、自主创新也成为高性能计算业内人士关注的问题。白皮书结合高性能计算在数据密集型场景的发展趋势给出了分析和建议,值得深思。 面向未来,以ChatGPT为代表的AI大模型兴起,数以千亿的参数投入训练,产生对算力和数据的双重需求。HPC与AI逐步走向融合,将成为数据密集型超算的典型应用场景。数据的准备至关重要,数据的质量和规模决定AI的精度。为了更好应对诸如新应用带来的生态复杂性变化、新业务催生的混合业务负载压力、新数据与算力协同带来的数据跨地域访问等挑战,白皮书中创新性地提出新型数据密集型超算5A架构,以应用为中心,较好地支撑HPDA(HPC+大数据+AI)多系统融合业务发展。 众所周知,高性能计算是国家综合国力和信息化 建 设 能 力 的 一 个 重 要 体 现 , 被 誉 为 “ 国 之 重器”。数据密集型超算,是高性能计算与人工智能、大数据等新一代信息技术融合后围绕数据价值,而产生的一个重要新增类型,是在高性能计算领域的一次有益的创新探索,在一定程度上代表了高性能计算的未来发展趋势。我们很欣喜地看到,在过去两年中数据密集型超算在产业各界的多方合作下持续创新,相继在商业应用、标准规范等取得了显著的进展。如文中所述,数据密集型超算在国家超算中心、高校等场景、基因测序、AI大模型等行业应用中产生了很多优秀实践。 长风破浪会有时,直挂云帆济沧海!HPDA正在加速提升科研创新及生产效率,在新的趋势和发展机遇下,期待产业各方深化合作和持续创新,数据密集型超算在推动科研和数字经济发展上发挥更大作用,扬帆远航! 与此同时,我们也看到中国高性能计算所面临的挑战和机遇:应用层面,随着数据爆炸,高性能计算从重计算模型,衍生到重IO,大带宽包括混合负载的数据模型;算力层面,通过AI赋能,科学研究正迈向科学智能新阶段,推动AI 异构加速;连接层面,随着超算互联作为国家战略,需要实现更高效的网络互联和跨域全局管理。另外,在新的复杂 一年一度的CCF HPC China,给业界提供了很好的契机,促使我们去系统化地思考超算的过去、当下和未来。数据密集型超算HPDA白皮书发布已经两年,这两年间超算领域已经发生了许多令人惊讶的变化,尤其当生成式人工智能AIGC技术爆发,超算的发展也正在迎来一个新的阶段。 实际上数据密集型超算概念的提出就是洞悉到了超算与AI的融合,因为其核心就是数据驱动,数据的重要性也随着AI大模型的发展变得愈发凸显。 AI的三要素,数据、算法和算力。在算力水平基本一致的前提下,如果说当前的AI时代角逐还是数据和算法并重,那么随着AI算法的逐步标准化趋同,决定下一轮胜负的关键必然在数据上。譬如,Meta基于650亿参数和4.5TB训练数据开发了LLaMA,而OpenAI基于1750亿参数和570GB训练数据开发了GPT-3.5。虽然LLaMA在参数规模上不及GPT-3.5的50%,但其表现能力在多数基准上均超越了后者,其主要原因在于数据规模提升了8倍。由此可见,提升AI大模型精度、数据规模以及数据质量比模型参数更具决定性的作用,可以说数据决定了AI智能的高度。 超算正在加速与AI深度融合,驱动科学研究迈入科学智能时代 AIGC热潮的背后其实就是超级计算机技术与AI大模型技术相结合的结晶:早在2019年,微软就为OpenAI的ChatGPT大模型训练部署超过上万个GPU组成的大型AI超级计算机。 超算从诞生开始就致力于加速重大科研的创新,而超算与AI的融合将实现科研创新的又一次跃升。 通过Al赋能科学研究,可以解决传统HPC算不了、算不准、算不动的问题。且从科研创新的角度来看,提出问题比解决问题更重要。而AI的本质上实际上是数据驱动通过AI算法拟合成一个符合大概率的规律,尽管有可能这些规律缺乏可解释性,但这些“意料之外”的规律反而就是科研创新突破的最佳指引。这相当于给科研人员开启了一个上帝视角,一切未知皆为参数,数据可及皆为样本,洞明世事皆为模型,进而让科学研究迈入到了科学智能时代。 超算互联上升为国家级战略,数据互联与流动是基础。 “一桥飞架南北,天堑变通途”,超算互联正是这一理念构想在超算产业的践行。在东数西算、算力互联网等国家战略实施的大背景下,超算互联旨在构建一体化超算算力网络和服务平台的目标也上升为国家级战略。欧盟等区域和国家也相继发布了其国家版的超算互联战略,为下一个战略制高点的争夺拉开个序幕。 所谓内行看门道,互联普遍意义上是指算力的互联,实际上数据的互联和流动才是超算互联的底蕴和基础: 全面加速存储闪存化: 超算中心以及智算中心由于其极致的业务性能诉求,特别是随着AIGC业务的爆发,高性能的全闪专业存储将成为首选。全闪存一方面意味着应用性能的极致表现;另一方面在单位容量的功耗上要大幅降低。不仅如此,随着业界闪存大容量盘的加速推出,其逐步凸显的性价比优势也将加速业界全闪化的进程。 从超算中心的物理部署来看,需要实现不同超算中心的数据互联,并提供跨地域、跨系统的全局统一数据视图以及调度。让任意位置的数据都随时随地可快速访问,并实现数据的按需分级与流动。 从业务集群的建设模式来看,需要实现不同业 务 集 群 间 的 数 据 互 联 。 这 是 因 为 数 据 密 集 型HPDA往往对应的是数据驱动的一套序贯式科学业务流,譬如基因测序往往包括文库制备、格式转换以及生信分析等多个业务阶段,传统意义上不同的业务集群往往是烟囱式独立建设模式,频繁的数据拷贝与迁移成为影响科研效率的关键。 存储创新提升GPU利用率: 随着超算业务的多样化趋势,算力的多元化以及数据的多模态发展愈发明显。数据密集型应用驱动在算力层面GPU占比越来越高。提升GPU的资源利用率,也就意味着用更少的GPU资源能耗去满足相对确定的应用算力需求,提高能效比。在存储创新方面,一方面通过面向混合负载的极致高性能,通过减少GPU在数据加载等待时间提升利用率;另一方面还可以有通过近存计算实现近数据预处理,让数据在存储就完成部分数据准备任务,减少计算和存储之间的数据搬迁,进一步提升GPU的利用率水平。 因此,我们认为超算互联要面向多样化业务要构建安全、可靠的统一数据底座,基于高性能专业存储的多协议、冷热温自动分级以及全局文件系统GFS等技术打破影响数据流动的层层壁垒。所谓流水不腐户枢不蠹,数据只有在更大范围的充分流动与共享,才能真正促进信息的数字化,才会有价值数据的智能释放。 这 次 数 据 密 集 型 超 算 发 展 白 皮 书 2 0 2 3 的 发布,正好是在AI大模型这样的时代背景下,其对于中国超算行业之重大意义,丝毫不亚于无线通讯领域从3G/4G时代突破式地迈向了5G时代。在全新的产业赛道上,中国科技要携手起来坚定并坚持自主创新,引领超算行业的“5G”浪潮。 超算中心大规模集群化,低碳绿色成为关键诉求。 E级超算的建设当前已经是屡见不鲜,并且随着整体应用算力需求与单卡之间的算力剪刀差持续加大,导致集群规模越来越大。尽管大规模集群往往意味着国之重器,科研利器,但与此同时超算系统的能耗和散热问题日益突出。因此,提高超算系统的能效比和降低碳排放已经成为超算行业的重要目标,我认为业界可以从如下两点发力: 1 数据密集型超算最新趋势 2 数据密集型超算技术架构 2.6 Any View:多应用场景的统一智能管理平台提升管理效率27 3 数据密集型超算优秀实践 3.4 科大讯飞:高性能、稳定可靠的统一数据管理底座是大模型训练的关键38 数据密集型超算最新趋势 数据密集型趋势下,高性能计算面临六大挑战和需求1.1 纵观全球,新一轮的科技革命和产业变革正在全方位的改变着社会生产生活,一个以数据服务能力为基础的,万物感知、万物互联、万物智能的数字经济世界正在加速到来。实施数据战略、积累数据资源、保障数据安全、做大做强数据产业,已经成为全球主要国家共同的战略选择。 性能计算的未来发展趋势。 在此趋势下,我们发现在高性能计算在应用层、算力层、超算网络互联及全局管理、安全、绿色节能、系统全栈自主可控六个方面都面临新的挑战和需求: 应用层面,随着生成式AI、大数据应用以及科学观测仪器能力提升,带来更大数据量,新的数据密集型应用,产生了新的数据模型,驱动新的近数据计算架构发展。 算力层面,通过Al赋能科学研究,科学研究正迈向科学智能新阶段,数据规模和质量决定了AI智能高度。发展先进数据存力基础设施,是构建大模型高质量发展的基石。联接层面,需要科研机构之间的大数据量互访,推进超算互联工程进程,打造集应用、数据、算力服务于一体的超算,实现跨超算中心的联接,一体化数据基础设施已成为超算互联建设共性需求。安全层面,对数据资产的安全提出更高的要求,提升数据战略地位,保证数据安全和主权。自主可控层面,从处理器,先进闪存等核心硬件,到跨域数据管理系统,分布式并行文件系统,以及超算集群等软件具备全栈自主可控能力。绿色节能层面,通过改进硬件设计和制造过程,优化软件设计,提高超算系统的能源效率,支持超算持续演进。 据国际权威数据分析研究机构IDC《数据时代2025》报告预测,从2018年至2025年,全球数据将从2018年的33ZB增至2025年的175ZB,数据量增长4倍多。其中,中国数据圈增速迅速,预计将从2018年的7.6ZB到2025年将增至48.6ZB,占全球数据圈比重将从23.4%发展到27.8%,中国将成为全球最大的数据圈。因此,更先进的数字技术、更强大的数据服务能力和更高水平的数字产业,将成为新时代我国发展数字经济的根本内容。超大规模的数据量对数据的存储、数据的安全提出了前所未有的挑战,可靠高效的存储能力是数据供给安全的根本保障。 高性能计算HPC是构建下一代数据产业和科学计算的基石,是驱动科研创新的重要计算引擎,帮助人们从海量的数据中探索人类社会和宇宙的未来。早在2007年,图灵奖得主詹姆斯·格雷就在题目为《科学方法的革命》的演讲中提出,随着数据的爆炸性增长,科学计算(即“第三范式”)中的数据密集型范式将成为一个独特的科学研究范式,即“第四范式”。数据密集型超算,成为高性能计算与人工智能、大数据等新一代信息技术融合后而产生的一个重要新增类型,在一定程度上代表了高 数据密集型应用加速发展,对存储性能提出更高要求 随着与大数据、AI等新的数据分析技术和工具结合,HPC的诉求从以数值计算为主,衍生到与大数据知识挖掘及AI训