AI智能总结
I版权声明本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 II编制委员会吴仲阳张勇张志鹏李建高成晓强陈鹏余学山黄海张治铧王世媛叶鑫张杰北京金融科技产业联盟秘书处中国工商银行股份有限公司中国邮政储蓄银行股份有限公司 主任:聂丽琴编委会成员:编写组成员:常东刘佳编审:黄本涛周豫齐参编单位:华为技术有限公司 III摘要2023年10月,中国人民银行等六部门联合印发《算力基础设施高质量发展行动计划》,指出“算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力”,针对网络运载力提出“优化算力高效运载质量、强化算力接入网络能力、提升枢纽网络传输效率、探索算力协同调度机制”的重点任务,明确通过“算力+金融”加快算力在金融领域的创新应用,为金融业务发展提供更为精准、高效的算力支持。AI大模型智算网络技术是算力集群的重要基础底座,是新型算力中的网络运载力,是助力大模型实现跨节点分布式训练,提升大规模训练效率的重要支撑。本文深入分析AI大模型技术在模型能力、结构、算力、效率等方面的技术发展趋势,提出作为底座的智算网络所面临的新问题和新挑战。围绕AI大模型智算网络“高性能连接、高效率传输、高可维网络、高安全保障”等关键技术进行研究,提供一套适应金融特征的覆盖数据中心、骨干及分支的AI智算网络技术方案。结合行业业务及技术发展方向,将金融业AI智算网建设演进划分为打造底座、构建系统、完善生态3个阶段,并给出了新技术发展及创新方向,为金融机构开展AI大模型智算网络关键词:大模型训练、智算网络、负载均衡、流控技术、拥 规划及建设提供参考。塞管理 IV目录一、研究背景.................................................1(一)AI大模型发展趋势及挑战.............................1(二)金融领域应用规划...................................4二、智算网络方案综述.........................................5(一)智算网络技术需求...................................5(二)业界智算网络方案...................................6三、智算网络整体架构及关键技术..............................10(一)高性能网络拓展算力规模............................11(二)高可用网络提升算力效率............................12(三)高可维网络增强算力可用性..........................17(四)高安全网络保障算力安全............................19四、智算网络发展趋势........................................21(一)主要发展阶段......................................21(二)新技术创新方向....................................22五、案例实践................................................23(一)工商银行AI大模型算网融合创新实践.................23(二)邮储银行AI大模型算力网络创新实践.................24术语与缩略词表..............................................27参考文献....................................................28 一、研究背景(一)AI大模型发展趋势及挑战随着新一轮科技革命和产业变革加速推进,AI大模型浪潮席卷全球,成为最具影响力的创新科技,大模型被认为是未来人工智能领域的关键基础设施。AI大模型正加速定义及形成新服务、新制造、新业态,成为数字时代的新质生产力。随着技术演进,AI大模型技术呈现以下显著发展趋势:一是模型能力持续提升。随着深度学习技术不断发展,AI大模型的参数规模和计算能力不断增加,使得模型能够处理更加复杂的任务和数据。2022年发布的自然语言模型GPT-3,能生成高质量的自然语言文本,能进行翻译、问答、文本生成等任务;在2024年诞生的Sora模型,不仅演进到视频生成的能力,还具备理解和应用现实世界物理规律的强大能力。AI大模型逐渐从能说会道过渡到了突破多模态,形成了人机混合、自主理解、规划决策、执行复杂任务的智能体AIAgent。二是模型结构持续演进。稠密模型由于其结构简单及易于实现,在早期成为大模型的主流。但是随着AI模型规模不断扩大,计算和存储资源的需求不断增加,成为新的挑战。稀疏模型因其支持参数剪枝,在保持模型性能的同时极大降低了计算成本,因而受到更多关注并逐步成为演进方向。三是模型算力持续增长。从2016年到2024年,GPU单卡算力增长了1000倍;以英伟达GPU为例,其单卡算力增长速度达 1 2到每6个月翻一番,超过了摩尔定律。新出现的Superpod超节点技术可将多个GPU集成在一个较大的服务器中,通过高速总线互联,实现高带宽、低延迟的数据交换和通信,以持续提升单节点算力(例如英伟达GB200)。另一方面,大模型的参数量从GPT-1的0.1B增长到ChatGPT的175B,模型所需算力在四年间也从GPT-1的1PFlops增长到ChatGPT的3000+PFlops,如表1所示。表1AI大模型算力变化趋势四是模型效率持续优化。随着AI大模型的规模和复杂性增加,训练效率面临严峻挑战。业界通过并行通信算法优化、模型算法优化、混合精度训练优化等技术在训练框架层、通信算法层持续提升AI模型训练的效率。随着技术的不断进步,未来必定会有更多高效训练AI模型的方法出现。AI大模型持续加速演进,其庞大的训练任务需要大量服务器节点通过高速网络互联组成AI算力集群协同完成。但AI算力集群并非通过简单算力堆叠即可实现完美线性扩展,而是取决于节点间网络通信及集群系统资源调度能力。网络系统的性能及可用性 3成为AI算力集群的线性度和稳定性的关键,也面临新的挑战:一是高性能传输挑战。大模型需要大量的数据进行训练和推理,千亿模型单次计算迭代内,梯度同步需要的通信量达百GB量级;MoE稀疏模型下张量并行的卡间互联流量带宽需求达到数百至上千GBps量级。服务器节点间互联网络会承载数据并行和流水线并行流量,千亿参数模型如GPT-3并行训练节点间带宽需求达到13.5GB(108Gbps),如表2所示。万亿模型参数面带宽需求增加到200Gbps至400Gbps。AI智算网络需提供更高的带宽来支持数据快速传输,并且支持算力的横向扩展能力。表2千亿稠密模型GPT3千卡PTD训练通信量注:PDT,P指Pipeline并行,D指Date数据并行,T指Tensor并行参数:模型GPT3-175B,h=12288,S=2048,Ndecoder=96,B=1536,D=16,T=8,P=8二是高可用互联挑战。由于AI并行训练通信具备不规整的特征,即单流通信量大,ECMP选路不均衡,极易导致网络出现局部堵点,从而导致训练效率下降。以GPT3-175B大模型千卡并行训练为例,训练期间网络中同时存在的流数目千条以内,ECMP选路方式下,高负载链路利用率:低负载链路利用率达7:1,即流量无法有效hash,高负载链路堵点概率极大。因此对网络负载均衡 4调优、无损传输等提出了更高要求。同时大模型的训练和推理也对网络的可靠性提出了更高要求,任何网络中断都可能导致训练失败或推理错误,降低集群算力的效率。三是高可维网络挑战。大模型单次训练时间在数天-月级。训练期间如果出现网络不稳定的问题,会影响整个训练任务的进度。且大模型训练环境涉及各软硬件组件配合,运维复杂。例如MetaOPT-175B训练,故障定位平均时长约11小时,复杂应用故障定位长达80小时。因此需要一套具备精细化监控、端网一体化的,且可一键故障定界、定位及自愈的技术手段,来提升智算网络易用性。四是高安全模型保障。在推理和训练的各个阶段,大模型都可能成为网络攻击的对象,因此需要采取额外的安全措施来保护模型不受侵害,保障数据的保密性和完整性,防止数据泄露和滥用。此外,大模型基础设施在端到端供应链的安全性、稳定性和坚韧性也存在巨大挑战,需加强AI大模型与自主可控芯片适配,建设基于自主可控人工智能芯片、训练框架、交互网络的智算中心。(二)金融领域应用规划2023年10月,中国人民银行等六部门联合印发《算力基础设施高质量发展行动计划》,明确算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力。并提出“提升算力高效运载能力”的重点任务,要求针对智能计算、超级计算和边缘计算 5等场景,开展数据处理器(DPU)、无损网络等技术升级与试点应用,实现算力中心网络高性能传输。并提出“算力+金融”赋能金融行业应用的发展计划。中央金融工作会议强调要“做好数字金融大文章”,金融业要全面适应数字经济时代的经济社会发展变化,深化数字技术的金融应用,以大模型为重要抓手推进产业创新和解锁新质生产力。北京金融科技产业联盟依托人工智能专业委员会,加快金融业人工智能的发展和落地。2022年10月,发布《人工智能金融应用发展报告》,分析人工智能技术发展与金融创新应用情况,以加快人工智能与金融应用深度融合。2023年8月,发布《金融数据中心人工智能算力建设指引》,给出了算力与网络协同的指导意见。二、智算网络方案综述(一)智算网络技术需求根据业界论文的推论,AI大模型训练端到端理论时间计算公式如下:XNPTt8_E其中T为训练数据的token数量,P为模型参数量,N为AI硬件卡数,X为每块卡的有效算力,N×X则为集群算力。在T和P一定的情况下,提升AI集群算力N×X是降低整体时间,节省训练成本的关键。而AI集群算力能力很大程度上依赖于高性能和高可用的网络。在分布式计算环境中,多个计算节点需要频繁地交换数据和模型参数,这一过程的流畅与否直接关 6乎集群计算效率。高性能的网络能够确保数据快速传输,减少节点间的等待时间,从而加速训练或推理过程;高可用的网络使得AI任务并行处理更加稳定高效,从而优化网络通信瓶颈。因此,高性能、高可用,且具备高效运维的网络是AI大模型训练的重要条件。(二)业界智算网络方案围绕着智算网络提升AI大模型训练效率,AI芯片提供商、互联网厂商、运营商网络团队及网络设备厂商,分别从不同角度进行技术探索和实现。一是以英伟达、华为为代表的AI芯片提供商通过网络和计算联合调优,有效避免通信拥塞。英伟达在AI以太互联解决方案中,通过Spectrum交换机和BlueField网卡的协同,完成逐包均衡以缓解流量拥塞。华为提出网络级逐流负载均衡,通过网络控制器的全局视角获取全网拓扑,与端侧配合获得计算任务信息,通过对流量的主动干预、主动调度,从而达到近乎满吞吐的目标。此外,英伟达在超节点组网中引入了超高速互联通信机制。以英伟达为例,如图1所示,节点间在高速InfiniBand/RoCE连接基础上,基于NVLink形成GPUALL-to-ALL的超高速网络,并在NVLINK网络中引入SHARP协议实现在网计算,将端侧(服务器)计算任务的部分处理操作卸载到互联网络中,由分布式交换机协同端侧应用完成集群的集合通信(Reduce、Multi-Cast等),降低网络流量负载。 7二是以Google为代表的互联网厂商,主要通过端侧技术优化来解决关键负载不均的问题,尽量减少对网络设备的能力依赖。Google提出Timely/Swift,基于端侧精准测量RTT的拥塞控制机制;Google/SRD/U