您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[爱分析]:2023金融领域先进AI存力报告 - 发现报告
当前位置:首页/行业研究/报告详情/

2023金融领域先进AI存力报告

金融2023-12-01-爱分析机构上传
2023金融领域先进AI存力报告

ifenxiO京东云金融行业先进AI存力报告大模型时代,金融行业如何破解先进存力之困? 引言先进存力是金融行业大模型落地的必答题2023年,是大模型商业化落地元年。根据《2023爱分析:中国大模型市场商业化进展研究报告》,2023年中国大模型市场规模约为50亿元,预计2024年将达到120亿元。大模型表现出的强大的理解、生成和推理能力,让各行各业的企业用户普遍预期大模型将带来巨大甚至变革性的价值,纷纷探索大模型的落地应用。可以预见的是,大模型将引发新一轮AI应用建设浪潮。同时,为了支撑大模型时代的AI应用,企业IT基础设施也将被重塑。 目录大模型时代算力“木桶效应”下,存力重要性凸显P01-P051.1大模型将带来算力需求指数级增长P021.2先进算力存在“木桶效应”,存力是容易被忽视的短板P04金融行业走在大模型落地前列,AI先进存力面临突出挑战P06-P142.1金融是大模型落地领军行业,且重视大模型自主能力建设P072.2 金融行业需要可用、可信、可控的AI先进存力P092.2.1可用:“三高一低”极致性能,提升算力资源利用率P092.2.2可信:满足金融行业信创要求,并破解国产硬件性能瓶颈P13 2.2.3可控:成本可控,灵活自主P14 CONTE典型解决方案:京东云云海分布式存储系统,助力金融机构大模型落地P15-P233.1京东云云海分布式存储产品介绍P163.2基于全自研统一底座,为金融机构大模型场景提供AI先进存力P183.3典型客户案例:某国有大行基于云海构建存力底座,提升大模型整体能力P203.3.1某国有大行基于云海构建存力底座,提升大模型整体能力P203.3.2某券商基于云海构建统一云原生存储架构体系,支撑“小微化、高频化”业务新模式P22金融机构需要统筹规划,推动大模型先进算力建设P24-P26 ifenxi京东云大模型时代算力“木桶效应下存力重要性凸显01 大模型时代算力“木桶效应”下存力重要性凸显1.1大模型将带来算力需求指数级增长在大模型落地过程中,算力、数据和算法是三大支撑要素,而其中算力需求最先迎来爆发。在当前探索可研和试点应用阶段,企业一般从大模型训练和微调入手,而基于大数据量、大规模参数进行的大模型训练,需要消耗大量算力资源。例如,根据OpenAI公开信息,13亿参数规模的GPT-3XL模型,训练一次需要的算力约为27.5PFlop/s-day(每秒干万亿次运算一天)。大模型时代,算力日益成为数字经济的新型生产力。随着未来大模型技术向多模态等方向演进,参数量将持续膨胀,算力需求还将呈指数级增长。同时,传统自建集群、云服务租用等算力供给方式,将在性能和成本上面临挑战,算力基础设施需要向以智算中心为代表的先进算力进行升级。02 ifenxi京东云SEISET67566756756867567565156DEEGHIJKLMNOP 大模型时代算力“木桶效应”下存力重要性凸显1.2先进算力存在“木桶效应”,存力是容易被忽视的短板在此背景下,国家政策层面也高度重视算力发展。2023年10月,工业和信息化部等6部门联合印发了《算力基础设施高质量发展行动计划》(以下简称《行动计划》)。《行动计划》指出,算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,强调计算、网络、存储和应用需要协同创新、共同发展。信息计算力网络运载力数据存储力图表1:算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力值得注意的是,本次《行动计划》高度重视先进存力的建设。主要目标方面,明确提出到2025年存储总量超过1800EB、先进存储容量占比达30%以上的目标;同时,将“强化存力高效灵活保障”列入重点任务之一,提出了加速存力技术研发应用、持续提升存储产业能力、推动存算网协同发展等具体任务和相应措施。其中,先进存储是指应用全闪存阵列、SSD等先进存储部件,采用存算分离、高密、RDMA等先进技术,单位容量数据操作能力达到万IOPS(每秒读写次数)以上的存储模块。在大模型算力建设方面,企业普遍将注意力投向价格高昂、技术供给上有卡脖子风险的GPU。相比以GPU为代表的计算力,存力的重要性往往被忽视。但事实上,大模型对算力的要求如此之高,必须依托由高性能计算芯片、存储和网络共同构成的大规模算力集群。而算力集群存在“木桶效应”,如果存储和网络性能无法支撑大规模数据存储、读写和传输,高性能计算芯片也用武之地,价值将大打折扣,最终影响大模型训练效率。因此,作为AI算力基础设施的关键组成部分之一,先进存力同样是大模型落地的前提条件。大模型训练等场景对于存力提出了一系列新挑战,而存力也往往容易成为“木桶效应”中的短板,制约计算力的效能发挥,成为大模型落地过程中潜藏的风险。04 ifenxi京东云 ifenxi京东云02金融行业走在大模型落地前列A先进存力面临突出挑战06 金融行业走在大模型落地前列A|先进存力面临突出挑战在AI先进存力建设方面,大模型落地进展走在前列的金融行业面临的挑战具有代表性。2.1金融是大模型落地领军行业,且重视大模型自主能力建设金融行业包括银行、保险、证券等,是大模型落地的领军行业,也是《行动计划》中提出的“深化算力赋能行业应用”重点行业之一。根据公开信息,大量金融机构尤其是头部金融机已经开始落地大模型场景应用,并自建大模型能力。金融机构大模型落地动态农业银行2023年3月,推出金融行业首个自主创新的金融AI大模型应用ChatABC2023年6月,就基于知识增长的NLP大模型在金融场景的能力研究和应用工商银行然语言大模型产品建设银行2023年7月,就通用大语言模型产品选型测试项目发布供应商征集公告招商银行2023年10月发布预训练基础大预言模型(干亿级)项目采购结果公示预先研究及论证大语言模型在量化投研精准营销、财富管理、客户服务、招商证券智能投顾人员效能等场景上产生的应用价值银河证券实现了大模型在证券机构场外衍生品交易场景的应用落地图表2:部分金融机构大模型落地动态07 ifenxi京东云金融行业具备大模型落地的良好条件。一方面,金融机构的数字化成熟度和AI应用成熟度都比较高,因此具备良好的数据基础、较强的算法技术能力,以及众多潜在的大模型应用场景,为大模型落地提供了坚实的基础。另一方面,金融机构向来重视数字化转型,数字化预算投入较高,且以央国企为主,在大模型算力投入方面具备较强实力和意愿。根据爱分析调研,金融行业典型的大模型应用场景包括数据分析、智能问答、智能客服、数字营业厅、智能投顾、智能投研、营销内容生成、产品推荐、智能风控等,部分场景已进入试点应用阶段。这些应用场景可以帮助金融机构进一步改善客户体验、提效降本,甚至有机会带来业务重塑的变革性价值。例如,在数字营业厅场景,未来基于大模型支持的数字人具备强大的用户交互和任务执行能力,可以直接帮助客户办理业务推荐产品完成交易,从而创造新的渠道。能力建设和应用建设是当前企业用户落地大模型的两种主要方式。对于头部金融机构而言,大模型作为变革性技术,需要实现能力内化,因此普遍采用能力建设的方式,在应用场景中优先调用自有大模型,而非直接采购外部大模型和相关应用。为了进行大模型能力建设,金融机构需要训练和部署自有大模型,且模型参数量往往在干亿级。08 金融行业走在大模型落地前列AI先进存力面临突出挑战2.2金融行业需要可用、可信、可控的AI先进存力在重视大模型能力建设的背景下,金融机构必须构建起坚实的智能算力基础设施,以支撑大模型的高效训练和部署。具体到存力方面,金融机构也面临一系列新挑战,对于AI先进存力的需求可以总结为三方面:可用、可信、可控。可用可信可控极致性能信创兼容成本可控图表3:金融行业对于AI先进存力的需求2.2.1可用:“三高一低”极致性能,提升算力资源利用率大模型场景对于存力有着高吞吐、高IOPS、高带宽、低延时的极致性能要求。尤其是大模型训练环节,其数据量大、参数规模大、训练周期长、投资规模大等特点是传统AI场景所不具备的,因此为传统AI场景而构建的基于开源技术或商业化产品的存力难以满足性能需求,众多头部金融机构开始着手重新规划和建设适应大模型时代的存力基础设施。具体来看,大模型的落地可以分为数据采集与处理、模型开发、模型训练、模型上线与运营等环节,各环节对于存储都提出了相应的性能和功能层面的需求。09 ifenxi I 京东云训练流程场景特点存储需求数据来源分散、类型多元、高吞吐,支持海量数据协议多样数据采集快捷导入与处理多协议数据互通数据量大海量存储空间跨系统数据共享与交互,标准 POSIX 语义兼容,模型开发数据持续更新支持跨系统数据高效共享与流动对大规模数据集进行读取高I/O带宽、海量并行I/O和并行计算处理,实现高吞吐、低延时,减少算力等待时间模型训练数据集以海量小文件为主支持海量小文件高吞吐高可用性,·训练易中断,需要容错和支持checkpoint快速保存快速恢复和加载,减少中断时间模型上线模型部署验证和快速选代高并发,高吞吐与运营图表 4:大模型场景对存储的需求10 金融行业走在大模型落地前列AI先进存力面临突出挑战在数据采集与处理环节,需要将分散在企业各个业务系统、数据湖、数据仓库等多种来源的海量数据归集起来进行预处理,这些数据类型多元,协议复杂多样。为了做到数据的快速高效归集以及清洗、过滤、去重等处理,就需要存储系统支持高吞吐和大容量,同时支持多协议数据互通,兼容性好。在模型开发环节,需要对持续更新的跨系统数据源进行统一、便捷的处理操作,实现数据共享与交互,这就要求存储系统具备较好的兼容性,支持标准POSIX语义兼容,支持多平台对接如Hadoop、CSI等,以实现整个数据生态中的数据高效共享。模型训练环节是整个大模型落地的重中之重,时间周期长、资源消耗大,训练结果直接影响模型的任务表现,对于存储系统的考验也最大。第一,为了提升大模型训练速度,需要对大规模数据集进行快速加载,且一般采用数百甚至上万张GPU构成计算集群进行高效的并行计算,需要高并发I/O处理。一旦存储系统无法及时将数据加载到GPU中,就会使得昂贵的算力资源处于等待状态,造成资源浪费和训练周期拉长。在同样的GPU算力规模下,存储性能的高低可能造成模型训练周期数倍的差异。因此,存储系统需要具备干万级IOPS、GB级带宽、微秒级延时的极致性能,以提升GPU资源利用率。第二,大模型训练数据集一般以文档、图片、音视频等非结构化数据为主,呈现海量小文件的特点,即单个文件通常很小,在几十字节到几百kb级别,但文件数量庞大,在几亿到几十亿量级。这就要求存储系统具备强大的元数据管理能力,从而支持海量小文件的高吞吐。此外,在长周期的训练过程中,由于软硬件系统稳定性和模型调优等方面的问题,大模型训练往往容易出现中断,而训练中断非常影响训练效率。这一方面要求存储系统本身具备高可用性,避免因为存储系统的硬件故障、数据一致性错误等问题出现训练中断;另一方面,也要求存储系统在出现训练中断时,能实现checkpoint的快速保存和加载,快速恢复训练状态,尽可能减少中断时间。在模型上线与运营阶段,一般需要对模型效果进行评估,并持续快速迭代模型,这同样要求存储系统支持高并发、高吞吐,提高模型运营环节的效率。 ifenxi | 京东云A 金融行业走在大模型落地前列A|先进存力面临突出挑战2.2.2可信:满足金融行业信创要求,并破解国产硬件性能瓶颈在满足以上极致性能要求的前提下,金融机构在先进存力建设中还需要考虑信创适配问题金融行业在国民经济中地位关键,且央国企占主导,是信创重点行业,在政策要求下正在加速推动信创进程,目前在进行第三期信创试点。大模型和大模型算力基础设施作为下一代关键技术,也必然要满足信创适配要求,保证核心技术的自主可控。因此,国外存储厂商的商业化产品虽然在性能上整体领先,但无法作为优先选择。对于国内厂商,则需要验证其技术自主可控能力,以及产品与周边信创生态软硬件系统的兼容性。同时,为了满足信创要求,金融机构在建设存储系统中需要采用大量国产硬件,在当前阶段仍存在性