您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [爱分析]:2023金融领域先进AI存力报告 - 发现报告

2023金融领域先进AI存力报告

金融 2023-12-01 - 爱分析 机构上传
报告封面

大模型时代,金融行业如何破解先进存力之困? 引言 先进存力是金融行业大模型落地的必答题 2023年,是大模型商业化落地元年。根据《2023爱分析:中国大模型市场商业化进展研究报告》,2023年中国大模型市场规模约为50亿元,预计2024年将达到120亿元。 大模型表现出的强大的理解、生成和推理能力,让各行各业的企业用户普遍预期大模型将带来巨大甚至变革性的价值,纷纷探索大模型的落地应用。可以预见的是,大模型将引发新一轮AI应用建设浪潮。同时,为了支撑大模型时代的AI应用,企业IT基础设施也将被重塑。 目录 大模型时代算力“木桶效应”下,存力重要性凸显P01-P05 1.1大模型将带来算力需求指数级增长P02 1.2先进算力存在“木桶效应”,存力是容易被忽视的短板P04 金融行业走在大模型落地前列,AI先进存力面临突出挑战P06-P14 2.1金融是大模型落地领军行业,且重视大模型自主能力建设P07 3.1京东云云海分布式存储产品介绍P16 金融机构需要统筹规划,推动大模型先进算力建设P24-P26 大模型时代算力“木桶效应下存力重要性凸显 大模型时代算力“木桶效应”下存力重要性凸显 1.1大模型将带来算力需求指数级增长 在大模型落地过程中,算力、数据和算法是三大支撑要素,而其中算力需求最先迎来爆发。在当前探索可研和试点应用阶段,企业一般从大模型训练和微调入手,而基于大数据量、大规模参数进行的大模型训练,需要消耗大量算力资源。例如,根据OpenAI公开信息,13亿参数规模的GPT-3XL模型,训练一次需要的算力约为27.5PFlop/s-day(每秒干万亿次运算一天)。 大模型时代,算力日益成为数字经济的新型生产力。随着未来大模型技术向多模态等方向演进,参数量将持续膨胀,算力需求还将呈指数级增长。同时,传统自建集群、云服务租用等算力供给方式,将在性能和成本上面临挑战,算力基础设施需要向以智算中心为代表的先进算力进行升级。 大模型时代算力“木桶效应”下存力重要性凸显 1.2先进算力存在“木桶效应”,存力是容易被忽视的短板 在此背景下,国家政策层面也高度重视算力发展。2023年10月,工业和信息化部等6部门联合印发了《算力基础设施高质量发展行动计划》(以下简称《行动计划》)。《行动计划》指出,算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,强调计算、网络、存储和应用需要协同创新、共同发展。 值得注意的是,本次《行动计划》高度重视先进存力的建设。主要目标方面,明确提出到2025年存储总量超过1800EB、先进存储容量占比达30%以上的目标;同时,将“强化存力高效灵活保障”列入重点任务之一,提出了加速存力技术研发应用、持续提升存储产业能力、推动存算网协同发展等具体任务和相应措施。其中,先进存储是指应用全闪存阵列、SSD等先进存储部件,采用存算分离、高密、RDMA等先进技术,单位容量数据操作能力达到万IOPS(每秒读写次数)以上的存储模块。 在大模型算力建设方面,企业普遍将注意力投向价格高昂、技术供给上有卡脖子风险的GPU。相比以GPU为代表的计算力,存力的重要性往往被忽视。但事实上,大模型对算力的要求如此之高,必须依托由高性能计算芯片、存储和网络共同构成的大规模算力集群。而算力集群存在“木桶效应”,如果存储和网络性能无法支撑大规模数据存储、读写和传输,高性能计算芯片也用武之地,价值将大打折扣,最终影响大模型训练效率。 因此,作为AI算力基础设施的关键组成部分之一,先进存力同样是大模型落地的前提条件。大模型训练等场景对于存力提出了一系列新挑战,而存力也往往容易成为“木桶效应”中的短板,制约计算力的效能发挥,成为大模型落地过程中潜藏的风险。 金融行业走在大模型落地前列A先进存力面临突出挑战 金融行业走在大模型落地前列A|先进存力面临突出挑战 在AI先进存力建设方面,大模型落地进展走在前列的金融行业面临的挑战具有代表性。 2.1金融是大模型落地领军行业,且重视大模型自主能力建设 金融行业包括银行、保险、证券等,是大模型落地的领军行业,也是《行动计划》中提出的“深化算力赋能行业应用”重点行业之一。根据公开信息,大量金融机构尤其是头部金融机已经开始落地大模型场景应用,并自建大模型能力。 金融行业具备大模型落地的良好条件。一方面,金融机构的数字化成熟度和AI应用成熟度都比较高,因此具备良好的数据基础、较强的算法技术能力,以及众多潜在的大模型应用场景,为大模型落地提供了坚实的基础。另一方面,金融机构向来重视数字化转型,数字化预算投入较高,且以央国企为主,在大模型算力投入方面具备较强实力和意愿。 根据爱分析调研,金融行业典型的大模型应用场景包括数据分析、智能问答、智能客服、数字营业厅、智能投顾、智能投研、营销内容生成、产品推荐、智能风控等,部分场景已进入试点应用阶段。这些应用场景可以帮助金融机构进一步改善客户体验、提效降本,甚至有机会带来业务重塑的变革性价值。例如,在数字营业厅场景,未来基于大模型支持的数字人具备强大的用户交互和任务执行能力,可以直接帮助客户办理业务推荐产品完成交易,从而创造新的渠道。 能力建设和应用建设是当前企业用户落地大模型的两种主要方式。对于头部金融机构而言,大模型作为变革性技术,需要实现能力内化,因此普遍采用能力建设的方式,在应用场景中优先调用自有大模型,而非直接采购外部大模型和相关应用。为了进行大模型能力建设,金融机构需要训练和部署自有大模型,且模型参数量往往在干亿级。 金融行业走在大模型落地前列AI先进存力面临突出挑战 2.2金融行业需要可用、可信、可控的AI先进存力 在重视大模型能力建设的背景下,金融机构必须构建起坚实的智能算力基础设施,以支撑大模型的高效训练和部署。具体到存力方面,金融机构也面临一系列新挑战,对于AI先进存力的需求可以总结为三方面:可用、可信、可控。 2.2.1可用:“三高一低”极致性能,提升算力资源利用率 大模型场景对于存力有着高吞吐、高IOPS、高带宽、低延时的极致性能要求。尤其是大模型训练环节,其数据量大、参数规模大、训练周期长、投资规模大等特点是传统AI场景所不具备的,因此为传统AI场景而构建的基于开源技术或商业化产品的存力难以满足性能需求,众多头部金融机构开始着手重新规划和建设适应大模型时代的存力基础设施。 具体来看,大模型的落地可以分为数据采集与处理、模型开发、模型训练、模型上线与运营等环节,各环节对于存储都提出了相应的性能和功能层面的需求。 存储需求 训练流程 数据采集与处理 模型开发 模型训练 模型上线与运营 高并发,高吞吐 模型部署验证和快速选代 金融行业走在大模型落地前列AI先进存力面临突出挑战 在数据采集与处理环节,需要将分散在企业各个业务系统、数据湖、数据仓库等多种来源的海量数据归集起来进行预处理,这些数据类型多元,协议复杂多样。为了做到数据的快速高效归集以及清洗、过滤、去重等处理,就需要存储系统支持高吞吐和大容量,同时支持多协议数据互通,兼容性好。 在模型开发环节,需要对持续更新的跨系统数据源进行统一、便捷的处理操作,实现数据共享与交互,这就要求存储系统具备较好的兼容性,支持标准POSIX语义兼容,支持多平台对接如Hadoop、CSI等,以实现整个数据生态中的数据高效共享。 模型训练环节是整个大模型落地的重中之重,时间周期长、资源消耗大,训练结果直接影响模型的任务表现,对于存储系统的考验也最大。 第一,为了提升大模型训练速度,需要对大规模数据集进行快速加载,且一般采用数百甚至上万张GPU构成计算集群进行高效的并行计算,需要高并发I/O处理。一旦存储系统无法及时将数据加载到GPU中,就会使得昂贵的算力资源处于等待状态,造成资源浪费和训练周期拉长。在同样的GPU算力规模下,存储性能的高低可能造成模型训练周期数倍的差异。因此,存储系统需要具备干万级IOPS、GB级带宽、微秒级延时的极致性能,以提升GPU资源利用率。 第二,大模型训练数据集一般以文档、图片、音视频等非结构化数据为主,呈现海量小文件的特点,即单个文件通常很小,在几十字节到几百kb级别,但文件数量庞大,在几亿到几十亿量级。这就要求存储系统具备强大的元数据管理能力,从而支持海量小文件的高吞吐。 此外,在长周期的训练过程中,由于软硬件系统稳定性和模型调优等方面的问题,大模型训练往往容易出现中断,而训练中断非常影响训练效率。这一方面要求存储系统本身具备高可用性,避免因为存储系统的硬件故障、数据一致性错误等问题出现训练中断;另一方面,也要求存储系统在出现训练中断时,能实现checkpoint的快速保存和加载,快速恢复训练状态,尽可能减少中断时间。 在模型上线与运营阶段,一般需要对模型效果进行评估,并持续快速迭代模型,这同样要求存储系统支持高并发、高吞吐,提高模型运营环节的效率。 金融行业走在大模型落地前列A|先进存力面临突出挑战 2.2.2可信:满足金融行业信创要求,并破解国产硬件性能瓶颈 在满足以上极致性能要求的前提下,金融机构在先进存力建设中还需要考虑信创适配问题 金融行业在国民经济中地位关键,且央国企占主导,是信创重点行业,在政策要求下正在加速推动信创进程,目前在进行第三期信创试点。大模型和大模型算力基础设施作为下一代关键技术,也必然要满足信创适配要求,保证核心技术的自主可控。因此,国外存储厂商的商业化产品虽然在性能上整体领先,但无法作为优先选择。对于国内厂商,则需要验证其技术自主可控能力,以及产品与周边信创生态软硬件系统的兼容性。 同时,为了满足信创要求,金融机构在建设存储系统中需要采用大量国产硬件,在当前阶段仍存在性能不足问题。为解决这一矛盾,需要存储系统在软件层面通过算法等技术实现性能优化,避免国产硬件限制了整体性能。 2.2.3可控:成本可控,灵活自主 在AI先进存力建设方面,金融机构还需要尽可能降低成本。一方面,大模型整体需要巨大投入,且短期内业务收益并不直接,需要在各方面投入上尽量把控成本;另一方面,为了解决大量数据的存储需求,金融机构在大容量、高性能存储系统软硬件本身的投入也非常可观,单次投入在数百万至数干万级别,存在成本优化的空间。因此,在满足功能与性能要求的前提下,存储系统需要能通过兼容和利旧低成本硬件、提升磁盘空间利用率等方式降低TCO。 此外,金融机构在采购存储系统时,为了保证自身大模型能力建设的自主性和灵活性,还有软硬件解耦的需求,即独立采购存储硬件和软件,避免硬件绑定。一方面,软硬件解耦可以使金融机构在采购时更加灵活,根据实际需求选择最适合的软硬件产品,有助于降低采购成本。另一方面,通过软硬件解耦,金融机构可以根据业务发展需求快速独立调整硬件和软件配置,提高系统的稳定性和可维护性。而存储系统本身是软件和硬件的高度融合,在软件定义存储的趋势下,尤其要求存储厂商的软件产品具备高度的硬件兼容性,且在合作模式上更加开放和灵活。 典型解决方案 京东云云海分布式存储系统,助力金融机构大模型落地 典型解决方案:京东云云海分布式存储系统助力金融机构大模型落地 伴随着大模型等技术应用对先进存力需求的增长,先进存储技术也在快速发展,结合分布式存储、全闪存、蓝光存储、硬件高密、数据缩减、编码算法、芯片卸载、多协议数据互通、RDMA网络等技术,构建新一代存储解决方案。 国内厂商和产品在先进存力发展中逐渐扮演着越来越重要的角色,京东云云海分布式存储就是其中具有代表性的典型解决方案。 3.1京东云云海分布式存储产品介绍 云海是京东云自研的分布式统一存储平台,从2012年开始启动研发,经过十余年的发展,基于新一代存储架构的云海于2022年正式对外发布。云海根植于京东集团内部万亿级营收业务体量下的最佳实践,并面向互联网、金融、运营商、政府、汽车等行业客户提供多场景下稳定、高性能的存储解决方案。 从技术架构来看,云海以全自研统一引擎为底座,提供块存储、分布式文件存储、并