行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2023金融领域先进AI存力报告

金融 2023-12-01 - 爱分析机构上传

大模型时代下金融行业的先进存力挑战与解决方案

引言

大模型时代，金融行业在AI领域扮演着领军角色，重视大模型的自主能力建设。然而，大模型的快速演进带来了对先进存力的迫切需求，这成为了一道难题。

主要挑战与需求

算力“木桶效应”：大模型的算力需求呈指数级增长，传统算力供给方式面临挑战，需要向先进算力升级。
存力的重要性凸显：存力是支撑大模型的基石，但其重要性常被忽视，存在性能瓶颈。
金融行业挑战：金融行业需要构建可用、可信、可控的AI先进存力，确保数据存储与处理的高效、安全和成本可控。

解决方案：京东云云海分布式存储系统

产品介绍：京东云云海分布式存储系统是京东自主研发的存储平台，支持多种存储服务，包括块存储、文件存储、并行文件存储、对象存储和大数据存储。
性能与兼容性：云海系统采用全自研引擎，提供高性能、强兼容性，支持多种协议访问，适合大模型场景的存算分离需求。
信创适配：云海系统兼容国产软硬件，满足金融行业信创要求，提供自主可控的技术支持。
成本优化：通过EC存储策略、低TCO设计和对低成本存储硬件的支持，实现存储成本的有效控制。
案例分享：
- 某国有大行利用云海存储提升大模型训练效率，通过优化数据处理流程、增强数据共享和加速性能，显著提高了大模型的运行效率。
- 某券商采用云海存储搭建统一云原生存储架构，支持其业务模式的“小微化、高频化”，通过兼容多种存储接口和优化性能，有效支撑了业务系统的快速变更与扩展。

结论

面对大模型时代对先进存力的挑战，金融机构应采取前瞻性规划，统筹计算力、存力与网络的协同发展，利用如京东云云海分布式存储系统等先进解决方案，构建高效、可靠、成本可控的AI存力环境，以支持大模型的落地与应用，推动金融行业数字化转型的深入发展。

大模型时代，金融行业如何破解先进存力之困？引言先进存力是金融行业大模型落地的必答题 2023年，是大模型商业化落地元年。根据《2023爱分析：中国大模型市场商业化进展研究报告》，2023年中国大模型市场规模约为50亿元，预计2024年将达到120亿元。大模型表现出的强大的理解、生成和推理能力，让各行各业的企业用户普遍预期大模型将带来巨大甚至变革性的价值，纷纷探索大模型的落地应用。可以预见的是，大模型将引发新一轮AI应用建设浪潮。同时，为了支撑大模型时代的AI应用，企业IT基础设施也将被重塑。目录大模型时代算力“木桶效应”下，存力重要性凸显P01-P05 1.1大模型将带来算力需求指数级增长P02 1.2先进算力存在“木桶效应”，存力是容易被忽视的短板P04 金融行业走在大模型落地前列，AI先进存力面临突出挑战P06-P14 2.1金融是大模型落地领军行业，且重视大模型自主能力建设P07 3.1京东云云海分布式存储产品介绍P16 金融机构需要统筹规划，推动大模型先进算力建设P24-P26 大模型时代算力“木桶效应下存力重要性凸显大模型时代算力“木桶效应”下存力重要性凸显 1.1大模型将带来算力需求指数级增长在大模型落地过程中，算力、数据和算法是三大支撑要素，而其中算力需求最先迎来爆发。在当前探索可研和试点应用阶段，企业一般从大模型训练和微调入手，而基于大数据量、大规模参数进行的大模型训练，需要消耗大量算力资源。例如，根据OpenAI公开信息，13亿参数规模的GPT-3XL模型，训练一次需要的算力约为27.5PFlop/s-day（每秒干万亿次运算一天）。大模型时代，算力日益成为数字经济的新型生产力。随着未来大模型技术向多模态等方向演进，参数量将持续膨胀，算力需求还将呈指数级增长。同时，传统自建集群、云服务租用等算力供给方式，将在性能和成本上面临挑战，算力基础设施需要向以智算中心为代表的先进算力进行升级。大模型时代算力“木桶效应”下存力重要性凸显 1.2先进算力存在“木桶效应”，存力是容易被忽视的短板在此背景下，国家政策层面也高度重视算力发展。2023年10月，工业和信息化部等6部门联合印发了《算力基础设施高质量发展行动计划》（以下简称《行动计划》）。《行动计划》指出，算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力，强调计算、网络、存储和应用需要协同创新、共同发展。值得注意的是，本次《行动计划》高度重视先进存力的建设。主要目标方面，明确提出到2025年存储总量超过1800EB、先进存储容量占比达30%以上的目标；同时，将“强化存力高效灵活保障”列入重点任务之一，提出了加速存力技术研发应用、持续提升存储产业能力、推动存算网协同发展等具体任务和相应措施。其中，先进存储是指应用全闪存阵列、SSD等先进存储部件，采用存算分离、高密、RDMA等先进技术，单位容量数据操作能力达到万IOPS（每秒读写次数）以上的存储模块。在大模型算力建设方面，企业普遍将注意力投向价格高昂、技术供给上有卡脖子风险的GPU。相比以GPU为代表的计算力，存力的重要性往往被忽视。但事实上，大模型对算力的要求如此之高，必须依托由高性能计算芯片、存储和网络共同构成的大规模算力集群。而算力集群存在“木桶效应”，如果存储和网络性能无法支撑大规模数据存储、读写和传输，高性能计算芯片也用武之地，价值将大打折扣，最终影响大模型训练效率。因此，作为AI算力基础设施的关键组成部分之一，先进存力同样是大模型落地的前提条件。大模型训练等场景对于存力提出了一系列新挑战，而存力也往往容易成为“木桶效应”中的短板，制约计算力的效能发挥，成为大模型落地过程中潜藏的风险。金融行业走在大模型落地前列A先进存力面临突出挑战金融行业走在大模型落地前列A|先进存力面临突出挑战在AI先进存力建设方面，大模型落地进展走在前列的金融行业面临的挑战具有代表性。 2.1金融是大模型落地领军行业，且重视大模型自主能力建设金融行业包括银行、保险、证券等，是大模型落地的领军行业，也是《行动计划》中提出的“深化算力赋能行业应用”重点行业之一。根据公开信息，大量金融机构尤其是头部金融机已经开始落地大模型场景应用，并自建大模型能力。金融行业具备大模型落地的良好条件。一方面，金融机构的数字化成熟度和AI应用成熟度都比较高，因此具备良好的数据基础、较强的算法技术能力，以及众多潜在的大模型应用场景，为大模型落地提供了坚实的基础。另一方面，金融机构向来重视数字化转型，数字化预算投入较高，且以央国企为主，在大模型算力投入方面具备较强实力和意愿。根据爱分析调研，金融行业典型的大模型应用场景包括数据分析、智能问答、智能客服、数字营业厅、智能投顾、智能投研、营销内容生成、产品推荐、智能风控等，部分场景已进入试点应用阶段。这些应用场景可以帮助金融机构进一步改善客户体验、提效降本，甚至有机会带来业务重塑的变革性价值。例如，在数字营业厅场景，未来基于大模型支持的数字人具备强大的用户交互和任务执行能力，可以直接帮助客户办理业务推荐产品完成交易，从而创造新的渠道。能力建设和应用建设是当前企业用户落地大模型的两种主要方式。对于头部金融机构而言，大模型作为变革性技术，需要实现能力内化，因此普遍采用能力建设的方式，在应用场景中优先调用自有大模型，而非直接采购外部大模型和相关应用。为了进行大模型能力建设，金融机构需要训练和部署自有大模型，且模型参数量往往在干亿级。金融行业走在大模型落地前列AI先进存力面临突出挑战 2.2金融行业需要可用、可信、可控的AI先进存力在重视大模型能力建设的背景下，金融机构必须构建起坚实的智能算力基础设施，以支撑大模型的高效训练和部署。具体到存力方面，金融机构也面临一系列新挑战，对于AI先进存力的需求可以总结为三方面：可用、可信、可控。 2.2.1可用：“三高一低”极致性能，提升算力资源利用率大模型场景对于存力有着高吞吐、高IOPS、高带宽、低延时的极致性能要求。尤其是大模型训练环节，其数据量大、参数规模大、训练周期长、投资规模大等特点是传统AI场景所不具备的，因此为传统AI场景而构建的基于开源技术或商业化产品的存力难以满足性能需求，众多头部金融机构开始着手重新规划和建设适应大模型时代的存力基础设施。具体来看，大模型的落地可以分为数据采集与处理、模型开发、模型训练、模型上线与运营等环节，各环节对于存储都提出了相应的性能和功能层面的需求。存储需求训练流程数据采集与处理模型开发模型训练模型上线与运营高并发，高吞吐模型部署验证和快速选代金融行业走在大模型落地前列AI先进存力面临突出挑战在数据采集与处理环节，需要将分散在企业各个业务系统、数据湖、数据仓库等多种来源的海量数据归集起来进行预处理，这些数据类型多元，协议复杂多样。为了做到数据的快速高效归集以及清洗、过滤、去重等处理，就需要存储系统支持高吞吐和大容量，同时支持多协议数据互通，兼容性好。在模型开发环节，需要对持续更新的跨系统数据源进行统一、便捷的处理操作，实现数据共享与交互，这就要求存储系统具备较好的兼容性，支持标准POSIX语义兼容，支持多平台对接如Hadoop、CSI等，以实现整个数据生态中的数据高效共享。模型训练环节是整个大模型落地的重中之重，时间周期长、资源消耗大，训练结果直接影响模型的任务表现，对于存储系统的考验也最大。第一，为了提升大模型训练速度，需要对大规模数据集进行快速加载，且一般采用数百甚至上万张GPU构成计算集群进行高效的并行计算，需要高并发I/O处理。一旦存储系统无法及时将数据加载到GPU中，就会使得昂贵的算力资源处于等待状态，造成资源浪费和训练周期拉长。在同样的GPU算力规模下，存储性能的高低可能造成模型训练周期数倍的差异。因此，存储系统需要具备干万级IOPS、GB级带宽、微秒级延时的极致性能，以提升GPU资源利用率。第二，大模型训练数据集一般以文档、图片、音视频等非结构化数据为主，呈现海量小文件的特点，即单个文件通常很小，在几十字节到几百kb级别，但文件数量庞大，在几亿到几十亿量级。这就要求存储系统具备强大的元数据管理能力，从而支持海量小文件的高吞吐。此外，在长周期的训练过程中，由于软硬件系统稳定性和模型调优等方面的问题，大模型训练往往容易出现中断，而训练中断非常影响训练效率。这一方面要求存储系统本身具备高可用性，避免因为存储系统的硬件故障、数据一致性错误等问题出现训练中断；另一方面，也要求存储系统在出现训练中断时，能实现checkpoint的快速保存和加载，快速恢复训练状态，尽可能减少中断时间。在模型上线与运营阶段，一般需要对模型效果进行评估，并持续快速迭代模型，这同样要求存储系统支持高并发、高吞吐，提高模型运营环节的效率。金融行业走在大模型落地前列A|先进存力面临突出挑战 2.2.2可信：满足金融行业信创要求，并破解国产硬件性能瓶颈在满足以上极致性能要求的前提下，金融机构在先进存力建设中还需要考虑信创适配问题金融行业在国民经济中地位关键，且央国企占主导，是信创重点行业，在政策要求下正在加速推动信创进程，目前在进行第三期信创试点。大模型和大模型算力基础设施作为下一代关键技术，也必然要满足信创适配要求，保证核心技术的自主可控。因此，国外存储厂商的商业化产品虽然在性能上整体领先，但无法作为优先选择。对于国内厂商，则需要验证其技术自主可控能力，以及产品与周边信创生态软硬件系统的兼容性。同时，为了满足信创要求，金融机构在建设存储系统中需要采用大量国产硬件，在当前阶段仍存在性能不足问题。为解决这一矛盾，需要存储系统在软件层面通过算法等技术实现性能优化，避免国产硬件限制了整体性能。 2.2.3可控：成本可控，灵活自主在AI先进存力建设方面，金融机构还需要尽可能降低成本。一方面，大模型整体需要巨大投入，且短期内业务收益并不直接，需要在各方面投入上尽量把控成本；另一方面，为了解决大量数据的存储需求，金融机构在大容量、高性能存储系统软硬件本身的投入也非常可观，单次投入在数百万至数干万级别，存在成本优化的空间。因此，在满足功能与性能要求的前提下，存储系统需要能通过兼容和利旧低成本硬件、提升磁盘空间利用率等方式降低TCO。此外，金融机构在采购存储系统时，为了保证自身大模型能力建设的自主性和灵活性，还有软硬件解耦的需求，即独立采购存储硬件和软件，避免硬件绑定。一方面，软硬件解耦可以使金融机构在采购时更加灵活，根据实际需求选择最适合的软硬件产品，有助于降低采购成本。另一方面，通过软硬件解耦，金融机构可以根据业务发展需求快速独立调整硬件和软件配置，提高系统的稳定性和可维护性。而存储系统本身是软件和硬件的高度融合，在软件定义存储的趋势下，尤其要求存储厂商的软件产品具备高度的硬件兼容性，且在合作模式上更加开放和灵活。典型解决方案京东云云海分布式存储系统，助力金融机构大模型落地典型解决方案：京东云云海分布式存储系统助力金融机构大模型落地伴随着大模型等技术应用对先进存力需求的增长，先进存储技术也在快速发展，结合分布式存储、全闪存、蓝光存储、硬件高密、数据缩减、编码算法、芯片卸载、多协议数据互通、RDMA网络等技术，构建新一代存储解决方案。国内厂商和产品在先进存力发展中逐渐扮演着越来越重要的角色，京东云云海分布式存储就是其中具有代表性的典型解决方案。 3.1京东云云海分布式存储产品介绍云海是京东云自研的分布式统一存储平台，从2012年开始启动研发，经过十余年的发展，基于新一代存储架构的云海于2022年正式对外发布。云海根植于京东集团内部万亿级营收业务体量下的最佳实践，并面向互联网、金融、运营商、政府、汽车等行业客户提供多场景下稳定、高性能的存储解决方案。从技术架构来看，云海以全自研统一引擎为底座，提供块存储、分布式文件存储、并

点击免费查看完整报告

2023金融领域先进AI存力报告

大模型时代下金融行业的先进存力挑战与解决方案

引言

主要挑战与需求

解决方案：京东云云海分布式存储系统

结论

你可能感兴趣

2023运营商AI先进存力白皮书

人工智能行业运营商AI先进存力白皮书：汇聚产业新动能，共创AI新时代

中泰电子沿主线买缺口先进存力和算力是最确定的方向AI需求

业绩符合预告，看好卡位先进存力&算力双赛道稀缺标的

先进存力中心研究报告（2025年）

2025年中国先进存力最佳应用实践

先进数据存力：加速智能经济涌现的高性能引擎

Q3业绩环比高增，看好卡位先进存力&算力稀缺标的

电子行业点评报告：AI系列报告——存力：AI浪潮下半场的关键

先进科技主题周报：周观点：亚马逊加速面向AI变革，视频领域或将产生现象级AIGC应用