AI智能总结
出品机构:甲子光年智库智库院长:宋涛报告撰写:刘瑶、郭瑶琴、王艺霖发布时间:2024.12 Part01时代动力,AI新世代繁荣的发动机 目录 Part02层见叠出,复杂工程需要多样手段解决 Part03各取所需,市场激发AI算力的选择思考 Part04实践落地,AI算力应用的新标杆 Part05来日方长,AI新世代下的不断探索 纵观AI发展,算法的技术突破拉动了算力的需求 2015-2016年左右开启了大模型时代,整体的训练计算量较之前的时期大2到3个数量级。从2022年底,随着ChatGPT成功带来大规模参数通用大模型相继发布。这些大模型的训练需要千亿、甚至万亿级参数,以及上千GB的高质量数据,大模型的训练迭代将极大地拉动了智能算力的需求。 2012-2023年算力需求翻了数十万倍,AI算力需求远超摩尔定律,大模型对算力的需求每年持续增长,未来10年AI算力需求将再增长500倍。 深度学习时期之前,训练计算算力需求缓慢增长,算力翻倍需要21.3个月 深度学习不断取得进展,算力翻倍仅需要5.7个月,所需算力量级由TFLOPs增至EFLOPs 无论是训练还是推理,大模型的爆发引发全球算力需求的指数级增长 技术层面上,基础模型通过迁移学习(Transfer Learning)和规模(scale)得以实现;Transformer的应用标志着基础模型时代的开始(基础模型的庞大规模和应用范围突飞猛进),模型参数量指数级增长,带动算力超过摩尔定律。 Sora等视频生成类模型相较于大语言模型消耗的算力提升20倍。随着海量数据的积累,大模型需要处理的数据量也在不断增长,进一步加剧了对算力的需求。 AI产业快速发展为AI算力市场带来新机遇 从产业规模看,全球人工智能快速增长。2023年全球人工智能市场收入达5381亿美元,同比增长18.5%,到2026年市场规模将达9000亿美元。 从投融资看,2024年Q1全球AI领域完成1779笔融资交易,筹集的风险投资总额达216亿美元。 从企业发展看,全球人工智能呈现“中美主导”格局。截至2023年三季度,全球人工智能企业有29542家。美国有9914家,占比为34%;中国有4469家,占比为15%;中美人工智能企业数占全球总数约49%。 资源“三剑客”中,算力承接算法及数据,成为AI产业发展基石 在现代人工智能领域,算力扮演着推动创新、实现突破的核心驱动力。算力、算法、数据和系统架构等多个方面的综合优化对于大规模模型训练的成功至关重要。从技术层面看,在大模型的研发过程中,预训练、微调和模型推理等环节是核心关键因素和主要计算特征。 千行百业ALL In AI,算力成为智能化升级的核心支撑 AI快速发展正在推动各行业的数智化转型,大模型为千行百业提供了创新解决方案。通用大模型侧重发展通识能力,行业/场景大模型侧重发展专业能力,模型赋能行业有效的提升了效率、降低成本及优化决策过程。 算力支撑成为了AI产业发展的关键,也是实现AI技术在各行业广泛应用的基础。目前大模型在广告、传媒、教育、金融等领域快速落地应用,AI算力与各行业深度融合,将加速产业升级和数字化转型进程。 数字基础设施加快建设,智能算力增长势头强劲 数字经济成为全球经济增长的活力所在。2022年,全球51个主要经济体数字经济同比名义增长7.4%,高于同期GDP名义增速3.2%,持续为全球经济平稳回升注入动力。数字经济快速发展推动数字基础设施建设步伐加快。算力作为重要的数字基础设施,算力结构不断调整。 全球算力主要由通用算力、智能算力和超算算力组成。通用算力作为基础,满足广泛的日常计算需求;智能算力则在新兴技术领域发挥关键作用;超算算力针对特定高端需求提供强大计算能力。数据显示,2023年底全球算力总规模约910EFLOPS,其中,智能算力从2021年的113EFLOPS增长至2023年的335EFLOPS,增速远超其他。 国家层面统筹布局,陆续出台多项政策大力支持算力发展 各省市积极响应,通过政策引导和支持推动地方算力发展 各省市通过政策引导和支持,推动地方算力资源的开放共享、数据中心的集约化发展、算力网络的一体化建设,以及算力与实体经济的深度融合,从而加速AI应用的落地和数字经济的发展。 Part 01时代动力,AI新世代繁荣的发动机 目录 Part02层见叠出,复杂工程需要多样手段解决 Part03各取所需,市场激发AI算力的选择思考 Part04实践落地,AI算力应用的新标杆 Part05来日方长,AI新世代下的不断探索 满足大模型需求的算力是一项复杂的系统工程 满足大模型需求的算力是一项涉及多层面复杂系统工程,因为它不仅需要在计算能力上实现指数级增长,以应对大模型的庞大惨数量,还要在数据传输、存储和处理等多个维度深度优化。 算力系统的设计远非简单的算力资源堆砌,而是需要解决低时延数据交换、节点间计算负载的均衡分配、消弥算力堵点,预防硬件故障等一系列技术难题。且不同应用场景对算力效率、调度灵活性、扩展性、安全稳定、成本效益等方面有着各自独特的需求。这些需求的多样性和复杂性要求在构建算力基础设施时,需要进行综合规划和设计,以实现高效、经济且可持续的算力供给。 AI算力具备软硬件的复杂性,并且以不同产品/服务/方案为应用赋能 生成式AI的突破依赖于算力的“暴力美学”,应用依赖于算力在场景中的释放 AI技术在实际应用中包括两个环节:训练(Training)和推理(Inference),AIGC的算力需要考虑训练及推理两个方面。 复杂工程的算力落地理念:需要基于目标与资源的分配去达成工程学平衡 应用落地的算力选择,更应该强调最优解,而非最大解。在实现AIGC的技术落地过程中,模型的参数量及涌现结果固然重要,但模型在运行过程中所需的算力成本、能耗成本、运营成本等是否能匹配AIGC技术提供的效果及价值突破更为重要。 以终为始,贴合行业需求,实现目标与资源平衡,是AI新世代下的算力选择依据 Why(用户分析) How(项目执行) •在不同阶段和层面对项目的工作内容从主项、分项、子项甚至单体的各个部分进行拆分(例如采用WBS),实现项目关键节点的管理,•完成项目人员的协同、管理、分工及时间资源调配•对风险的预知、判断及合理控制•…… 随着推理成本的降低,推理端算力需求将持续扩大(1/2) AIGC模型在处理输入和输出时,其计算资源消耗与输入输出的数据量成正比,费用计算基于输入输出的Token数量。 以OpenAI为例,在过去两年里,它将API访问成本降低了99%。具体来看,GPT-3的API推理成本从2021年的每千Token 0.06美元降至2022年的0.02美元,降幅达66%。到2023年,GPT-3.5 Turbo的API推理成本与2021年相比下降了86%。 根据英伟达财报,其数据中心的推理占比已经达到40% 随着推理成本的降低,推理端算力需求将持续扩大(2/2) 未来AI应用推理的成本可能会远超训练。大模型训练是阶段性的需求,训练数据通常是固定的,比如几万亿、几十万亿token的量级,且客户集中度高。但做推理,可能每天都是几万亿到10万亿Token,一周就超过了训练的计算量。模型推理成本下降是超级应用爆发的前提条件之一。 当前AI应用需求正在发生变迁,大模型正从To VC泡沫炒作阶段走向To B落地阶段,未来可能走向To C阶段,当前制约在于AI推理成本,成本降低后将迎来应用爆发。企业可以进行推理成本优化,包括硬件 降本(如硬件梯次利用)、算力调度(按需求波峰波谷配置资源)和推理加速。 Part01时代动力,AI新世代繁荣的发动机 目录 Part02层见叠出,复杂工程需要多样手段解决 Part03各取所需,市场激发AI算力的选择思考 Part04实践落地,AI算力应用的新标杆 Part05来日方长,AI新世代下的不断探索 AI的算力资源选择,需要结合自身部署能力及应用需求综合考量 •算力资源的维度不仅包括算力规模大小,要考虑算力部署及运营过程中可以利用的程度。算力是工程化结果,是从芯片到资源服务的多层次构造,需要算力服务方自身在自身专业能力及经验案例上的实际Know-How作为基础。•不同需求程度的用户不能唯算力的参数而论,而是要结合自身对于算力部署的能力进行进一步探究。 影响算力资源利用的维度(算力提供方在AI算力领域的Know-How及经验) •芯片的选择及适配•智算硬件的选择及适配•智算中心的选择及适配•接入方式、算力调度、需求分配、弹性扩展、高效稳定、算法优化、通讯传输、第三方生态、故障排查、大模型相关数据及训练工具包(生态)、模型的纳管及生态合作、云边端协同 可按需适配资源及弹性适配,部署时间更快,可以选择适配AIGC产品/服务的算力资源,减少对于AI算力环境优化的时间及人力成本 •芯片的选择及适配•智算硬件的选择及适配•租户管理、配额管理、运维管理、资源及作业调度管理、系统监控、安全及稳定 按需取用、灵活扩展、无需各IT系统的复杂运维,直接在完成优化的环境下进行开发 •芯片的选择及适配•硬件选型及适配(如内存)、异构算力的调度及配合、网络传输、软件优化、集群架构、环境优化 通过服务器等硬件完成自有算力的部署,环境调试,完成大量不同硬件设备的选型、优化及稳定性保障,需要具备成熟的项目案例经验 •内存/显存、片内互联及片间互联、AI适配生态工具(包括适配算法及其他硬件)、物理环境支撑、折旧速率 需要从芯片层面解决工程问题,包括芯片互联、构建网络、适配从应用到硬件的环境,工作量大且繁杂,需要具备从0到1的经验丰富的技术团队支持 AI芯片是智算产业的核心环节,AI芯片未来发展空间巨大 芯片作为算力产业的基石,为智能算法和应用提供了不可或缺的计算能力。在服务器成本中,核心芯片如GPU占据了超过80%的比重。掌握自主可控的AI芯片技术,对于智算产业的持续发展至关重要。 随着人工智能应用场景的不断拓展,市场对高性能AI芯片的需求日益增长。同时,存算一体、光通信等前沿技术的突破,为AI芯片产业注入了强劲的增长动力。数据显示,2023年中国AI芯片市场规模已达到约652亿人民币。预计到2026年,市场规模将显著增长至1611亿人民币,AI芯片市场正迎来快速发展的黄金时期。 AI芯片成为中美科技博弈的焦点之一,AI芯片国产化刻不容缓 在中美科技博弈的背景下,AI芯片的国产化既是技术发展的需求,也是国家战略的一部分,对于提升国家的科技实力和产业竞争力具有重要作用。 美国的限制措施为国产替代提供机遇,国产化进程迎来加速期 在AI技术快速发展的背景下,AI芯片已成为美国政府卡中国脖子的新武器。自2018年以来,被美国列入“实体清单”的中国AI芯片企业持续增加。同时,美国聚焦于高算力芯片,限制英伟达、AMD等企业的GPU出口,试图全面遏制我国AI产业发展。 美国的限制措施激发了中国AI芯片产业的自主创新和研发,加速了国产替代的进程。中国企业面对外部压力。加大研发投入,努力构建自主可控的产业链。 GPU占据AI芯片主导地位,推理需求加速CPU的使用 2023年上半年,中国加速芯片的市场规模超过50万张,GPU卡占有90%市场份额,非GPU卡占据10%市场份额。中国本土AI芯片品牌出货量近5万张,占整个市场的10%。2024年上半年,中国加速芯片市场规模超过90万张。GPU卡占据80%市场份额,非GPU卡占据20%市场份额。中国本土AI芯片品牌出货量近20万张,约占整个市场的20%。 TPU具有更低功耗和专用特性,成为AI芯片的重要发展趋势之一(1/2) GPU拥有高并行计算能力,适用于多种任务,但功耗和成本较高,在特定应用的优化上不如FPGA和ASIC灵活。FPGA可以针对特定应用进行编程,以实现硬件级别的优化,提供极