AI智能总结
文/王雅倩 摘要 算力是数字经济的核心基础设施,在人工智能迅速发展、产业数字化转型和智能终端海量增长等多重因素的共同驱动下,算力需求正经历爆发式增长。然而在算力规模快速增长的过程中,面临着物理极限、能源消耗、供应链安全和经济效益等多维度的严峻挑战。本文将分析算力需求增长的驱动力和面临的瓶颈,并探讨可行的解决方案与未来发展方向。 正文 (一)算力需求的爆发式增长 在多元因素的驱动下,算力需求正呈现爆发式增长,并逐渐成为全社会智能化发展的通用生产要素。 算力即数据处理能力,是集信息计算力、网络运载力、数据存储力于一体的新质生产力。目前,全球算力需求正持续高速增长,算力的增长并非由单一因素驱动,而是由多种因素共同作用下的必然发展趋势。随着科技的进步,算力正逐渐从服务于互联网计算机行业的专用资源,逐渐成为全社会智能化发展的通用生产要素。 1、人工智能的迅速发展 算力需求增长最直接的驱动力是人工智能(AI)的迅速发展。随着推理计算应用的广泛使用,如聊天机器人、文生图等,推理计算消耗的算力逐渐超过了大模型训练,而单次推理计算所需的算力需求远超过单次大模型训练。此外,AI从纯文本处理逐步拓展到了同时分析和处理文本、图像、音频或视频的多模态模型,处理这些更复杂、更高维度的数据,需要的计算资源远超纯文本模型。 2、产业数字化转型的全面深化 产业数字化正从局部应用逐步拓展到全业务流程。智能制造方面,算力驱动生产系统的实时感知、决策与优化,比如AI质检,通过对图像数据进行分析,可实现精准检测并提升检测效率。智慧城市管理方面,同时处理数百万个物联网设备的数据也需要大量的算力资源。此外还有智慧金融的实时反欺诈与信贷风控,智慧医疗的辅助诊断与新药研发等,算力已成为驱动产业迈向数字化、智能化的核心引擎。 3、智能终端的海量增长与边缘计算兴起 现代生活中的智能设备正在以海量、微小和分散的方式产生数据和计算需求,如智能手机、智能汽车和智能家居等,这些物联网设备每时每刻都在产生数据,且这些数据 都需要被及时地处理和分析。为了低延迟和隐私保护,这些数据的计算不能全部集中在云端,因此需要将算力下沉到数据产生的地方(如基站、车载电脑、工厂服务器等),即需要建设无数个“微型算力中心”,这将极大地增加对算力总量的需求。 4、科学研究的新模式 AI已成为一种新的科研工具,科学家们可以通过用计算机模拟替代昂贵实验,依靠大规模计算获得模拟实验数据,再从海量数据中发现新规律,不仅可以降低研究成本,还可以缩短研究时间,提高研究效率,这进一步加大了对高性能计算和智能计算的需求。 5、技术使用门槛的降低与商业模式的演进 云计算的普及降低了算力的使用门槛,个人和中小企业使用者可以按需取用、按量付费,这种灵活的商业模式激发了算力的需求。同时,AI模型和框架的开源也降低了AI应用的门槛,使用者能够开发部署满足自己需求的AI应用,从而拉动了底层算力的消费。 (二)算力瓶颈的多维挑战 算力行业在经历爆发式增长的同时,正面临着来自技术物理极限、能源消耗、生态供应链和经济效益等多维度的严峻挑战。 在人工智能迅速发展、产业数字化转型和智能终端海量增长等多重因素的共同驱动下,全球算力需求快速增长。但同时,算力的增长却面临多重严峻挑战,从技术层面的物理定律限制,到能源层面的巨大消耗与散热难题,再到供应链、经济成本和系统效率的现实制约,都是算力规模增长过程中难以避免的问题。 1、技术物理极限 算力规模增长最大的挑战是物理规律的限制,过去几十年,算力增长主要遵循摩尔定律1,但现在晶体管尺寸已逼近物理极限,技术和工艺突破的难度和成本呈指数级上升。此外,处理器在运算时需要不断从内存中读取数据,而处理器的性能提高速度远远超过了内存访问速度的增长,内存的访问速度跟不上处理器的运算速度,导致计算核心经常因等待数据读取而处于空闲状态,极大地浪费了算力。 2、能源消耗 算力的本质是能源消耗,训练一次AI语言模型GPT-3大约消耗1,287兆瓦时(MWh)的电力2。在“碳中和”的背景下,算力产业的能耗与减排目标形成了直接冲突。如何为未来的算力中心提供充足且绿色的电力,是一个重要的挑战。此外,能耗最终会转化为热量,巨大的散热需求不仅限制了芯片性能的进一步提升,也使得算力中心的运营成本大幅增加。 3、供应链与生态 算力的硬件基础是建立在一个非常复杂且脆弱的全球供应链之上。高端芯片制造垄断严重,最先进的芯片制造工艺(比如小于7nm),量产能力集中在极少数的企业手里,一旦出现地缘政治或者贸易摩擦的波动就会产生供应链风险,造成全球范围的算力危机。软件生态方面,英伟达推出的运算平台CUDA生态经过十余年发展,已构建了极高的软件护城河,尽管鲲鹏处理器等在硬件性能等方面也很优秀,但是缺少和CUDA相当的软件工具链或强大的开发者生态,迁移到CUDA平台的门槛太高,形成了“软件生态锁死”的难题。 4、经济成本 获取算力所需的经济门槛越来越高。大规模算力中心的建设成本高达数十亿甚至上百亿,除了包括最重要的AI芯片,还有土地、建筑、电力设施和冷却系统等。经营维护方面的成本同样高昂,除了电费,还需要专业运维以及更换硬件的费用等,对于投入大量资金建设私有算力的企业而言,对应的商业价值回报存在不确定性,算力可能成为一种沉重的资本负担。 5、系统与效率 行业不再拼单个芯片的峰值算力,而是致力于提升整体计算系统的真实算力。由于网络速度限制和软件调度复杂性,导致大规模集群真实算力远低于理论值,在这一情况下,如何通过优化系统架构、调度算法及网络,把“纸面算力”变成“有效算力”,是工程上一大难关。业界普遍采用的方法是“异构计算”,即把不同类型的计算单元混合使用,但这会导致编程模型复杂、资源调度难度加大、软件开销增大和软硬件维护成本增加等。 (三)破局之路:应对挑战的多元策略 突破算力瓶颈,需从技术、架构、能源和商业模式等多个层面寻求破局之路。 面对算力需求激增与多维瓶颈,算力产业正从技术、架构、能源和商业模式等多个层面积极探索破局之路,而这些解决方案并非孤立,而是一套系统性的“组合拳”,只有进行全方位变革才能够有望推动算力产业走向更高效、更普惠和更可持续的未来。 1、架构创新 升级硬件架构是突破物理极限的重要手段,专用芯片和异构集成是重要的路径。针对特定场景的应用可开发专用的芯片,从而获得数量级的能效提升;采用先进的封装技术把不同工艺和功能的芯片集成在一起,在不显著缩小制程的情况下,通过“超级芯片”的方式继续提升整体算力密度和性能。同时,下一代存储与互联技术也在加速研发,高带宽内存、CXL协议3等旨在缓解内存瓶颈,而光计算、硅光互联等技术则有望以更低功耗、更高带宽彻底解决芯片间和数据中心内的通信难题。 2、软硬协同与系统级优化 未来的竞争将是“系统级”的竞争。通过利用人工智能优化人工智能计算、采用更智能的编译器以及推动软硬件协同设计,能够深度挖掘硬件潜力,将理论算力转化为有效算力。软件方面,统一且开放的软件生态是打破CUDA造成的技术捆绑的希望,开源、跨平台的编程模型(如OpenAI的Triton、英特尔的oneAPI)正在努力降低开发者的迁移成本,促进硬件市场的良性竞争,让用户能根据实际需求而非生态绑定来选择算力底座。 3、绿色算力与可持续发展 应对能源挑战,必须走绿色算力之路,实现绿色能源与余热利用是根本。将算力中心建设在可再生能源较为丰富的地区,通过参与电网调峰,购买绿电等方式降低碳排放。此外,数据中心自身也要发展余热利用技术,将余热用于区域供暖或者农业温棚等。同时,积极采用液冷等高效冷却技术,尽管液冷成本偏高,但其散热能力卓越,尤其适用于超密集计算场景。 4、算力网络与资源协同 为了提升整体社会算力利用效率,“东数西算”工程与全国一体化算力网络构成了中国优化算力布局的核心战略。在国家层面的调度下,将东部产生的海量数据,有序引导到西部可再生能源丰富的地区进行计算和处理,实现全国算力资源的优化配置。此外,算力调度和交易平台也应运而生,为用户提供了类似于“算力淘宝”的服务,平台把分布于全国各地、不同所有者的算力资源(包括云服务商、企业和科研机构等)汇聚成池,由平台进行统一的智能调度和按需交易,让用户能够透明、便捷、低成本地获取算力,极大提升了社会算力资源的整体利用率。 5、商业模式与产业协同的演进 算力服务的精细化与普惠化是商业模式的演进方向。针对推理场景的“按Token计费”4、针对训练任务的“竞价实例”5等更细粒度的模式正在出现,进一步降低用户成本。同时,针对中小企业的“普惠算力”套餐和扶持计划,有助于缩小“算力鸿沟”。产业链的垂直整合与开放合作并存,巨头们自研芯片以掌握核心能力和成本控制。同时,更多的企业选择拥抱开放的硬件生态和云服务,以聚焦自身业务创新。这种“自研+合作”的混合模式,将成为未来算力产业的主流形态。 总而言之,算力产业正处在需求爆发与多重瓶颈并存的关键转折点,未来的竞争将是体系化的综合竞争,其发展有赖于技术突破、产业协同与政策引导三者的合力,唯有通过这种系统性的努力,算力才能从一项稀缺的战略资源,转化为支撑千行百业智能化转型与经济社会高质量发展的普惠性基石。 报告声明 本报告分析及建议所依据的信息均来源于公开资料,本公司对这些信息的准确性和完整性不作任何保证,也不保证所依据的信息和建议不会发生任何变化。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,不构成任何投资建议。投资者依据本报告提供的信息进行证券投资所造成的一切后果,本公司概不负责。 本报告版权仅为本公司所有,未经书面许可,任何机构和个人不得以任何形式翻版、复制和发布。如引用、刊发,需注明出处为大公国际,且不得对本报告进行有悖原意的引用、删节和修改。