您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [-]:算力是人工智能的基础设施,算法是人工智能的灵魂 - 发现报告

算力是人工智能的基础设施,算法是人工智能的灵魂

信息技术 2025-12-08 - - 小烨
报告封面

01 算力是AI产业发展的根基 算力是承载人工智能应用发展的基础,是人工智能最核心的要素 算力、算法和数据是人工智能产业发展的三个核心要素,在三大要素中,算力才是最核心的要素数据的生产不再是问题,如何处理、分析和使用数据才是问题。算法经历了数十年的发展,在深度学习和加速计算出现之后,得到了迅速的发展和优化算力是承载和推动人工智能走向实际应用的决定性力量 数据的快速增长对算力发展提出更高要求。随着信息化、数字化的持续推进,全球新产生的数据量正在快速增长,根据IDC数据显示,2021年全球新增数据总量达到84.5ZB,预计到2026年全球新增数据总量将达到221.2ZB,2021年至2026年间的年复合增速达到21.22% 算法模型的复杂化和巨量化需要更强算力的支撑。近些年,算法模型的参数量和复杂程度都在呈现指数级增长态势,尤其是自然语言处理等新兴认知智能领域对算力的要求远超图像识别和语音识别等传统AI领域 新应用场景的出现对数据实时性要求更高,从而使得边缘计算能力变得愈发重要,人工智能应用也越来越依赖边缘算力支撑。 算力提升有极强的经济效益 算力的经济效益使其成为各国政策支持的重点 根据清华大学全球产业院与浪潮信息联合发布的《2021-2022全球计算力指数评估报告》,通过对全球15个重点国家的计算力指数与数字经济及GDP的回归分析,得到15个重点国家的计算力指数平均每提高1点,国家的数字经济和GDP将分别增长3.5‰和1.8‰进一步研究发现,当一个国家计算力指数分别达到40分及60分以上时,计算力指数每提升1点,其对GDP增长的推动力将分别增加到1.5倍及3倍。智能算力提升具备重大经济效益,对算力基础设施发展的支持性政策成为各国政策的重点。 AI数据中心需求激增,AI服务器快速放量 AI数据中心是专门用于支持人工智能计算和数据处理任务的设施或物理空间 AI数据中心通常拥有大量高性能的服务器、GPU加速器和专门的存储系统,以提供强大的计算能力并加速深度学习AI数据中心配备了高速的网络设备和优化的软件框架,以支持高效的数据传输和算法训练通过这些专门的配置和优化,AI数据中心能够为各种规模和复杂度的AI工作负载提供可靠稳定的计算环境,并满足大规模数据存储、备份和分析的需求AI数据中心在推动人工智能技术的发展和应用方面起到关键作用,为各行各业的AI应用和服务提供了强大的支持 AI数据中心需求激增,AI服务器快速放量 大模型的出现和技术创新对AI数据中心的发展起到推动作用 大模型的出现带来了算力的增量需求 根据OpenAI发布的有关GPT-3模型的文档,它包含1750亿个参数,需要进行数千万次的计算操作来完成一次推理任务 ChatGPT的总算力消耗约为3640PF-days,需要7~8个投资规模30亿、单体算力500P的数据中心才能支撑运行,这样的规模和复杂性需要高性能的计算设备和大规模的并行计算能力,带动了AI数据中心需求的增长新的处理器架构、高速网络、存储技术以及更高效的冷却和能源管理系统的出现,提升了数据中心的性能和效率,为AI数据中心的发展提供了技术支持 AI服务器中,GPU价值量最大 AI服务器是AI数据中心重要的组成部分 AI服务器是专门为人工智能应用而设计和配置的服务器,具备强大的计算能力和高效的数据处理能力,是执行AI任务和处理大规模数据的关键组件,为数据中心提供计算资源和算力,用于执行复杂的AI算法和模型。 AI服务器有两种主要架构:混合架构和基于云平台的架构。 01 AI服务器中,GPU价值量最大 AI服务器中的主要元器件包括CPU、GPU板组、内存、存储、网络接口卡、机箱、主板、散热系统和电源 加速卡(如GPU、TPU)提供高性能的并行计算能力,用于加速机器学习和深度学习任务,可以加快模型训练和推理的速度 CPU负责执行计算任务和处理数据,是服务器的主要计算引擎,可以进行复杂的算法和模型运算 背板提供连接各个部件的接口,而布线则用于传输电力和数据信号 散热系统用于控制服务器的温度并保持其在安全范围内运行。散热片吸收和分散热量,而风扇则提供气流来冷却服务器内部。 主板是AI服务器的核心电路板,连接各个部件并提供电源和数据传输的接口,承载着CPU、内存插槽、扩展插槽和其他重要组件 内存(RAM)用于临时存储数据和程序代码,提供快速的数据访问和处理能力。AI服务器通常配备大容量的内存,以支持大规模的数据集和模型 AI服务器中,GPU价值量最大 GPU是AI服务器中价值量最高的部件,承担了大部分的计算任务和深度学习模型的训练与推理 图26:整个AI硬件产业链中的各个环节紧密合作,共同构建了支持AI应用和服务的完整生态系统 AIGC拉动AI算力需求,AI芯片将成为未来科技石油 基于APU架构的MI300预计于年底开始应用于超级计算机 随着AI进入“大模型”时代,训练数据不断增长、算法复杂度不断提高,国内人工智能厂商对算力的需求陡升。AI芯片作为大模型及AI应用落地的算力基础,重要性日益凸显。 广义的AI芯片指专门用于处理人工智能应用中大量计算任务的模块,即面向人工智能领域的芯片均被称为AI芯片。狭义的AI芯片即针对人工智能算法做了特殊加速设计的芯片。狭义的AI芯片与传统芯片(如CPU)相比,性能优势主要体现在专用性的侧重上。 AIGC拉动AI算力需求,AI芯片将成为未来科技石油 AI芯片主要分为三种类型:通用型(GPU)、半定制型(FPGA)、定制型(ASIC) 三类芯片代表分别有英伟达(NVIDIA)的GPU、赛灵思的FPGA和Google的TPU。GPU的计算能力最强,但是成本高、功耗高;FPGA可编程,最灵活,但是计算能力不强;ASIC体积小、功耗低,适合量产,但是研发时间长,且不可编辑,前期投入成本高,带来一定的技术风险。 AIGC拉 动AI算力需求,AI芯片将成为未来科技石油 针对不同技术路径,国内厂商均已有所布局 GPU:国内GPU厂商已有部分产品落地,国产GPU迎来黄金发展期 AIGC拉动AI算力需求,AI芯片将成为未来科技石油 针对不同技术路径,国内厂商均已有所布局 AIGC拉动AI算力需求,AI芯片将成为未来科技石油 实现专用算法“硬件优化”,ASIC路线在AI领域的长期成长性值得期待 要解决人类指定的各类任务,先要让计算机模拟人类的学习机制 人类跟计算机的能力维度各有优势,让计算机学习和模拟人类的解决问题的方法是各类算法的起点 人类会非常容易的辨别出垃圾邮件与猫狗,但是让计算机做却非常困难,因为这与发明计算机的最初任务有本质区别。比如对1亿数据进行混合四则运算或大小排序,这些任务让人类执行会非常低效,但计算机却可以快速完成。而人工智能要处理的任务与计算机最初的任务恰好相反。这就促使了让人们思考人类到底是怎么进行学习的。 人类的学习机制:婴儿根本不知道猫狗到现在我们可以一眼分辨出猫狗,是一个经验学习过程:首先需要一定的样本资料,从小可能在电视中、现实中或图书中或家长教育中获得大量信息,然后大脑将接受的信息进行学习、归纳、整理、总结,最后形成我们的知识与经验。对于计算机,它的优势是计算能力非常强,可以处理海量数据。我们需要给它提供成千上万的资料数据(猫狗照片)让它进行学习,然后计算 机再面对新样本时才能以较高的准确率进行分辨。 基于AI习得的能力,AI就能处理两大类任务 AI所能处理的这些任务背后的根本任务只有两类,就是分类与回归 人类大脑每日处理的其实也是分类与回归问题。比如我们会思考晚上吃烧烤还是火锅,会选择出门穿哪件衣服,这些都可看做是分类问题;在称重上秤前我们会先估计自己多重,约会时会预计对方几点到达,这些都可看做是回归问题。 例如预测一封邮件是否是垃圾邮件、预测照片中的人是男性还是女性还是偏中性?这种结果只有两个值或者多个值的问题,我们可以把每个值都当做一类,预测对象到底属于哪一类。对于结果只有两个值的问题,一般称为二分类问题,结果有多个值的问题称为多分类问题。 例如要通过一个人的饮食预测一个人的体重,体重的值可以有无限多个,有的人60kg,有的人61kg,而且在60和61之间也有无限多个数。这种预测结果是某一个确定数,而具体是哪个数有无限多种可能,预测的这个变量(体重)因为有无限多种可能,在数轴上是连续的,所以称这种变量为连续变量。 人工智能要处理的任务多种多样。比如人脸识别、垃圾邮件检测、电源票房预测、降雨量预测等等。但是这些任务背后的根本任务只有两类,就是分类与回归。 分类任务:模型输出是对象的所属类别,数据类型是离散数据 分类任务:有二分类和多分类 二分类任务包括前面提到的垃圾邮件检测与猫狗图像识别的例子。 多分类任务场景包括下棋与自动驾驶等场景。 在棋盘上可以落子的个数是有限的,所以每一步阿尔法Go要做的就是根据当前已落子信息,预测出落子在每个可落子位置的胜率,然后选取胜率最高的位置进行落子即可;自动驾驶车辆上装有多个摄像头和传感器来时刻监视车辆四周的环境信息,可根据这些环境的图像信息让它选择在每种情况下方向盘转动多少角度、油门或刹车踩多深来实现车辆的自动行驶。 回归任务:模型输出的结果是一个值,数据类型是连续型 以网约车出行预测以及股价预测来说明回归任务。回归任务和分类任务并非严格区分。 案例一:可根据上下车地点、时间、天气情况、人流密度以及历史记录等因素,预测此刻某区域的网约车订单数,并以此为依据进行车辆调度,保证供需平衡。 案例二:股价预测也可看做为一个回归问题。因为可根据历史走势、利弊政策、公司财报等因素对股价进行预测。其实分类问题在某种程度上可以看做为一个回归问题:比如可以定义若一支股票涨幅会大于5%,就把它归为买入类;在-5%至5%之间,就将它归为持有类;跌幅大于5%的话就将它归为卖出类。 最终计算机解决这些任务的方案,我们称之为算法 从人工智能大的子领域来看,常用的算法类型有专家系统、传统机器学习与深度学习。 专家系统通俗来说就是制定规则;传统的机器学习主要运用可解释的数学公式进行推导预测;而目前大火的深度学习则是模拟人脑神经元进行学习与预测,通常不具有可解释性,但却能很好的解决问题(之后会详细解释)。 传统机器学习 通 过 训 练 集 , 不 断 识 别 特 征 , 不 断 建 模 , 最 后 形 成 有效 的 模 型 , 这 个 过 程 就 叫“机 器 学 习”! 无 论 使 用 什么 算 法 , 使 用 什 么 样 的 数 据 , 最 根 本 的 思 路 都逃 不 出上面的3步。 深度学习 模拟人脑神经元进行学习与预测,通常不具有可解释性 专家系统算法:基于以往知识与经验来制定规则 早期AI根据设定的规则,让电脑去执行预测。这种早期算法也叫做“专家系统”。 专家系统是模拟人类专家解决某一类具体问题的人工智能系统,如疾病诊疗、机械设计等。那么,如何让计算机模拟人类专家?思路很简单:想办法将专家掌握的知识抽取出来,利用这些知识,计算机就可以像专家一样工作了。 例如,AI在互联网中的早期应用有识别垃圾邮件。邮箱每天会收到众多邮件,而把垃圾邮件剔除就可以大大节约人们在垃圾邮件中浪费的时间。传统的方法是制定规则,比如一篇文章中大量出现“免费”“特价”“发财”“代理”“稳赢”等等关键词,我们就把它定义为垃圾邮件,根据设定的规则,然后让电脑去执行预测。 实现专家系统要解决两个问题:一是如何表示知识,二是如何利用知识解决问题 首先是知识表示的问题,即如何将专家的知识梳理出来,并表示成计算机能读懂的结构。知识表示有很多种方法,最简单的是写成“如果...就...”这样的判断句,称为“产生式规则”。 第二个问题涉及到推理方法,即如何利用既有知识解决问题。以诊疗系统为例,如果病人的表现是打喷嚏和发烧,