算力是人工智能的基础设施,算法是人工智能的灵魂。算力、算法和数据是人工智能产业发展的三大核心要素,其中算力是最核心的要素。
算力的重要性
- 数据的快速增长对算力发展提出更高要求。根据IDC数据,2021年全球新增数据总量达到84.5 ZB,预计到2026年将达到221.2 ZB,年复合增速为21.22%。
- 新应用场景的出现对数据实时性要求更高,边缘计算能力变得愈发重要。
- 算力是承载和推动人工智能走向实际应用的决定性力量。
- 算法模型的复杂化和巨量化需要更强算力的支撑。例如,GPT-3模型包含1750亿个参数,需要7~8个大型数据中心才能支撑运行。
- 算力的经济效益使其成为各国政策支持的重点。根据清华大学全球产业院与浪潮信息联合发布的报告,计算力指数每提高1点,国家的数字经济和GDP将分别增长3.5‰和1.8‰。
AI 数据中心和 AI 服务器
- AI数据中心是专门用于支持人工智能计算和数据处理任务的设施,配备大量高性能服务器、GPU加速器和专用存储系统。
- AI数据中心的计算能力、存储需求、网络带宽和软件支持都优于普通数据中心。
- 大模型的出现和技术创新对AI数据中心的发展起到推动作用,带来了算力的增量需求。
AI 服务器
- AI服务器是AI数据中心重要的组成部分,具备强大的计算能力和高效的数据处理能力,用于执行AI任务和处理大规模数据。
- AI服务器有两种主要架构:混合架构和基于云平台的架构。
- AI服务器中的主要元器件包括CPU、GPU板组、内存、存储、网络接口卡、机箱、主板、散热系统和电源。
- GPU是AI服务器中价值量最高的部件,承担了大部分的计算任务和深度学习模型的训练与推理。
AI 芯片
- AI芯片主要分为三种类型:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)。
- 国内厂商在GPU、CPU+FPGA混合异构加速和ASIC领域均已有所布局。
- ASIC路线在AI领域的长期成长性值得期待,具备性能更强、体积更小、功耗更低、成本更低、可靠性更高等优点。
算法
- 要解决人类指定的各类任务,先要让计算机模拟人类的学习机制。
- AI所能处理的任务背后的根本任务只有两类,就是分类与回归。
- 分类任务:模型输出是对象的所属类别,数据类型是离散数据,包括二分类和多分类。
- 回归任务:模型输出的结果是一个值,数据类型是连续型。
- AI核心算法主要分为三大类:专家系统、传统机器学习与深度学习。
- 专家系统算法:基于以往知识与经验来制定规则。
- 传统的机器学习主要运用可解释的数学公式进行推导运算。
- 监督学习:需要有明确的目标,可以处理回归和分类任务。
- 无监督学习:不需要给数据打标签,可以发现潜在的结构。
- 强化学习:不需要大量的“数据喂养”,通过自我尝试学会技能。
- 深度学习的灵感来自大脑的结构和功能,包括卷积神经网络、循环神经网络、生成对抗网络、深度强化学习等。
- Transformer技术框架是深度学习发展到一定阶段的产物,基于自注意力机制,主要用于自然语言处理和计算机视觉领域。
- Transformer标志着“基础模型”时代的开始,为其他模型(GPT、GPT-3、BERT等)的演化提供基本手段。
- 大规模化和转移学习使基础模型更强大,象征着基础模型时代的到来。