本文主要介绍了AI大语言模型的原理、演进及算力测算。大语言模型是一种非串行的神经网络架构,Transformer模型是其基础架构,具有并行运算、关注上下文信息、表达能力强等优势。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型,通过大量语料数据进行无监督学习,从而实现文本生成的目的。大语言模型的训练及推理应用对算力需求带来急剧提升,以GPT-3为例,其所需算力为121.528PFLOPS,以A100 PCle芯片为例,训练阶段需要新增A100 GPU芯片1558颗。