您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:计算机行业深度研究:大模型时代,AI技术向效率提升演进 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业深度研究:大模型时代,AI技术向效率提升演进

信息技术2023-02-27王倩雯、孟灿国金证券金***
计算机行业深度研究:大模型时代,AI技术向效率提升演进

敬请参阅最后一页特别声明 1 投资逻辑 我们2022年12月发布的报告《深度学习算法:从多样到统一》中,阐述了自Google 2017年提出Transformer以来,深度学习开始进入大模型时代。大模型时代的前沿技术发展围绕着提升效率而展开,包括:1)提升训练方法效率:向无监督和半监督学习发展;2)提升数据效率:从追求数据规模向追求数据质量发展;3)提升开发效率:通过“预训练基础模型+微调”,挖掘现有大模型潜力,降低具体下游任务的开发成本;4)提升算力效率:从稠密机构向稀疏结构发展;5)提升训练的工程化效率:向并行训练和混合精度训练发展  训练方法:AI模型的训练方法主要包括监督学习和无监督学习两种典型方式,后随模型训练数据量的增加,衍生出使用大量未标注数据+少量标注数据的半监督学习方法。AI训练方法的发展历经“监督-无监督-监督-无监督/半监督”4个阶段,在目前的大模型阶段,无监督/半监督训练再次成为主流。  数据效率:随参数规模的增加,大模型在知识密集型任务中的效果提升显著。此外,当模型参数超过特定阈值后,模型会对特定任务表现出“涌现”现象。目前学界和业界已意识到数据质量的重要性或高于数据数量,AI大模型需要在保证数据质量的前提下进行数据数量和参数规模的扩充。  开发效率:AI大模型的流行提出了“基础模型+微调”的AI开发新范式。相较于过去“一场景、一任务、一模型”的开发模式,“基础模型+微调”具有数据需求量小、训练时间短、落地边际成本低等优点。微调技术的发展带动大模型由“以参数规模取胜”向“以高质量学习取胜”转变。  算力效率:AI架构可分为稠密结构和稀疏结构,其中稀疏结构可有效降低大模型对算力的消耗。2017年Google提出了混合专家方法MoE,使得模型在计算过程中只需激活部分神经网络;2022年6月Google发布的基于稀疏结构的多模态模型LimoE,已经在降低算力消耗的同时取得不亚于稠密结构的成绩。  工程化效率:伴随AI大模型参数量的不断提升,并行训练、混合精度训练等技术发展迅速。其中,国产AI框架百度PaddlePaddle提出的4D混合并行策略在MLPerf发布的稠密结构AI训练性能榜单中位列第一;通过使用16位浮点数代替32位浮点数进行训练,能够在同等模型表现的情况下实现训练时间减半。 投资建议 建议关注受益于AI算法进步,并能成功进行商业化应用的科大讯飞、商汤科技等公司;以及受益于AI算力需求、微调技术发展的海光信息、浪潮信息、海天瑞声等公司。 风险提示 海外基础软硬件使用受限;骨干网络创新放缓;应用落地不及预期 行业深度研究 敬请参阅最后一页特别声明 2 内容目录 1. 训练方法演进:无监督、半监督训练再次成为主流 ....................................................................................3 2. 训练数据演进:从追求规模到追求质量......................................................................................................6 3. 开发方式演进:微调技术受到重视.............................................................................................................7 4. 架构设计演进:从稠密结构到稀疏结构......................................................................................................8 5. 训练技术演进:并行训练与混合精度训练 ..................................................................................................9 6. 投资建议 .................................................................................................................................................10 7. 风险提示 .................................................................................................................................................10 图表目录 图表1: 监督学习与无监督学习方式对比 ........................................................... 3 图表2: LeNet-5卷积神经网络典型结构 ........................................................... 4 图表3: 逐层无监督+BP有监督可解决梯度消失问题................................................. 4 图表4: 计算机视觉领域经典开源数据集 ........................................................... 5 图表5: 自然语言处理领域的无监督学习方法 .................................................................................................5 图表6: MAE无监督学习方法在多个下游任务中优于监督方法 .......................................................................6 图表7: 知识密集型任务表现随参数规模提升 .................................................................................................7 图表8: AI大模型在复杂任务中表现出“涌现”现象...........................................................................................7 图表9: InstructGPT/ChatGPT中的人类反馈强化学习技术 ............................................................................8 图表10: 稠密结构与稀疏结构对比.................................................................................................................9 图表11: 混合专家方法示意 ...........................................................................................................................9 图表12: 百度PaddlePaddle 4D混合并行策略示意 .....................................................................................10 行业深度研究 敬请参阅最后一页特别声明 3 我们2022年12月发布的报告《深度学习算法:从多样到统一》中,阐述了自Google 2017年提出Transformer以来,深度学习开始进入大模型时代。本文旨在讨论大模型时代下,整个AI行业的技术演进的前沿发展方向。 小结而言,大模型时代的前沿技术发展围绕着提升效率而展开,包括:1)提升训练方法效率:向无监督和半监督学习发展;2)提升数据效率:从追求数据规模向追求数据质量发展;3)提升开发效率:通过“预训练基础模型+微调”,挖掘现有大模型潜力,降低具体下游任务的开发成本;4)提升算力效率:从稠密机构向稀疏结构发展;5)提升训练的工程化效率:向并行训练和混合精度训练发展。 1. 训练方法演进:无监督、半监督训练再次成为主流 AI模型的训练方法主要包括监督学习与无监督学习两种典型方式,二者的区别在于是否使用带人工标注的数据集进行训练。此外,随着模型训练数据量的增加,标记大量样本成本过于昂贵,衍生出使用大量未标注数据+少量标注数据的半监督学习方式。 目前,虽然模型参数的扩大仍能提升模型表现,但扩大相同规模的参数较大模型发展初期的边际收益递减,提升数据质量是未来模型智能水平提升的关键。 图表1:监督学习与无监督学习方式对比 来源:CSDN云计算公众号,国金证券研究所 AI训练方法的发展历经“监督-无监督-监督-无监督/半监督”4个阶段,在大模型时代下,无监督/半监督训练再次成为主流方法。  2006年之前,浅层神经网络的训练以监督学习为主:  算法层面,这一阶段的神经网络尚停留于浅层,强调通过学习少量数据获得较强的性能,监督学习的表现显著优于无监督学习。此外,这一时期的支持向量机(SVM)等浅层学习算法表现出色,性能优于同时期的神经网络算法,在学术界与产业界占据主流地位,而支持向量机通常采用监督学习方式,这也使得监督学习成为神经网络的首选训练方式。  数据层面,这一阶段的神经网络由于性能有限,无法处理复杂任务,应用场景较为简单。1998年Yann LeCun等人研发的LeNet-5是这一时期最具代表性的神经网络模型,LeNet-5基于卷积神经网络算法开发,被当时大多数美国银行用于识别支票上的手写数字。简单的应用场景意味着特征信息易于获取,AI模型仅需要对少量数据进行学习就能获得较强的性能。同时,由于对数据量需求较低,标注数据并非难事。 行业深度研究 敬请参阅最后一页特别声明 4 图表2:LeNet-5卷积神经网络典型结构 来源:《Dive into Deep Learning》(Aston Zhang等,2021),国金证券研究所  算力层面,这一阶段的神经网络采用CPU进行训练,算力匮乏、算力成本高昂是这一时期AI发展的主要瓶颈。这使得对数据量要求较低、算力需求少的监督学习成为主流的神经网络训练方式。  2006至2011年,神经网络向深层次发展,无监督学习成为这一时期的主流方法:  算法层面,Hinton使用逐层无监督的方法缓解了梯度消失问题,神经网络得以迈向深层,性能上限极大提升,将神经网络用于处理复杂场景任务成为可能。此后,以Hinton为首的学者们开始尝试通过深度神经网络来模拟人的智能,无监督学习成为这一阶段神经网络的主流训练方式:1)无监督学习在核心思想上与逐层无监督方法类似;2)仿生观念在当时颇为流行,人类在学习时通常是无监督的。 图表3:逐层无监督+BP有监督可解决梯度消失问题 来源:《A Fast Learning Algorithm for Deep Belief Nets》(Hinton等,2006),国金证券研究所  数据层面,神经网络的应用场景日益丰富,包括无人驾驶、语音识别等。复杂场景意味着特征信息难以获取,AI模型必须对更多的数据进行学习才能够获得所需的性能。然而数据因素对于该时期主流神经网络训练方