投资建议 行业策略:深度学习的三要素包括算法、数据和算力,本文主要对算法的演进历程进行了回顾,认为深度学习底层算法被统一为Transformer之后发展放缓;而算法的行业落地应用、大数据的生成与处理、高算力芯片成为重点发展方向。 推荐组合:建议关注受益于人工智能算法进步,并能成功实现商业化应用的海康威视、科大讯飞、中科创达、商汤科技等公司,以及关注可提供大算力AI芯片的海光信息等公司。 行业观点 神经网络的发展以Relu激活函数的提出为分水岭,可分为浅层神经网络和深度学习两个阶段。浅层神经网络阶段最重要的任务是解决梯度不稳定的问题,在这个问题未被妥善解决之前,神经网络受限于激活函数梯度过大或过小、以及神经元全连接对高算力的要求,因此应用性能不佳,而属于非神经网络的支持向量机(SVM)是当时解决人工智能模式识别的主流方法。 过去10年,深度学习经历了从多样化发展到融合统一的阶段。深度学习时代的开启依托于2011年Relu激活函数被提出、梯度消失问题被大幅缓解,此后深度学习算法和应用的发展均突飞猛进。最初卷积神经网络(CNN)通过对高层次特征的提取和压缩, 擅长图像分类等任务; 循环神经网络(RNN)通过对时序信息的提取,擅长文字、语音识别和理解等任务。 2017年Transformer的提出让深度学习进入了大模型时代、2020年Vision Transformer的提出让深度学习进入了多模态时代。由于Transformer在大数据并行计算方面具备优势,且训练数据增长后对模型精度提升明显,自此各模态和各任务底层算法被统一为Transformer架构。 深度学习底层算法发展放缓,数据无监督学习、数据生成以及高算力芯片成为行业发展的重点方向。目前深度学习算法主要是基于Transformer骨干网络来进行分支网络的创新。如OpenAI在多模态主干网络CLIP的基础上引入扩散模型,即训练出能完成语义图像生成和编辑的DALL〃E2,引发AIGC浪潮;在GPT-3模型基础上引入了人类反馈强化学习方法(RLHF),训练出InstructGPT模型,并据此发布了对话机器人ChatGPT,引起了互联网用户的注意。但随着Transformer基本完成底层算法统一之后,整个行业底层算法发展速度开始放缓 ,静待骨干网络的下一次突破。 同时基于Transformer对大数据的需求,催生了无监督学习、高算力芯片的发展。 风险提示 海外基础软硬件使用受限;骨干网络创新放缓;应用落地不及预期 深度学习的三要素包括算法、数据和算力,本文主要对算法的演进过程进行了回顾,认为过往神经网络的发展以Relu激活函数的提出为分水岭,分为浅层神经网络和深度学习两个阶段。 在浅层神经网络阶段,最重要的任务就是解决梯度不稳定的问题。在这个问题未被妥善解决之前,神经网络应用性能不佳,而属于非神经网络的支持向量机算法(SVM)是解决人工智能模式识别的主流方法。 2011年Relu激活函数被提出、梯度消失问题被大幅缓解之后,神经网络进入深度学习时代,算法和应用的发展均突飞猛进。最初CNN、RNN等模型在不同的模态和任务中均各有擅长,2017年Transformer的提出让深度学习进入了大模型时代、2020年Vision Transformer的提出让深度学习进入了多模态时代,自此多模态和多任务底层算法被统一为Transformer架构。 目前深度学习算法主要是基于Transformer骨干网络进行分支网络的创新,如引入扩散模型、强化学习等方法。整个行业算法发展速度放缓,静待骨干网络的下一次突破。 下文我们将对各发展阶段的经典模型进行回顾: 1.感知机:第一个神经网络 感知机由Rosenblatt在1958年提出,是神经网络发展的起点。感知机是一个单层的神经网络模型,由输入值、权重、求和函数及激活函数三部分组成。整个模型对输入值进行有监督学习,权重部分是可训练参数;将对应输入与权重相乘求和,得到的求和值与常数比对,判断是否触发激活函数,最终依据输出的0-1信号判断图像类别。 感知机提出了用神经网络模型解决人工智能任务。但作为神经网络模型的开山之作,还存在以下问题: 1)受阶跃激活函数限制,感知机只能输出0或1,因此只能进行二元分类。 2)感知机只能处理线性可分数据,无法处理线性不可分的数据,而线性不可分数据是现实世界中的常态。该严重缺陷由Minsky于1969年提出,扼杀了人们对感知机的兴趣,也由此导致了神经网络领域研究的长期停滞。 图表1:感知机二元分类过程 图表2:数据的线性可分性 2.多层感知机与BP算法——神经网络的再兴起 2.1多层感知机解决了多元分类问题 20世纪80年代,多层感知机(MLP)被提出。模型由输入层、输出层和至少一层的隐藏层构成,是一种全连接神经网络,即每一个神经元都会和上下两层所有的神经元相连接。各隐藏层中的神经元可接收相邻前序隐藏层中神经元传递的信息,经过加工处理后将信息输出到后续隐藏层中的神经元。 由于隐藏层丰富了神经网络的结构,增强了神经网络的非线性表达能力,感知机的线性不可分问题得以解决,因而神经网络再次迎来兴起。 图表3:多层感知机通过引入隐藏层进行多元分类 相较感知机,多层感知机主要进行了如下改进: 1)解决了感知机的二元分类问题:引入隐藏层,并采用非线性激活函数Sigmoid代替阶跃函数,使得神经网络可以对非线性函数进行拟合。 2)可进行多元分类任务:多层感知机拓宽了输出层宽度。 多层感知机的发展受到算力限制。由于多层感知机是全连接神经网络,所需算力随着神经元的增加呈几何增长。而在算力相对匮乏20世纪80年代,算力瓶颈阻碍了多层感知机的进一步发展。 2.2BP算法:神经网络训练的基本算法 1986年,Hinton提出了一种适用于多层感知机训练的反向传播算法——BP算法,至今仍是神经网络训练的主流算法。 BP算法的核心思想为:将输出值与标记值进行比较,误差反向由输出层向输入层传播,在这个过程中利用梯度下降算法对神经元的权重进行调整。 BP算法最大的问题在于梯度不稳定。由于当时Sigmod、Tanh作为非线性激活函数应用广泛,而这两种激活函数都存在一定范围内梯度过大或过小的问题。神经网络停留在浅层时,连乘次数少、梯度较为稳定;而当神经网络向深层迈进,梯度的不稳定性加剧,使得深层神经网络无法正常训练。 因此,有效缓解梯度不稳定现象是神经网络向深层次迈进前必须解决的问题。 图表4:梯度消失使神经网络无法正常训练 3.浅层神经网络在多应用领域各自演进 多层感知机的出现奠定了神经网络的基本结构,也使得神经网络的应用范围不再局限于图像识别,而是向自然语言处理、语音识别等其他领域拓展。由于各个领域的任务具有不同特点,神经网络产生了众多分支模型。这一阶段分支网络探索各自领域的任务特点,通过机制创新使神经网络获得对应的特征提取能力。 3.1图像识别领域:“卷积”机制提取图像空间特征 人类在进行图像识别时,能够从细小的特征推理得知事物的全貌,即“窥一斑而见全豹”。在多层感知机时代,由于二维图像被转化为一维向量后输入模型,因此丢失了图像的空间特征信息。为了使神经网络获得从特征到全局的图像识别能力,卷积神经网络应运而生。 1998年,LeNet卷积神经网络(CNN)首次应用于图像分类。CNN通过多个卷积层对特征进行提取和压缩,得到较为可靠的高层次特征,最终输出的特征可应用于图像分类等任务。 LeNet网络由卷积层、池化层和全连接层构成: 1)卷积层:通过在输入图像上滑动卷积核,进行卷积操作提取关键特征。 卷积核的尺寸比输入图像小得多,无需像多层感知机一样学习完整图片信息; 2)池化层:对特征进行约减,从而提取主要特征,比如将卷积层的输出划分为若干矩形区域,取各区域的平均值或最大值,从而简化网络计算复杂度; 3)全连接层:对提取到的特征进行汇总,将多维的特征映射为二维输出。 图表5:卷积神经网络典型结构 图表6:卷积的实质是提取关键特征 相较多层感知机,卷积神经网络具备以下优点: 1)计算量减少:神经元只与对应的部分局部连接; 2)图像识别能力增强:利用卷积思想,使神经网络具备了局部特征提取能力; 3)平移不变性:由于卷积核会在输入图像上滑动,所以无论被检测物体在图片哪个位臵都能被检测到相同的特征。 3.2自然语言处理领域:“循环”机制提取语言时序特征 人类在进行文字阅读、语音识别时,不仅会关注当前看到、听到的词句,还会联系上下文进行辅助理解。在多层感知机时代,所有的输入彼此独立,模型仅针对当前词句进行训练,而不关注前后信息,造成了时序信息的丢失。 为了使神经网络获得时序信息提取能力,1986年循环神经网络(RNN)被提出,将循环思想引入神经网络。在RNN中,每个神经元既接受当前时刻输入信息、也接受上一时刻神经元的输出信息,使神经网络具备了时序特征提取能力。 图表7:RNN同时接受当前时刻输入与上一时刻输出的信息 相较多层感知机,循环神经网络具备以下优点: 1)可处理文本、语音等时序相关的信息; 2)计算量大大降低:在循环神经网络进行训练时,参数W、U、V是共享的,这减少了训练所需的计算量。 3.3支持向量机:深度学习出现之前的主流算法 支持向量机(SVM)是传统机器学习中最重要的分类算法之一,作为有监督的分类器,其核心思想与感知机类似,但对目标函数进行了改进: 感知机目标函数:错误分类点到超平面的距离之和最小化。 支持向量机目标函数:支持向量(距离超平面最近的正反例)到超平面的距离最大化。 图表8:感知机与支持向量机目标函数不同 支持向量机的思想最早在1963年由Vapnik等人提出,在90年代经过多次模型和算法改进,能够解决感知机的线性不可分和多元分类等缺陷,并可应用于人体动作识别、人脸识别、文本识别、生物信息学等领域。 图表9:在深度学习之前,支持向量机是解决人工智能任务的主流方法 由于支持向量机方法基本上不涉及概率测度及大数定律,具有更严格的理论和数学基础,因而拥有泛化能力强、收敛到全局最优、维数不敏感等优点。作为与神经网络并行的方法流派,在“深度学习”出现之前,支持向量机一度拥有更高的精度,是解决人工智能任务的主流方法。 支持向量机的最大瓶颈在于不适合进行多维度和大样本训练。其本质是借助二次规划获得最优解,当样本量过大时会极大增加机器内存和运算时间。 4.梯度消失问题的解决使神经网络向深层迈进 4.1逐层无监督是深度学习的初次探索 2006年,深度学习之父Hinton提出了一种梯度消失问题的解决方法,是深度学习的初次探索。 Hinton的解决方法分为两步:1)逐层无监督:即先通过无监督学习逐层初始各神经元的参数(而BP算法的初始参数为随机赋予),使各神经元的参数较为接近最优值,这一步极大地缓解了梯度消失问题;2)通过BP算法进行有监督学习,得到神经网络的最优参数。Hinton的论文发表之后,深度学习方法在学术界引起了巨大的反响,但由于此时模型的应用表现较为一般,因此深度学习的浪潮未向产业界蔓延。 图表10:逐层无监督+BP有监督解决梯度消失问题 4.2ReLu激活函数的提出开启了深度学习时代 2011年,ReLu激活函数被提出,该激活函数的优点为: 1)具有更好的非线性拟合能力,缓解梯度消失问题; 2)具有稀疏激活性,去掉了无关的噪声,能够更好地挖掘相关特征、且提升训练速度(导数为0或1,非常简单)。 ReLu激活函数被提出后,2011年微软首次将深度学习应用于语音识别,使得识别词错误率稳定降低了20~30%,在产业界引起轰动。 2012年,Hinton及其学生提出AlexNet,自此奠定了深度学习的经典训练范式。AlexNet采用了经典的CNN网络结构、使用ReLu激活函数、对输入值进行有监督学习(摒弃了此前的逐层无监督方法)、并采用GPU对训练进行加速。由于AlexNet将ImageNe