深度学习模型架构的演进经历了从传统范式到深度学习范式的转变,并呈现出以下趋势:
深度学习范式演进历程
- 第二个冬天(蛰伏期):1995年SVM兴起,神经网络被边缘化;2006年深度学习概念提出,2009-10年大算力(GPU加速)和大数据(语音识别)推动发展。
- 柳暗花明:2012年ImageNet竞赛中,AlexNet凭借大算力(NVIDIA GTX 580 GPU)和大数据取得突破,标志着深度学习范式的确立。
- 内驱力:GPU算力提升和计算框架易用性提升是关键驱动力。
模型架构设计模式
- 基础模型:Perceptron、深度卷积网络(CNN)、RNN(LSTM)、自编码器(AE)、变分自编码器(VAE)。
- 积木组合:Deep Crossing、Deep Embedding Forest、双流网络、Recurrent Binary Embedding。
- 超级组合:Transformer(self-attention+MLP模块)、BridgeFormer(多模态预训练)。
- 迈向多模态:OMNIVORE@Meta、data2vec@Meta、FLAVA@Meta、CoCa@Google。
- 迈向多任务:FLAVA@Meta、CoCa@Google。
- 迈向多形态:Multi-embodiment(统一接口,不同任务融合)、Pix2Seq@Google。
- 迈向多态一体:Gato@Deepmind(多模态、多任务、多形态)。
- 从大到小:mc-BEiT(图像预训练)、Not All Models Are Equal(模型迁移性预测)。
智能内容实战应用
- 视频复原:GFP-GAN修复旧照片,实现动态效果。
- 文本抹除:DBNet(文本检测)、PGTSNet(文本分割)、DeepFillV2(Inpainting)。
- 多模态检索:视频-文本检索、动作分类。
- 人物分割/抠图:Temporally Efficient Vision Transformer。
- 视频封面生成:自动生成视频封面,结合片段定位和高光检测。
算法开发流程演变
- 特征工程时代(~2012):90%精力用于特征工程,10%用于模型优化。
- 深度学习时代(2012~2020):90%精力用于DL模型优化,10%用于数据清洗与标注。
- 通用深度学习时代(2020~):50%精力用于通用基础模型,40%用于DL专用业务模型优化。
认知黑盒困境与可解释性
- 黑盒问题:深度学习模型参数和设计导致不透明、不确定、不可控。
- 解决方案:可解释性建模是潜在路径。
未来展望
深度学习模型架构仍面临诸多挑战,需持续优化和探索。