行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

6-5 基于图的视觉分类模型的可解释性

文化传媒2022-07-18DataFunSummit2022：图机器学习峰会E***

AI智能总结

Motivation
- 基于卷积神经网络（ResNet）的图像分类方法虽然能够有效捕获图像像素的相关性和抽象概念，但存在难以捕捉成对关系、全局上下文和属性特征的缺点。
图神经网络（GNNs）
- GNNs（如GCN、GAT、门控GCN、MoNet、样条CNN等）通过图结构表示图像，能够更好地捕捉图像中的成对关系和全局上下文。
- 研究表明，GNNs在图像分类任务中表现出色，例如Monti等人（2017）提出的混合模型CNNS，以及Knyazev等人（2019）提出的分层多图网络。
图胶囊网络（GCNs）
- 图胶囊网络通过动态路由机制，能够生成更鲁棒的图像表示，并在物体识别任务中展现出可解释性。
- 顾金东（2021）提出的GraCapsNet在MNIST和CIFAR10数据集上实现了高效的图像分类，并通过图注意力机制增强了模型的解释性。
基于图形的视觉变换器（ViTs）
- 视觉变换器（ViT）将图像隐式地表示为图，通过自注意力机制捕捉图像中的长距离依赖关系。
- Dosovitskiy等人（2021）提出的DeiT模型在图像分类任务中表现出优异的性能，但对自然损坏的补丁更稳健，而对对抗性补丁更脆弱。
- 比较ViT和ResNet的梯度可视化发现，DeiT上的对抗性补丁吸引了更多注意力，而ResNet上的对抗性补丁几乎没有。
结论
- GNNs在图像分类任务中虽然性能未达预期，但能够提供解释性。
- 最先进的视觉模型将图像隐式地表示为图，解释可以从图表示的角度创建。
- 在特征空间而非输入空间建模视觉概念是有效的，解释可以在特征空间中创建。