行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 大模型

3-4 基于事件图结构的文本-视觉理解

信息技术2022-07-18DataFunSummit2022：图机器学习峰会亓***

AI智能总结

核心观点与关键数据

视觉常识推理与多媒体应用需求
- 现实世界的多媒体应用需要图像语言模型理解多层次的语义结构，包括动词、对象和语义关系（引用 Zellers 等人，2019；Park 等人，2020）。
跨媒体结构化对齐
- 通过文本、图像/视频帧、句子、图像区域、实体、关系等层次的对齐，构建视觉事件图以理解视觉场景（图 8、图 9）。
事件知识添加到视觉语言预训练
- CLIP-Event 模型通过事件驱动的视觉语言预训练，将文本事件知识转移到图像，并利用事件结构构造硬样本进行监督学习（图 10、图 11）。
- 通过最佳运输算法优化事件结构与视觉嵌入的对齐，计算全局图对齐分数（图 12）。
事件丰富的图像字幕数据集
- 从 VOANews 收集了 106,875 个事件丰富的图片说明，平均句子长度较长，具有挑战性（图 13）。
实验结果
- 零样本视觉事件提取：CLIP-Event 在零样本设置下优于最先进的监督模型，成功识别未见过的事件（表 24）。
- 图像标题检索：事件知识增强视觉语言预训练性能，在更具挑战性的 VOANews 数据集上获得更大收益（表 24）。
- 下游任务（视觉常识推理）：事件知识编码提升 VCR 和 VisualCOMET 模型的回答 F1 精度（表 25）。
多媒体多跳问答（MuMuQA）
- 基于管道的多媒体 QA 系统性能优于纯文本 QA，但低于人类水平，主要问题在于实体接地和桥接项捕获不足（图 25）。
- 基于管道的 QA 系统在 MuMuQA 评估基准上 F1 表现仅为 31.4%，而人类表现为 78.8%。