登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
3-4 基于事件图结构的文本-视觉理解
信息技术
2022-07-18
DataFunSummit2022:图机器学习峰会
亓***
AI智能总结
查看更多
核心观点与关键数据
视觉常识推理与多媒体应用需求
现实世界的多媒体应用需要图像语言模型理解多层次的语义结构,包括动词、对象和语义关系(引用 Zellers 等人,2019;Park 等人,2020)。
跨媒体结构化对齐
通过文本、图像/视频帧、句子、图像区域、实体、关系等层次的对齐,构建视觉事件图以理解视觉场景(图 8、图 9)。
事件知识添加到视觉语言预训练
CLIP-Event 模型通过事件驱动的视觉语言预训练,将文本事件知识转移到图像,并利用事件结构构造硬样本进行监督学习(图 10、图 11)。
通过最佳运输算法优化事件结构与视觉嵌入的对齐,计算全局图对齐分数(图 12)。
事件丰富的图像字幕数据集
从 VOANews 收集了 106,875 个事件丰富的图片说明,平均句子长度较长,具有挑战性(图 13)。
实验结果
零样本视觉事件提取
:CLIP-Event 在零样本设置下优于最先进的监督模型,成功识别未见过的事件(表 24)。
图像标题检索
:事件知识增强视觉语言预训练性能,在更具挑战性的 VOANews 数据集上获得更大收益(表 24)。
下游任务(视觉常识推理)
:事件知识编码提升 VCR 和 VisualCOMET 模型的回答 F1 精度(表 25)。
多媒体多跳问答(MuMuQA)
基于管道的多媒体 QA 系统性能优于纯文本 QA,但低于人类水平,主要问题在于实体接地和桥接项捕获不足(图 25)。
基于管道的 QA 系统在 MuMuQA 评估基准上 F1 表现仅为 31.4%,而人类表现为 78.8%。
研究结论
CLIP-Event 模型通过事件知识增强视觉语言预训练,显著提升零样本视觉事件提取和下游任务(如图像标题检索、视觉常识推理)的性能。
事件结构化对齐和事件驱动的预训练方法为视觉常识推理和多媒体应用提供了有效解决方案。
多媒体多跳问答任务仍面临挑战,尤其在桥接项捕获和推理能力方面需要进一步改进。
你可能感兴趣
金融工程专题-分析师专题之一:基于事件分析框架下的分析师文本情绪挖掘
德邦证券
2022-09-09
第十届挑战赛C2-基于对偶对比学习文本分类及图神经网络的周边游需求图谱构建与分析
数睿思
2022-06-23
6-5 基于图的视觉分类模型的可解释性
文化传媒
DataFunSummit2022:图机器学习峰会
2022-07-18
生成未必理解:基于扩散模型能否实现视觉世界模型?
腾讯
2025-03-21
请输入您需要翻译的内容,我将为您提供专业、真实的机器翻译服务。请确保输入的内容是文本格式,以便我能够正确地处理和翻译。同时,请尽量保持输入的简洁和清晰,以便我更好地理解您的要求。翻译完成后,我会直接输出翻译结果,不会添加任何其他文本。请随时输入您需要翻译的内容。
美股招股说明书
2025-08-18