登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
3-4 基于事件图结构的文本-视觉理解
信息技术
2022-07-18
DataFunSummit2022:图机器学习峰会
亓qí
核心观点与关键数据
视觉常识推理与多媒体应用需求
现实世界的多媒体应用需要图像语言模型理解多层次的语义结构,包括动词、对象和语义关系(引用 Zellers 等人,2019;Park 等人,2020)。
跨媒体结构化对齐
通过文本、图像/视频帧、句子、图像区域、实体、关系等层次的对齐,构建视觉事件图以理解视觉场景(图 8、图 9)。
事件知识添加到视觉语言预训练
CLIP-Event 模型通过事件驱动的视觉语言预训练,将文本事件知识转移到图像,并利用事件结构构造硬样本进行监督学习(图 10、图 11)。
通过最佳运输算法优化事件结构与视觉嵌入的对齐,计算全局图对齐分数(图 12)。
事件丰富的图像字幕数据集
从 VOANews 收集了 106,875 个事件丰富的图片说明,平均句子长度较长,具有挑战性(图 13)。
实验结果
零样本视觉事件提取
:CLIP-Event 在零样本设置下优于最先进的监督模型,成功识别未见过的事件(表 24)。
图像标题检索
:事件知识增强视觉语言预训练性能,在更具挑战性的 VOANews 数据集上获得更大收益(表 24)。
下游任务(视觉常识推理)
:事件知识编码提升 VCR 和 VisualCOMET 模型的回答 F1 精度(表 25)。
多媒体多跳问答(MuMuQA)
基于管道的多媒体 QA 系统性能优于纯文本 QA,但低于人类水平,主要问题在于实体接地和桥接项捕获不足(图 25)。
基于管道的 QA 系统在 MuMuQA 评估基准上 F1 表现仅为 31.4%,而人类表现为 78.8%。
研究结论
CLIP-Event 模型通过事件知识增强视觉语言预训练,显著提升零样本视觉事件提取和下游任务(如图像标题检索、视觉常识推理)的性能。
事件结构化对齐和事件驱动的预训练方法为视觉常识推理和多媒体应用提供了有效解决方案。
多媒体多跳问答任务仍面临挑战,尤其在桥接项捕获和推理能力方面需要进一步改进。
你可能感兴趣
第十届挑战赛C2-基于对偶对比学习文本分类及图神经网络的周边游需求图谱构建与分析
商贸零售
数睿思
2022-06-23
金融工程专题-分析师专题之一:基于事件分析框架下的分析师文本情绪挖掘
商贸零售
德邦证券
2022-09-09
6-5 基于图的视觉分类模型的可解释性
商贸零售
DataFunSummit2022:图机器学习峰会
2022-07-18
生成未必理解:基于扩散模型能否实现视觉世界模型?
商贸零售
腾讯
2025-03-21
基于图结构的智能体记忆机制:分类体系、关键技术与应用综述
商贸零售
-
2026-02-05