虞剑飞南京理工大学|基于方面的多模态情感分析社交媒体帖子
背景
- 社交媒体内容呈现多模态趋势,42%的推文包含多个图像。
- 现有研究主要从文本驱动转向多模态驱动,涉及情感分析、假新闻检测和讽刺检测等任务。
- 多模态分析通过结合文本和图像信息提升分析效果,例如识别文本情绪和图像内容的相关性。
多模态 ABSA (MABSA)
MABSA 包含三个子任务:
- 多模态方面术语提取/命名实体识别 (MATE/MNER):提取并分类实体(如 PER、LOC、ORG)。
- 多模态方面基于情感分类 (MASC):识别给定方面或实体的情绪。
- 联合多模态方面-情感分析 (JMASA):共同提取方面/实体并识别其情绪。
现有方法包括:
- MATE:如基于区域意识对齐网络的多模态方面提取。
- MNER:如基于自适应共注意力机制的推文命名实体识别网络。
- MASC:如将 BERT 用于面向目标的多模态情感分类。
- JMASA:如结合辅助跨模态关系检测的联合多模态方面情感分析。
我们最近在 MABSA 上的工作
用于 MNER 的统一多模态变压器 (ACL 2020)
- 模型:统一多模态变压器 (UMT-BERT-CRF),包含多模交互 (MMI) 模块和辅助实体跨度检测模块。
- 数据集:两个 Twitter 数据集(张琪等人的 Twitter-2015 和 Lu 等人的 Twitter-2017)。
- 结果:在两个基准 Twitter 数据集上实现最先进的性能。
- 后续工作:其他团队提出了新的 MNER 模型,包括多模态交互模块和基于辅助文本的实体跨度检测模块。
用于 MABSC 的粗到细粒度图像目标匹配 (IJCAI 2022)
- 任务定义:识别情绪在每个给定的方面或实体(意见目标)在多模态评论或推文中。
- 动机:58%的输入目标不在相关图像中呈现,需区分相关与无关目标。
- 方法:粗粒度图像-目标匹配和细粒度对象-目标对齐。
- 数据集:手动注释的图像-目标匹配数据集。
- 结果:ITM 模型胜过多种 SOTA 文本和多模态方法。
MABSA 的视觉语言预培训 (ACL 2022)
- 动机:现有 VL 预训练模型忽略两种模式之间的对齐,且缺乏特定任务的培训前任务。
- 模型:基于 BART 的统一编码器-解码器框架,包含三种预培训任务:
- 数据集:MVSA-Multi、MABSA 数据集(Twitter-2015 和 Twitter-2017)。
- 结果:预训练方法在三个 MABSA 子任务上实现最先进性能。
结论
- 多模态 ABSA 模型在相关任务和多模态方法上取得进展。
- 未来工作包括多模式实体链接/消歧、多模态关系/事件提取、多模态知识图谱构建与完成。
- 已有研究:
- 统一多模态变压器 (ACL 2020):关注多模态交互和视觉偏差。
- 图像-目标匹配 (IJCAI 2022):关注粗细粒度图像文本匹配。
- 统一视觉语言预培训框架 (ACL 2022):关注特定任务的 VL 预训练。
- 对抗性攻击示例:随机替换图像。