本文基于迁移学习思想,在AI Challenger2018数据集上训练细粒度情感分析模型RAM,并将其应用于景区和酒店数据集的情感极性提取,围绕“游客目的地印象分析”主题完成印象词云分析、目的地综合评价、网评文本有效性分析、目的地特色分析四个任务。
核心观点:
- 创新性地采用迁移学习解决目标域数据缺乏标注、类别失衡、质量参差不齐等问题,通过源域学习迁移至目标域的高价值信息。
- 明确将任务目标定为细粒度情感分析,利用RAM模型结合上下文信息,为属性级情感极性建立深度学习模型,提升属性级情感分类精度。
- 设计建模与评价分离的两步pipeline,挖掘网评文本和最终评分间的关联,使用上游模型提取文本的情感极性,并将其作为下游评价模型的输入部分。
关键数据:
- 目标域数据涉及50家景区与酒店的网络评论,分别涉及59,106与25,225条评论文本,同时给出每家景区与酒店在不同维度上的专家评分。
- RAM模型在测试集上整体精确度、F1指数均大幅领先于其它模型,单项属性的性能也处于较高水准。
- Adaboost回归模型在验证集上的误差均小于专家评分的方差,模型的评分有一定区分度,并非趋向于输出某一常数。
研究结论:
- 任务一:使用TF-IDF权重计算关键词热度,生成目的地TOP20印象词云表。
- 任务二:基于RAM模型推断结果,将目的地特征表示为五维向量,训练Adaboost回归模型拟合专家评分,模型有效性得到验证。
- 任务三:分别使用编辑距离、词序列长度、情感极性三项指标,检测简单复制修改、无价值信息、内容不相关等三类无效文本,并进行分析。
- 任务四:结合RAM预测结果与任务1-3的结论,对各目的地特色作出详细分析,如高层次景区A39以动物园为特色,高层次酒店H13以地理位置优越和服务态度佳为特色等。
未来改进方向:
- 迁移方式:尝试使用对抗学习方法实现语义层面的数据对齐。
- 模型架构:尝试在训练集上复现BERT和句法依存树等前沿模型,并与RAM作出对比,提升上游模型效果。