少样本文本分类任务定义
少样本文本分类属于元学习范式,其训练集和测试集由小任务组成,形式为 n-way k-shot,每个任务包含支持集和查询集。训练集和测试集的文本类别集合不相交,分别称为源类别和目标类别。
现存问题
- 表征区分度不够:原型网络未直接对查询文本关系建模,导致语义相似但类别不同的查询文本表征区分度不足,易出现分类错误。
- 过拟合问题:少量训练样本形成的偏差分布使模型易过拟合到源类别,包括实例级过拟合和任务级过拟合(类别的组合)。
解决方法
- 监督对比表征学习:拉近同类别的语句表征,推远不同类别的语句表征,缓解相似语义不同意图类别的语句易预测错的问题。
- 任务级正则:通过任务集合的无标注文本数据增强,增加任务表征的区分度,鼓励训练集任务表征和测试集任务表征彼此远离,减轻任务级过拟合。
- 实例级正则:通过无标注文本数据增强,增加语句表征的区分度,鼓励目标类别语句表征与源类别语句表征彼此远离,减轻实例级过拟合。
实验分析
- 实验结果:在8个少样本数据集共20项评估中,提出的方法在17项上超过SOTA结果,1-shot下优势明显。消融实验证明了无监督正则的有效性。
- 错分率分析:原型网络中相似类别错分率高达15%,对比网络相似类别错分率降至约0%,表明对比学习提高了不同类别表征的区分度。
- 查询集文本可视化:对比网络不同类别的表征区分度高于原型网络。
- 过拟合分析:对比网络训练和测试之间的误差更小,过拟合程度相对原型网络更轻。
- 任务表征可视化:对比网络训练集和测试集任务表征明显分离,减轻了任务级过拟合。
- 实例表征可视化:对比网络训练测试文本区分更开,减轻了实例级过拟合。