核心观点与关键数据
本文旨在通过对比学习实现无监督句子表示,并强调硬负样本的重要性。传统对比学习方法仅选择随机样本作为负样本,忽略了硬负样本的作用。本文通过分析发现,随机负样本在特征空间中难以提供有效的梯度信号,导致句子表示效果不佳。
研究方法
- 传统对比学习框架:通过数据增强模块生成两个不同视图的数据,将同一句的另一个视图作为正样本,其他所有句子作为负样本,目标是将正样本拉近,负样本推远。
- 硬负样本的重要性:通过计算对比损失对特征向量的梯度,发现梯度信号与特征向量的内积相关,硬负样本能提供更强的梯度信号。
- BERT 嵌入分布分析:发现 BERT 嵌入只在球帽区域内分布,随机负样本难以接近锚点特征。
- MixCSE 模型:通过混合正样本和随机负样本构造硬负样本,并使用停止梯度操作防止混合负样本参与梯度更新。
实验结果
- 语义文本相似度 (STS) 任务:在多个 STS 数据集上,MixCSE 模型显著优于 SimCSE 和其他对比学习方法,平均性能提升约 4-5%。
- 迁移学习 (TR) 任务:在多个 TR 数据集上,MixCSE 模型同样表现出色,尤其在 MRC 和 SQuAD 任务上取得最佳性能。
- 训练过程分析:MixCSE 模型能保持更高的相似度分数,并使句子嵌入分布更加均匀。
- 对齐度和均匀度指标:MixCSE 模型在 STS-B dev 集上表现出更高的对齐度和均匀度,验证了其句子表示质量。
研究结论
- 硬负样本对于句子表示学习至关重要,随机采样方法无效。
- MixCSE 模型通过混合正负样本构造硬负样本,有效提升了句子表示质量。
- MixCSE 模型在 STS 和 TR 任务上均达到 SOTA 性能。