信息抽取任务(如命名实体识别 NER 和关系抽取 RE)旨在从非结构化文本中自动抽取关键信息,广泛应用于知识图谱构建、信息检索和智能问答等领域。传统方法依赖特征工程,而深度学习模型能自动学习特征,简化流程。
深度学习模型在信息抽取中面临鲁棒性问题,主要表现为对训练数据分布外数据的泛化能力不足。鲁棒性问题检测方法包括实体覆盖率(ECR)和对抗攻击。对抗攻击通过微扰动输入文本生成对抗样本,评估模型鲁棒性。研究表明,BERT 等预训练模型并非如预期般鲁棒,在开放域数据中泛化能力下降。
提升鲁棒性的方法包括:
- 对抗训练:通过在训练数据中添加对抗样本提升模型鲁棒性。但对抗训练成本高,且存在过拟合风险。Flooding-X 方法通过限制损失值进行对抗训练,有效提升鲁棒性且成本较低。
- 信息理论视角:MINER 方法从互信息角度优化 NER 模型,减少噪音信息影响,提升对未知实体的识别能力。
- 远程监督改进:SENT 方法通过负样本训练和噪声过滤提升 RE 模型的鲁棒性,有效处理远程监督中的噪声问题。
研究结论表明,深度学习模型在信息抽取任务中存在鲁棒性挑战,但通过对抗训练、信息理论和负样本训练等方法可有效提升模型的鲁棒性和泛化能力。