核心观点与关键数据
正则表达式(RE)在文本分类、槽填充等任务中广泛应用,其优点是高度可解释、无需训练、适用于冷启动场景,但缺点是精度低、召回率低且无法通过标记数据进行训练。神经化正则表达式方法旨在结合RE的优势和神经网络的性能。
方法论
- RE到有限自动机(FA):将RE转换为FA,并用二进制张量表示FA参数。
- FA作为循环神经网络(RNN):将FA转换为RNN,通过前向算法计算接受句子的FA分数。
- 张量分解:分解FA-RNN的参数张量,降低计算复杂性。
- 集成预训练单词嵌入:通过插值方法将外部单词嵌入知识引入模型。
- 扩展门控:结合从左到右和从右到左两个方向的FA-RNN,并添加忘记门和重置门。
实验结果
-
文本分类:
- 在ATIS、QC(TREC-6)、SMS三个数据集上,FA-RNN系统在零射和低资源场景中表现优异,与基线方法(Bi-RNN/GRU/LSTM、CNN、DAN)相比具有竞争力。
- 通过知识蒸馏方法进一步提升了模型性能。
- 可以将FA-RNN转换回RE,提取的RE与原始RE相似度较高(ATIS: +0.45%,QC: +9.2%,SMS: -1.2%)。
-
槽填充:
- 将RE转换为有限状态转换器(FST),并使用双向RNN进行推理。
- 通过独立FST(iFST)方法进一步优化标签评分推理,每个位置的时间复杂度为O(LK + 2K^2)。
- 在ATIS、ATIS-ZH、SNIPS三个数据集上,FST-RNN系统在零射和低资源场景中表现优异,与基线方法(双RNN/GRU/LSTM)相比具有竞争力。
- 通过知识蒸馏方法进一步提升了模型性能。
研究结论
FA-RNN和FST-RNN结合了象征性规则和神经网络的优点,既能从RE转换,又能从标签数据中学习,擅长零射和低资源场景,在资源丰富的场景中也能与神经方法竞争。