行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

正则表式的神通网络化 - Kewei Tu _ 上海科科技

信息技术 2022-03-21 DataFunSummit 2022 ：第二届知识图谱在线峰会PPT汇总 Max

核心观点与关键数据

正则表达式（RE）在文本分类、槽填充等任务中广泛应用，其优点是高度可解释、无需训练、适用于冷启动场景，但缺点是精度低、召回率低且无法通过标记数据进行训练。神经化正则表达式方法旨在结合RE的优势和神经网络的性能。

方法论

RE到有限自动机（FA）：将RE转换为FA，并用二进制张量表示FA参数。
FA作为循环神经网络（RNN）：将FA转换为RNN，通过前向算法计算接受句子的FA分数。
张量分解：分解FA-RNN的参数张量，降低计算复杂性。
集成预训练单词嵌入：通过插值方法将外部单词嵌入知识引入模型。
扩展门控：结合从左到右和从右到左两个方向的FA-RNN，并添加忘记门和重置门。

实验结果

文本分类：
- 在ATIS、QC（TREC-6）、SMS三个数据集上，FA-RNN系统在零射和低资源场景中表现优异，与基线方法（Bi-RNN/GRU/LSTM、CNN、DAN）相比具有竞争力。
- 通过知识蒸馏方法进一步提升了模型性能。
- 可以将FA-RNN转换回RE，提取的RE与原始RE相似度较高（ATIS: +0.45%，QC: +9.2%，SMS: -1.2%）。
槽填充：
- 将RE转换为有限状态转换器（FST），并使用双向RNN进行推理。
- 通过独立FST（iFST）方法进一步优化标签评分推理，每个位置的时间复杂度为O(LK + 2K^2)。
- 在ATIS、ATIS-ZH、SNIPS三个数据集上，FST-RNN系统在零射和低资源场景中表现优异，与基线方法（双RNN/GRU/LSTM）相比具有竞争力。
- 通过知识蒸馏方法进一步提升了模型性能。

研究结论

FA-RNN和FST-RNN结合了象征性规则和神经网络的优点，既能从RE转换，又能从标签数据中学习，擅长零射和低资源场景，在资源丰富的场景中也能与神经方法竞争。

报告封面

点击免费查看完整报告

你可能感兴趣

hot

上海盟科药业股份有限公司投资者关系活动表（2024年11月13日）

商贸零售

未知机构2024-11-13

hot

上海盟科药业股份有限公司投资者关系活动表（2024年12月6日）

商贸零售

未知机构2024-12-06

hot

上海盟科药业股份有限公司投资者关系活动表（2024年9月18日）

商贸零售

未知机构2024-09-18

hot

普天科技公司为电科网通核心上市平台在天地一体化信息网络建设具备前瞻式布局公

商贸零售

未知机构2026-01-29

hot

缩表式降息：如何理解沃什的政策主张

商贸零售

国泰海通证券2026-01-31