AI智能总结
2023/06/17 Summary • 可解释性• 合作自解释框架及虚假相关性• 我们对合作博弈及其在RNP中虚假相关性的解决方案的见解• 未来工作 可解释性 越来越多的人关注模型的可解释性- 关键字段 •LLM 时代的可解释性 GPT - 3 和超越, 克里斯托弗 · 波茨 , 斯坦福 , 2023 / 01 • 生成看起来非常合理的事后解释 • LLM 仍然是巨大的黑匣子,这可能对需要可解释基础机制以确保可信度的情景构成问题。• 处理大量数据(如大规模网站上的用户评价)时,LLM的处理成本和速度也构成了挑战。 对可解释性的期望 • Both忠实的(反映模型的实际行为) · 和似是而非(符合人类的理解) 可解释性的各种方法 事后方法 • require additional代理模型解释被解释的现有模型 · 难以确保忠实 , 特别是对于黑匣子模型 • Ante - hoc models (self - explaining) • 将解释性纳入模型设计并确保忠实性 · 模型预测是基于翔实的解释由模型本身生成。 合作自我解释框架 :RNP 和杂散相关性 合作自我解释框架 : RNP •合理化神经预测 (RNP)• 利用 a合作博弈之间的一个解释器( 或发电机) 和预测器 • 解释器识别输入的人类可解释子集 (称为基本原理) • 并将其传递给后续预测器以进行预测 •显著优势 : 例外认证 • 确保任何未被选中的输入部分对预测无贡献• 确保保持忠实性 Lei 等人 , “合理化神经预测 ” , EMNLP - 2016Liu 等人 ,FR : 具有统一编码器的折叠合理化 RNP 的目标 理由选择: Gumbel - softmax 或强化学习 合作预测 RNP 与域无关 RNP 中的杂散相关性 特征相关性 : 来自原始数据集的生成过程 良好的味道往往与诱人的香气相关 ! 退化 (掩模相关): 源于中的基本原理 (遮罩) 选择 合作博弈 过度适应于毫无意义但可区分的选择 ! Ribeiro 等人 , “我为什么要信任你 ? ” : 解释任何分类器的预测 , KDD - 2016 Liu 等人,MGR : 基于多发电机的合理化, ACL-2023 以前缓解退化的方法 • 使用附加正则化模块利用全文因此 , 预测器并不完全依赖于生成器提供的基本原理。 我们对合作博弈和 RNP 中虚假关联解决方案的见解 • 解决方案 1:退化折中(Folded Rationalization, FR)• 解决方案 2:解耦折中(Decoupled Rationalization, DR)• 解决方案 3:多发电机折中(Multi-Generator Rationalization, MGR) 对虚假相关性的处理 解决方案 1 : 用于退化的折叠合理化 (FR) 我们对 RNP 的观察 • 不协调的学习步伐 • 当预测器的学习速率小于生成器时, 基本原理质量变得更好。 发电机的学习更难 ! 折叠合理化 (FR) • 令人沮丧的简单但有效的方法没有额外的模块 · 将当前合理化方法的两个阶段折叠为一个阶段 , 使用统一编码机制。 生成器和预测器之间的相互强化 • 具有统一编码器的预测器具有全局视图通过直接访问输入文本的所有理由候选人 • The predictor is以相同的学习速度执行作为发电机 FR 的结果 FR 将 F1 得分提高了多达 10.3 % 解决方案 2 : 用于退化的解耦合理化 (DR) 对 RNP 的进一步观察 λ 是预测器的学习率与生成器的学习率之比。这些单元格中的值为 F1 分数。 解耦合理化 (DR) · 不对称学习率合作博弈of RNP • 将预测器的学习率直接设置为低于生成器的学习率 • 不对RNP的基本框架进行修改 • 与对抗性游戏相反• they加速评论家 , 而我们慢下来预测器 · 一种简单的启发式但经验有效的方法 Lipschitz 连续性 •一个有用的指标模型稳定性和鲁棒性用于各种任务 • 对抗示例的鲁棒性 • GAN 中鉴别器的收敛稳定性 (对抗性游戏) · 具有强化学习控制器的闭环系统的稳定性 •反射表面模型 • 对于优化中的不稳定模型,其函数表面通常具有某些非光滑模式,如陡峭的台阶或尖峰。 • 当输入值仅发生少量变化时 , 模型输出可能会发生较大变化 • 通过 Lipschitz 常数测量• 较小的 Lipschitz 常数代表更好的 Lipschitz 连续性 Liu 等人 , 具有不对称学习速率的解耦合理化 : 一种灵活的 Lipschitz 约束 , KDD - 2023 Lipschitz 常数 对理由候选人的直觉和观察 • 和 是选定的理由候选人 从两个明显的情绪倾向相反的评论 如果 和 是信息丰富的候选人 , 那么他们的 语义距离 (, ) 相对较大。 • 如果 和 是没有信息的候选人 , 那么 它们的语义距离 ( , ) 通常是 小 退化与预测因子 Lipschitz 连续性的相关性 •小 Lipschitz 常数导致信息理论的可能性很高候选人 • Given any two relationship从输入文本和 中选择的 和候选人 • 如果预测器给出了接近真实标签的高置信度预测 , 则意味着并且非常小 , • 如果 变得足够低 , 那么 ( , ) 将变得足够大。• 只有信息丰富的候选人才能获得大 ( , ) , 这意味着要实现大 ( , ) , 它将不可避免地 强制生成器选择这些信息丰富的候选人作为理由。 和 1 - - 方法 1 。 Liu 等人 , 具有不对称学习速率的解耦合理化 : 一种灵活的 Lipschitz 约束 , KDD - 2023 光谱归一化 : 刚性方法 • 光谱归一化可以用一些限制 Lipschitz 常数手动选择的截止值. • 基本原理质量得到改善。 • 但是预测性能受损。 学习率与 Lipschitz 常数的相关性 • 优化预测器的参数将增加 1 - - , 并且 优化发电机的参数也会增加 (, ) 。 • To constrainLc要小 , 有必要使 ( , ) 增加得更快 相对于 1 - - 的增加。 • 因此 , 我们减慢预测因子并加速发电机(即 , λ < 1) 。 预测因子的 Lipschitz 常数在λ > 1.Lipschitz 常数在以下情况下被约束为更小的值λ < 1.( 生成器的学习率固定为 0.0001) Liu 等人 , 具有不对称学习速率的解耦合理化 : 一种灵活的 Lipschitz 约束 , KDD - 2023 DR 的结果 与 FR 相比 , 有了进一步的改善。 时间效率与过拟合分析 The训练精度有限的先验理由被生成器采样时,RNP(区域导航性能)的增长速度较快,反映了预测器正在努力调整和优化。过拟合这些随机抽样的基本原理。 降低预测器的学习速率不会减慢收敛性培训过程。 尽管 RNP 在训练数据集中获得了非常高的准确性 ,但它并没有准确度高于我们的方法开发日期集, 也表明了过拟合. The预测损失反映了类似的现象。 解决方案 3 : 针对虚假关联的多生成器合理化(MGR) 特征相关性和退化 • 尽管以往的方法可能擅长解决特征相关性或退化问题中的某一方面,但它们通常都是独立开发的,未能同时考虑这两个问题。 · 我们寻求同时解决这两个问题。 多发电机合理化 (MGR) • 首次同时解决特征相关性和退化问题。 • 有助于预测器更全面地了解候选理由。多个发电机。• Only keep第一个发电机在推理过程中 , 这在时间和资源消耗方面都是有效的。 具有独立学习率的多样化培训 • 为了促进理由多样性的提升同时保证理性化模型的一致性 • 发电机应各不相同,以确保预测器能够持续从多样化的理由候选中学习• 不同的发电机应能实现相同的收敛结果 • 建议分别设置不同发电机的学习率。 · 第 i 个生成器的学习率 : i * η · 预测器的学习率 : η / N 仅保留一个发电机几乎不影响性能,这表明不同的发电机最终可以收敛到相同的输出结果,并且在推理阶段仅需要一个发电机。 Liu 等人 , MGR : 基于多发电机的合理化 , ACL - 2023 基本原理候选人的多样性演变 不同的发电机实现收敛的结果 ! MGR 的结果 相关 BeerAdvocate :MGR 在 F1 评分方面与最先进的合理化方法相比 , 提高了 20.9 % 。 Decorrelated BeerAdvocate:MGR 在 F1 评分方面实现了与现有技术方法 DR 和 FR 相当的性能。 未来工作 • 将见解从合作游戏扩展到其他领域 , 例如 GNN 。• 在基于因果推理的统一框架内处理这两种类型的虚假相关性。 参考 · 刘 W , 王 J , 王 H , 李R , 邱勇 , 张 YK , 韩 J , 邹勇 ,具有非对称学习速率的解耦合理化 : 灵活的 Lipschitz 约束, KDD-2023 · 刘伟 , 王伟 , 王杰 , 李丽 , 李丽丽 , 张勇 , 邱勇 ,MGR : 基于多发电机的合理化, ACL-2023 · 刘伟 , 王伟 , 王杰 , 李锐 , 张勇 ,FR : 具有统一编码器的折叠合理化, NeurIPS - 2022