1 DataFunTalk 成就百万数据科学家! 目录 模型可解释性在保险理赔反欺诈中的实践......................................................7图算法在网络黑产挖掘中的思考....................................................................21联邦学习与安全多方计算................................................................................3658 同城风控平台演进......................................................................................59度小满金融大数据风控模型实践....................................................................70Fraudar 算法在京东关系网络反欺诈中的应用...........................................85携程金融自动化迭代反欺诈模型体系.........................................................100微众银行在联邦推荐算法上的探索及应用.................................................113机器学习中的隐私保护.................................................................................144关系图谱在贝壳找房风控体系的应用与实践.............................................162新一代联邦学习技术及应用实战.................................................................178构建端到端的联邦学习 Pipeline 生产服务.............................................212风控建模流程:以京东群体感知项目为例.................................................244信贷业务风控策略简介.................................................................................266机器学习在信贷风控建模中的优势和挑战.................................................280度小满智能获客系统实践.............................................................................297金融风控反欺诈之图算法.............................................................................307机器学习在反欺诈中应用.............................................................................324混合、安全对抗下人工智能设计原则.........................................................336 DataFunTalk 成就百万数据科学家! 自动化特征工程和自动建模在风控场景的应用.........................................349 爱奇艺流量反作弊的“术”与“道”.........................................................366 DataFunTalk 成就百万数据科学家! 模型可解释性在保险理赔反欺诈中的实践 分 享 嘉 宾 : 张 洪 涛编 辑 整 理 : 马 韶 光出 品 平 台 : Da t a F u n T a l k 导 读 :真 实 的 理 赔 产 品 中 ,绝 大 部 分 客 户 是 就 医 或 者 患 病 诊 断 患 病 之 后 去找 保 险 公 司 进 行 申 请 理 赔 ,但 是 其 中 有 一 小 部 分 客 户 他 会 制 造 假 的 就 医 记录 或 者 带 病 投 保 到 保 险 公 司 骗 取 保 险 金 ,怎 么 样 保 证 正 常 投 保 客 户 能 够 正常 理 赔 的 保 险 权 益 ,同 时 避 免 骗 保 客 户 给 公 司 带 来 的 经 济 上 的 损 失 成 为 了一 个 十 分 关 键 的 问 题 。 近 几 年 , 随 着 AI 的 蓬 勃 发 展 和 数 据 的 不 断 积 累 ,从 算 法 技 术 来 讲 , 很 多 行 业 在 欺 诈 风 险 识 别 中 表 现 出 了 非 常 优 异 的 效 果 ,产 生 了 一 些 非 常 好 的 价 值 。但 由 于 算 法 本 身 属 性 的 原 因 ,模 型 的 结 果 却 难以 解 释 ,但 这 在 真 实 的 业 务 场 景 中 却 非 常 关 键 。 这 次 带 来 的 分 享 内 容 ,就是 我 们 在 实 际 的 保 险 理 赔 反 欺 诈 场 景 中 的 一 个 模 型 ,可 解 释 性 的 一 些 探 索经 验 , 希 望 能 够 给 大 家 带 来 一 些 启 发 , 或 者 一 些 其 他 的 帮 助 。 DataFunTalk 成就百万数据科学家! 今 天 的 介 绍 会 围 绕 下 面 四 点 进 行 展 开 : 模 型 可 解 释 的 整 体 背 景目 前 学 术 界 和 工 业 界 现 有 的 一 些 模 型 解 释 方 法 , 例 子 以 及 对 应 原 理模 型 可 解 释 性 在 实 际 的 场 景 中 的 一 个 具 体 的 应 用 和 实 施 方 案对 模 型 可 解 释 性 的 简 单 的 展 望 01 模 型 可 解 释 性 的 整 体 背 景 软 件 工 程 学 上 我 们 经 常 用 到 一 个 术 语 叫 软 件 的 生 命 周 期 ,这 里 把 它 用 在 模型 上 ,按 照 模 型 的 生 命 周 期 来 看 , 将 模 型 的 可 解 释 性 总 结 为 三 个 方 面 ,或者 说 三 个 不 同 时 期 的 作 用 。 DataFunTalk 成就百万数据科学家! 模 型 的 开 发 和 构 建 。 企 业 模 型 解 释 在 优 化 模 型 的 期 间 , 是 一 个 优 化模 型 的 一 个 非 常 重 要 的 手 段 。在 实 际 的 模 型 构 建 的 过 程 中 ,这 种 badcase 分 析 寻 找 模 型 优 化 方 向 还 是 一 个 比 较 困 难 的 问 题 ,如 果 模 型 可解 释 , 可 以 对 出 错 的 样 本 采 取 针 对 性 的 措 施 对 模 型 进 行 优 化 。 我 们 的 模 型 试 运 行 上 线 期 间 。 模 型 的 可 解 释 性 能 够 提 升 模 型 的 可 信度 , 同 时 有 利 于 业 务 的 推 广 。模 型 推 广 期 间 , 模 型 预 测 真 正 人 融 入 到 具 体 的 业 务 环 节 流 程 之 中 。之 后 , 我 们 希 望 这 个 模 型 能 够 可 以 解 释 模 型 预 测 值 的 解 释 内 容 , 能够 对 后 续 的 一 些 业 务 上 的 处 理 环 节 带 来 指 导 性 的 作 用 。 02 模 型 解 释 性 方 法 1.模 型 解 释 性 方 法 DataFunTalk 成就百万数据科学家! 全 局 的 解 释 方 法 (全 局 就 是 我 们 考 察 更 偏 重 对 模 型 整 体 的 一 个 预 测的 解 释 ):第 一 个 特 征 权 重 ,每 个 特 征 的 权 重 代 表 着 特 征 对 预 测 结 果的 一 个 影 响 程 度 , 本 质 上 其 实 这 个 权 重 系 数 就 是 一 种 显 示 性 。 第 二个 信 息 增 益 , 可 以 计 算 出 某 个 特 征 对 预 测 结 果 带 来 的 信 息 量 。 第 三个 特 征 重 要 性 , 特 征 重 要 性 很 大 程 度 上 就 可 以 解 释 模 型 预 测 的 一 个判 断 依 据 。 局 部 的 解 释 方 法( 对 这 个 单 条 的 预 测 进 行 解 释 ):第 一 个 LIME,它本 质 上 是 用 线 性 模 型 在 一 个 局 部 的 样 本 空 间 上 进 行 一 个 模 拟 。 第 二个 DeepLIFT,计 算 每 个 特 征 值 的 一 个 基 准 值 ,然 后 计 算 某 个 特 征 取值 相 对 于 基 准 值 的 变 动 对 于 预 测 结 果 带 来 的 一 个 提 升 和 影 响 。 第 三个 Shap,它 本 质 上 是 基 于 博 弈 论 的 一 种 计 算 方 法 ,计 算 也 是 计 算 特征 的 贡 献 。 2.模 型 解 释 性 方 法 -特 征 重 要 性 DataFunTalk 成就百万数据科学家! 从 定 义 上 看 ,全 局 可 解 释 性 是 指 能 够 基 于 完 整 数 据 集 上 的 预 测 结 果 和 特 征之 间 的 条 件 交 互 来 解 释 和 理 解 模 型 。简 单 地 理 解 来 ,它 就 是 他 解 释 整 个 模型 的 行 为 。 举 个 常 见 的 特 征 重 要 度 的 算 法 , 是 每 个 特 征 被 引 用 的 次 数 ,对次 数 的 值 进 行 一 个 排 序 , 次 数 越 多 , 排 序 越 靠 前 , 对 应 特 征 越 重 要 , 这 样就 作 为 模 型 一 种 非 常 直 观 的 解 释 方 法 。 3.模 型 解 释 性 方 法 -lime DataFunTalk 成就百万数据科学家! lime 方 法 其 实 是 非 常 流 行 或 者 非 常 常 见 或 者 经 常 被 大 家 拿 过 来 讨 论 的 一种 方 法 。它 是 一 种 局 部 解 释 方 法 , 局 部 解 释 性 专 注 于 该 数 据 点 ,并 查 看 该点 周 围 特 征 空 间 中 的 局 部 次 区 域 ,并 尝 试 基 该 局 部 及 区 域 去 理 解 该 点 的 模型 决 策 。简 单 理 解 为 它 是 解 释 单 个 预 测 样 本 。以 ppt 中 的 红 叉 对 应 的 样 本点 为 例 ,在 选 取 的 样 本 点 的 附 近 选 取 一 定 数 量 的 样 本 点 ,利 用 这 些 样 本 点重 新 训 练 一 个 简 单 的 模 型 ,如 线 性 模 型 ,然 后 利 用 这 种 解 释 性 较 好 的 方 法来 解 释 预 测 样 本 。 4.模 型 解 释 性 方 法 -shap DataFunTalk 成就百万数据科学家! 修 改 方 法 中 将 某 一 特 征 与 其 他 所 有 特 征 子 集 进 行 博 弈 比 较 ,计 算 其 对 于 其他 特 征 子 集 对 预 测 结 果 的 影 响 。预 测 值 和 各 个 特 征 的 贡 献 值 之 间 存 在 着 这样 的 映 射 关 系 ,预 测 的 所 有 的 贡 献 值 求 和 , 代 入 如 上 图 所 示 方 程 式 中 ,得到 对