您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:智能风控峰会]:图聚类在虎牙风控的实践 - 发现报告

图聚类在虎牙风控的实践

AI智能总结
查看更多
图聚类在虎牙风控的实践

邓钰钊-虎牙-风控算法工程师 DataFunSummit#2023 目录CONTENT 虎牙风控背景介绍总结与展望 图聚类在虎牙风控的实践问答 背景介绍 DataFunSummit#2023 虎牙的业务场景和风险 营销活动作弊 内容违规风险 直播违规、视频违规、文本违规(弹幕、私信、动态评论、昵称、个签…) 百宝箱、藏宝图、用户回流礼包、投票选秀、答题、抽奖、竞猜… 充值作弊 刷量刷榜 贵宾席、人气、观看时长、搜索热榜… 身份验证 渠道流量作弊 盗号、诈骗、未成年人识别…… 风控的意义 虎牙直播平台是一个面向数亿用户的平台,如果平台里面涉及违规违法信息,影响面是很广的。 监管风险 内容生态不健康不真实,会影响体验,长期会带来优质用户流失 传统黑产对抗方案 优点:简单、准确率高,可直接用于检测拦截缺点:需对欺诈行为有深入了解以及强的业务经验,无法及时有效应对欺诈手段变化 专家规则 黑、灰、白名单 优点:准确率高缺点:成本高,更新慢 优点:可以挖掘多维数据的隐式关系缺点:严重依赖样本标注,无法应对不断演变的欺诈攻击,被动地应对欺诈 有监督风控模型 02 图聚类在虎牙风控的实践 DataFunSummit#2023 为什么需要图聚类? 图聚类支持无监督学习,不需要标签即可从正常用户中聚类出异常团伙。 图本身是一种可视化形式,相较于其他算法,有天然的可解释性优势。 图聚类在虎牙风控中的应用 业务实践 常用的图算法 Louvain社区发现算法 核心思想 通过优化模块度(modularity)来检测和划分网络图中的社区结构。 Louvain算法的动态过程 1.首先扫描数据中的所有节点,将每个节点看作一个独立的社群; 2.接下来,遍历每个节点的邻居节点,判断是否将该节点加入邻居节点所在的社群,以提升模块度; 3.这一过程重复迭代,直到每一个节点的社群归属稳定; 4.最后,将所有在同一个社群的节点压缩成一个新节点,计算新节点的权重,直到整个图的模块度稳定 Why Louvain? L o u v a i n算 法 采 用 递 归 的 思 想 , 通 过 多 次迭 代 和 社 区 聚 合 来 发 现 网 络 中 的 层 次 结 构 。这 使 得 它 在 处 理 具 有 复 杂 层 次 结 构 的 网 络时 具 有 更 好 的 扩 展 性 。 在 输 出 可 解 释 性 规则 时 更 灵 活 控 制 。 层次结构 L o u v a i n算 法 在 寻 找 社 区 结 构 时 , 不 需 要预 先 设 定 聚 类 或 社 区 数 量 。 它 可 以 在 迭 代过 程 中 自 动 确 定 最 优 社 区 划 分 。 许 多 其 他图 聚 类 算 法 如K - m e a n s聚 类 或 谱 聚 类 需 要预 设 参 数 , 例 如 簇 的 数 量。 无需预设参数 L o u v a i n算 法 采 用 启 发 式 方 法 , 在 寻 找 社 区结 构 时 具 有 较 好 的 计 算 效 率 。 相 较 于 其 他 图聚 类 算 法 , 如 谱 聚 类 或G i r v a n - N e w m a n算法 等 ,L o u v a i n算 法 在 处 理 大 型 网 络 时 的 时间 复 杂 度 较 低 。 计算效率 为什么还需要Dbscan? 噪 声 点 的 处 理 L o u v a i n算 法 主 要 关 注 网 络 模 块 度 的 优 化 , 其 核 心 目 标 是 获 取紧 密 相 连 的 节 点 组 ( 社 区 ) 。 噪 声 点 通 常 指 在 图 中 随 机 存 在 且不 属 于 任 何 特 定 社 区 的 节 点 ( 在 我 们 的 语 境 下 指 无 聚 集 的 正 常用 户 ) 。 然 而 ,L o u v a i n算 法 并 没 有 专 门 针 对 这 些 噪 声 点 的 处理 方 式 , 它 会 试 图 将 它 们 划 分 到 已 存 在 的 社 区 中 。D B S C A N具有 较 好 的 噪 声 处 理 能 力 , 可 以 将 噪 声 点 作 为 特 殊 类 别 识 别 。 Why Dbscan? 不 受 簇 数 量 的 影 响 :D B S C A N算 法 基 于 密 度 来 划 分 簇 , 不 需 要 预 先 指 定 簇的 数 量 。 相 比 于K - m e a n s聚 类 等 聚 类 算 法 , 它 更 适 用 于 簇 数 量 不 定 的 情 况 。 最 大 缺 点 是 对 参 数 敏 感 , 会 受 到 邻 域 半 径E p s和 最 小 点 数M i n P t s的 影 响 。但 由 于 在 我 们 的 特 定 业 务 场 景 下 , 我 们 本 来 就 需 要 指 定 最 小 成 团 人 数 以 及设 定 领 域 半 径 , 我 们 更 方 便 调 整 特 征 权 重 。 Dbscan无监督聚类 算法流程 1.扫描整个数据集,找到任意一个核心点,对该核心点进行扩充。扩充的方法是寻找从该核心点出发的所有密度相连的数据点。遍历该核心点的邻域内的所有核心点(因为边界点是无法扩充的),寻找与这些数据点密度相连的点,直到没有可以扩充的数据点为止。最后聚类成的簇的边界节点都是非核心数据点。 2.重新扫描数据集(不包括之前寻找到的簇中的任何数据点),寻找没有被聚类的核心点,再重复上面的步骤,对该核心点进行扩充。 3.直到数据集中没有新的核心点为止。数据集中没有包含在任何簇中的数据点就构成异常点。 技术细节:dbscan如何定义距离 将所有特征one-hot之后,计算两个用户之间的jaccard距离 ?如何初始化权重 技术细节:如何提高实时性 在 滑 动 窗 口 内 , 对 所 有 请 求 数 据 构 建 图 , 进行 图 聚 类 输 出 技术细节:如何提高实时性 在 滑 动 窗 口 内 , 对 所 有 请 求 数 据 构 建 图 , 进行 图 聚 类 输 出 技术细节:可解释性?成团规则 频繁集挖掘(FP-Growth) 规则1: {应用版本:1.0.0客户端:ios系统版本:14.2} 规则2: {手机号段:086135XXX应用版本:1.0.0客户端:ios系统版本:14.2} 总结与展望 DataFunSummit#2023 总结与展望 总 结 1 .图 聚 类 支 持 无 监 督 学 习 , 可 综 合 应 用 节 点 特 征 和 关 联 网络 信 息 , 在 解 决 无/少 标 签 的 团 伙 欺 诈 问 题 中 发 挥 了 重要 作 用 , 是 智 能 风 控 体 系 中 不 可 或 缺 的 一 部 分 。 展 望 1 .可 解 释 性 是 风 控 场 景 模 型 应 用 绕 不 开 的 问 题 , 如 何 使 更 多 概 率 模 型 可 以发 挥可 解 释的 作 用 是 需 要 思 考 的 。 2 .风 控 是 与 黑 灰 产 动 态 博 弈 的 过 程 , 我 们 在 提 升 技 术 水 平 时 , 黑 灰 产 作 弊手 法 多 变 , 技 术 水 平 也 在 不 断 提 升 , 如 何提 升 自 动 化 对 抗 能 力是 需 长 期研 究 的 问 题 。 感谢观看