互联网金融欺诈检测:基于图神经网络的方法
后疫情时代的互联网金融欺诈
- 新冠疫情导致金融欺诈威胁增加,2020年4月欺诈交易量同比增长35%,欺诈率上升33%。
- 金融业务加速向线上转移,传统线下业务迁移至线上,同时诞生新的线上产品和服务(如电商平台、生活服务平台提供的贷款和援助服务)。
- 传统欺诈检测任务面临类别不平衡、概念漂移、数据不可信等挑战。
- 互联网欺诈检测任务面临类别极度不平衡、对抗攻击、标注稀缺、特征发现难、样本价值敏感、分布外样本特征学习指导信号弱等挑战。
用图神经网络为什么行?
- 欺诈检测数据类型从结构化、半结构化扩展到非结构化数据(文本、声音、视频等)。
- 欺诈检测方法从规则系统、传统机器学习发展到深度学习。
- 图神经网络(GNN)适用于欺诈检测,能够整合多源异构数据,发现欺诈活动特征,支持半监督学习。
- 基于元路径的特征采样优化:将风控规则以元路径形式指导节点特征采样,优化特征提取效果,线上测试逾期用户识别召回率提升10.19%。
- 实验结果:基于阿里巴巴真实数据,与当时最好方法HACUD相比,AUC指标提升2.3%,R@P0.1指标提升7.4%;与阿里巴巴线上方法GBDT相比,AUC指标提升6.2%,R@P0.1指标提升16.1%。
用图神经网络有什么坑?
- GNN核心思想是通过消息传递生成节点embedding表示,但面临类别不平衡问题。
- PC-GNN:面向类别不平衡图的采样GNN。
- 挑战:欺诈用户占比低,不利于GNN消息传递。
- 贡献:改造GNN近邻采样机制,缓解类别不平衡问题。
- 效果:提升欺诈用户检测AUC2.6%~3.6%。
- 模块:Pick(全局平衡采样)和Choose(局部结构调整)。
- 实验结果:与CARE-GNN相比,AUC提升3.6%~5.2%,GMean提升0.6%~3.7%。
- AO-GNN:面向类别不平衡图的AUC最大化GNN。
- 优化AUC的训练倾向于获得一个既能区分良性节点又能区分欺诈节点的模型。
- 欺诈者可能主动伪装导致图结构被“污染”。
- 结构优化会带来预测结果的改变,进而引起AUC的变化。
- 拓扑结构优化策略:用环境GNN编码图的表示,“剪断”或“不剪”某一条边,根据剪边后的图用GNN分类器预测得到的AUC-ROC变化值作为奖励。
- 实验结果:在公开测试数据集上取得良好效果。
用图神经网络有什么趋势?
- 未来趋势包括防御潜在的对抗攻击、在新场景中快速自适应地学习特征、更好利用无监督数据、预训练模型等。