背景
传统交易欺诈检测依赖于结构化数据(如用户画像、购买历史)和手工特征(如用户过去7天浏览商品总数),并采用传统机器学习模型(如GBDT、LR)。然而,传统风险管理很少利用用户行为数据,因为行为数据具有高维、高速、高变(3V)的特点,而用户行为能够描述独特的数字签名。深度学习为有效处理用户行为数据提供了机会,行业已有成功实践。
用户行为分析
通过分析用户行为序列数据,发现非账户接管(ATO)用户与ATO用户在浏览页面数量、停留时间及特定页面(如ViewItem、Search)的浏览次数上存在显著差异。例如,非ATO用户的平均浏览页面数量是ATO用户的1.5倍,停留时间更长,且在特定页面的浏览次数高出20%。可视化分析显示,ATO用户的浏览路径更短,更专注于结账。
模型介绍
提出基于行为序列数据的欺诈检测方法,包括:
- 监督深度学习(DL):
- 采用深度和宽模型(如Transformer-encoder)提取特征,并构建深度模型作为特征提取器。
- 通过时间注意力机制进行行为序列嵌入,预测下一个事件,最小化错误预测的似然损失。
- 无监督深度学习(DL):
- 利用序列嵌入聚类技术,将用户交易页面序列嵌入到低维空间并聚类,识别高风险簇。
- 通过GPU加速的HDBSCAN算法,实现500倍性能提升,适用于实时应用。
- 可解释深度行为序列聚类:
- 通过Skope-rules提取解释性规则,对高风险簇进行解释,并提供Top K规则进行语义去重。
结果分析
- 聚类性能:GPU加速的HDBSCAN在调整兰德指数(ARI)上表现稳定,训练数据0.4M,80D,测试数据0.1M,采样比例良好。
- 训练与推理流程:
- 训练数据为P1.0 + P2.0历史30天数据,种子为未授权交易,采样比例固定,预测相似度。
- ROI约为10(节省金额/(伤害金额×R)),采用滚动时间窗口(训练T1-T30,测试T31)。
结论
通过深度学习行为聚类作为现有实时欺诈检测引擎的补充策略,可进一步提升欺诈检测和主动风险防御能力。