多任务学习在风控场景的应用探索
01 算法瓶颈
风控场景中,树模型占据主流,但深度学习方法难以有效提升风控效果,算法仍有提升空间,需从场景和问题出发寻找定制化解决方案。
02 样本选择偏差
业务场景中用户漏斗导致建模样本占比小,与线上推理空间存在明显偏差,影响模型效果并可能形成恶性循环。传统解决方法如拒绝推断需依赖经验阈值或半监督,但多任务学习可借助其他样本覆盖更全标签,辅助逾期模型训练。
03 多任务学习概况
- 定义:基于参数共享,将多个相关任务放在一起学习的机器学习方法,通过归纳迁移提升泛化能力。
- 优势:一次解决多个任务,增强模型泛化能力,迁移知识提高主任务效果,解决冷启动和训练困难问题。
- 常规方法:改进共享层(MOE/MMOE)、输出层(ESMM)等。
04 应用案例
- 多任务捞回模型:继承主模型效果,通过标签和风险标签向外扩散式下探捞回。
- Transformer多任务模型:基于文本数据,10个标签共同训练,AUC提高0.02左右。
05 时序多任务学习方法
- 场景分析:风险阶段为主任务,申请和动支为辅助任务,利用阶段间时间序列关系。
- 网络结构:共享底部参数学习共性,独立塔学习差异,信息桥传递阶段间依赖。
- 分层注意力机制:阶段内聚合信息,阶段间增加有向连接传递信息。
- 损失函数:以风险阶段为例,增加交叉熵正则。
- 效果增益:重复实验对比主流方法,AUC增益约2%。
- 消融实验与参数敏感性实验:验证模型结构和参数设计的有效性。
06 总结
- 解决样本选择偏差:通过样本偏差小的相关任务辅助逾期任务训练。
- 网络结构设计:实现多阶段多标签任务共同训练。
- 信息传递机制:分层注意力机制实现信息聚合和有向传递。