01 尾部流量及沉淀数据的特点
-
尾部流量:
- 流量现状:从增量转向存量,尾量客户经营成本高、效率低,存在风险过高、多头借贷、件均偏低等问题。
- 目标:减少费用,最大化挖掘沉淀数据价值。
-
沉淀数据:
- 数据来源:覆盖授信申请、贷中调额、贷后等阶段,包括客户基本信息、行为数据、三方资信等。
- 问题:资信数据昂贵,需高效利用。
02 低通过率情况下的样本扩容
- 方法:
- 共生融合风险标签:拓宽样本量,有效拒绝推断。
- 放松坏人定义:在0-1二分类中模糊好坏边界(如29天与30天差距不大)。
- 长短期指标选择:长期指标建模效果优于短期子产品。
03 沉淀数据时效性分群
- 分群依据:用户在子产品授信节点前最近一笔动支申请的时间(trade1、trade2、trade3)。
- 现象:
- 风险排序:trade1 > trade2 > trade3。
- 模型效果:Trade2 > Trade3 > Trade1。
- 结论:分群后建模效果提升,Trade1客群模型效果显著优于混合客群。
04 低通过率头部优质客户排序优化
- 方案:
-
头部样本叠加ensemble模型:
- Step1:全量样本建模(model01)。
- Step2:头部样本单独建模(model02)。
- Step3:融合model01与model02。
- 注意:需试验有效性。
-
权重法:
- Step1:全量样本建模(model01)。
- Step2:头部样本加权。
- Step3:基于加权数据建模(model02)。
-
算法优化:
- 修改目标/评价函数,加大头部错判坏样本惩罚,提升好用户评分(参考Focal Loss)。
- 方法包括平衡交叉熵、focal loss、融合方法。