预训练技术助力风控对抗能力升级
01 背景介绍
京东零售风控面临C端和B端风控挑战,包括恶意刷券、外挂软件、广告辱骂、价格门、用户访问深度反刷单、恶意套取返利、客服防骚扰等。用户行为是风控识别的基础,但存在失效快、新场景标签稀缺、建模效率低等问题。预训练技术可带来长期有效机制和小样本训练能力,提升特征和模型平台化自动生成效率。
02 NLP预训练
数据&字典
采集超过10亿条内外部文本数据,定制字典解决开源BERT数据、字典不匹配电商、风控的问题,覆盖率提升5%,字典减小55%。
输入
引入字音/字形Embedding,提升对异音异形字的识别,解决模型失效快的问题。
任务调度
引入任务调度系统,解决评论、舆情、地址等十几个场景效果不均衡的问题。
训练加速
采用ZeRO和操作融合技术,训练耗时由十几天减少到1天之内。
推理加速
运用知识蒸馏方法,模型参数压缩90%,推理速度提升3倍,效果接近原始模型。
效果
在CLUE benchmark和内部数据集上,效果提升5.2%,业务指标提升6.8%;推理速度提升4.5倍,Embedding服务接口核心能力提升3.1倍,同精度下召回提升108%。
03 用户行为预训练
背景介绍
行为是风控识别能力的基础,但原始方式存在效率低、效果差、底层支持少等问题。预训练技术可提升效率、效果和底层支撑。
模型
采用多模态特征融合、大模型、多种训练方法,构建强大预训练行为模型基座,灵活有效的微调模块组成强大行为预训练模型。
框架
统一行为风险评分输出以及定制化自动微调模型,解决风控碎片化细分场景的建模问题。
效果
建模周期降低8.2倍,失效时间缩短6倍,同精度下召回提升108%,标注样本需求量减少11倍。
04 预训练平台化
RiskNLP
Python工具包,支持EA可视化空间训练、PB格式模型部署、多任务模型、NER等复杂功能,简单易用,功能健全,速度优化。
RiskCDA
NLP数据生成工具包,支持超过10种扩充策略,支持本地和线上两种扩充方式,支持自定义扩充字典,支持多种基于深度学习的前沿扩充方式。
RiskBehavior
用户行为预训练模型的Python工具包,支持点击序列预处理,仅需提供订单信息,简单易用,功能健全,速度优化。
05 展望
挖掘更深层次、多模态的特征,容纳更多数据知识;探索更大参数、更强结构模型以及蒸馏加速能力;提升易用能力,更加快速便捷地应用到业务;开源框架、脱敏模型。