AI智能总结
演讲人-李瑞-斗鱼直播-风控负责人 DataFunSummit#2023 目录CONTENT 03文本识别对抗实践 01直播行业的黑产问题 04思考与展望 02全栈式风控引擎的建设 直播行业的黑产问题 DataFunSummit#2023 直播行业常见的黑灰产问题 业务安全的痛点 木桶效应 业务对接成本高 如果不掌握所有的用户行为入口和数据,总会出现防范的短板,无法识别出黑产账号,也无法有效支撑业务安全。 不同类型的业务需要独立的风控名单/接口服务,相应的风控策略也不同,每个业务的策略服务如果单独开发效率低,并且配置凌乱难以管理。 性能要求高 用户体验差 •对接业务众多,吞吐量巨大,RT不能影响业务•实时计算时效性要求高 •用户被风控后缺少反馈途径的引导。•投诉反馈排查效率低、耗费风控人员精力 防御时效性差 •风险感知能力不全面,风控迭代慢•实时性策略较少,依赖离线挖掘周期长。 02全栈式风控引擎的建设 DataFunSummit#2023 全栈式风控引擎架构 全栈式风控引擎降低对接成本 低成本一站式接入 业务收拢 业务注册调用后,就可以获得全面的风险管控、监控告警、反馈排查等配套服务支持。 强运营强宣发,推动业务对接,解决木桶效应。 全栈式风控引擎降低对接成本 可视化引擎 勾选编辑上手门槛低 常用策略模型高度复用 策略发布流程规范 支持高度定制类规则 智能风控:提升对抗效率 高吞吐设计-行为指标实时计算 诈骗:user.level<10 && user最近n分钟观看房间数==0 && user近m小时订单金额≥1000的扫码ip去重数≥3 高吞吐设计-行为指标实时计算 多流滑动窗口 高吞吐设计-规则引擎选型 源代码性能最好规则检错机制友好迁移成本低 高吞吐设计-预装载缓存优化 @Cacheable(value="u_i",depict="用户信息缓存",enableFirstCache=true,firstCache=@FirstCache(expireTime=7200,timeUnit= TimeUnit.SECONDS,initialCapacity=60000,maximumSize=60000),secondaryCache=@SecondaryCache(expireTime=18000,timeUnit= TimeUnit.SECONDS,isAllowNullValue=true))publicUserInfo getUserInfo(long uid){… 请求量:日均2.5E平均耗时:5ms->1.5ms缓存命中率:32%->87% 高吞吐设计-风险标签存储优化 统一使用Redis管理,每种异常标签一个bitmap,缩短查询耗时、减少存储空间,但读取多种标签,就会产生多次IO •一个用户开辟一个bitmap,一把读出所有风险标签•所有用户存放在多段bitmap中,分桶存储,进一步节省key开销 古早时期,每种异常行为一个set,也有使用Hbase、Mysql等DB,空间浪费、管理混乱、慢查询较多 一个用户占位256bit平均耗时:20ms->6ms内存使用:250G->30G 提升用户体验 友好的风控引导提示 策略优化闭环 •明确用户行为受限原因•提示违规行为的影响•提供申诉入口 持续优化风控策略模型,推导策略实际准确率,分析命中规则误杀情况 用户自助申诉 客诉量监控 •用户自主申诉替代人工客服,节约人力提升效率 实时监控客诉量,将客诉量维持在较低的水平 系统自动解决客诉 根据命中策略风险程度、团伙规模等自动判定是否解除限制 03文本识别对抗实践 文本识别挑战 1.广告变体 主播簧薇ET28六八加薇信②⑥O②⑨O⑦③O7本人私房【大chi度】激晴自拍视频!想看加徽亻言baby1➕3➕7➕8➕7➕0➕2➕0➕1➕8➕0点我头像让你爽🍓🍓站À j 6 ,ꏲꊐ😍篁沚J𝟿🇦•⣖⣖ •谐音变体、象形变体、拆字变体•联系方式字母数字变体字符•联系方式符号间隔•拼音混合•表情符号代替文字 p研拉链夹到疍zao屎zao,超生一拳大事你🐴司马没母你顶的我好爽 2.低俗辱骂变体 •谐音变体、象形变体、拆字变体•拼音缩写•拼音同与同音词混合•表情符号代指 文本识别服务架构 自研敏感词匹配算法 挑战 •敏感词通配符?*通配逻辑实现 •通配长度↑误杀率↑风险↓,通配长度↓误杀率↓风险↑,最大通配长度需在各个场景、时期、用户上分别配置 •数十万敏感词,调用量大,直接影响C端用户体验,耗时敏感 自研敏感词算法 基于NFA的通配敏感词匹配算法 敏感词自动发现 异形字公共子串 04思考与展望 思考与展望 1.自动分析目前还处于半自动挖掘 虽然自动化分析可以给出初步的风险策略建议,但还不够成熟,存在特征重复、阈值不合理、召回率较低等问题,需要持续迭代优化 2.拥抱向量检索 •文本相似检索•违规行为匹配 3.大模型应用 •大模型识别文本变体的能力显著•当前特征标签本身还是人工维护创建的,受限于人员的思路宽度,存在无法召回的情况,是否可以借用大模型自动化构建特征标签和策略? 感谢观看




