登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
6-3 内容聚合决策在社交业务风控的实践
文化传媒
2022-07-19
DataFunSummit2022:智能风控技术峰会
七个橙子一朵发🍊
社交业务的内容风险与聚合决策实践
01 社交业务的内容风险
主要风险类型
:招嫖信息与色情导流,是社交场景中最主要内容风险,常以图文音等形式出现,并包含联系方式提取、色情话术识别等特征。
单模态内容识别体系
:包括色情图像识别、图文音二维码识别、OCR导流话术识别、联系方式提取、色情话术识别、ASR-色情音频识别。
内容对抗难点
:作弊信息融合手段不可穷尽,拦截算法对爆发式对抗响应差,多场景多模态联合作案利用真实环境干扰对抗图文联合。
02 内容聚合检索
内容表征-Embedding
:基于Transformer的内容表征算法体系,包括图像(MAE)、音频(Conformer)、文字(BERT/SimCSE/RoBERTa)。
相似计算
:将内容转化为向量后,通过欧式距离、曼哈顿距离、余弦距离、点积距离等度量向量间距离。
聚类算法
:
K-MEDOIDS:预先设定聚类数量,用于相似图文归为一类消除对抗性。
DBScan:未设定聚类簇数量,适用于流式聚类。
Single-Pass:时间复杂度O(N^2)问题通过Token化+倒排索引或HNSW等向量检索算法解决。
KNN与ANN算法
:
KNN:Brute Force和KD-Tree,用于精确的最近邻检索。
ANN:哈希算法、量化算法、图算法、SW系列、树算法、混合算法,常见开源库包括Faiss、Annoy、ScaNN、Hnswlib、Milvus。
03 内容决策
基于聚合簇的有效特征
:簇成员采样(≤K不采样,>K水库抽样)、簇中心点选取、簇数量上限取舍、冷启/回扫/存活时间管理。
决策流程
:
UGC内容向量化聚合检索引擎审核簇信息库,统计信息增速、封禁率。
结合用户画像体系、用户行为特征、用户基础信息、业务线(动态、评论等)、最近记录、全量标签等特征,训练决策服务。
输出违规作弊概率,精度>0.s直接封禁,其他阈值分级处理,并获取人工审核反馈迭代。
审核平台
:文本聚合、图片聚合、联系方式聚合,下发模型组装训练样本收集特征。
04 后续工作
新的挑战
:多用户跨场景的联合作案,如用户A内容吸引目光,用户B/C/D/E评论引导文本/联系方式片段。
基于人与内容的异构图相似表征
:
用户相似召回:借鉴倒排索引发掘相似人群,建立人的内容向量发掘相似人群,社区发现-Spam群体发现。
联系方式簇管理。
你可能感兴趣
1-1 度小满风控决策引擎的演进与实践
商贸零售
DataFunSummit2022:智能风控技术峰会
2022-07-19
电商行业2020快手用户及营销报告:星云生态,内容/社交/商业的新聚合
商贸零售
清华大学
2020-12-18
8-1 蚂蚁知识图谱在金融交易风控的应用实践
商贸零售
DataFunSummit2022:智能风控技术峰会
2022-07-19
图聚类在虎牙风控的实践
商贸零售
DataFunSummit2023:智能风控峰会
2023-08-09
数据治理一体化在Mobtech金融风控场景下的实践
商贸零售
袤博科技
2021-09-13