Data-Centric AI在内容风控场景的应用
Data-Centric AI核心思想
Data-Centric AI强调通过优化数据而非仅模型来提升AI系统性能,其公式为AI System = Code + Data,与传统的Model-Centric AI(侧重模型优化)形成对比。
内容安全场景数据特点
- 数据分布极不均衡:有害数据占比极低(0.1%、0.01%等),需进行极端细粒度与难例挖掘
- 易误判相似类型:相似案例极多,需精准区分
- 小目标识别难:有害区域像素占比极小(如<0.1%)
- 开放域识别挑战:类别多样且频繁变化
- 域泛化与迁移:数据来自海量互联网,需解决模型泛化问题
- 对抗性对抗:黑灰产对抗频繁,类别边界模糊
数据管理全流程
数据刻画
- 构建多级标签体系(包含/互斥/歧义分析)
- 细化边界描述,降低标注难度
- 分析易误判标签,提升标注可用性
数据收集
- 定向爬虫、多模态跨任务爬虫
- 样本挖掘、数据回流(质检/客户反馈)
- 冷启动策略扩充数据分布
数据生成与拓展
- 伪标签生成(检测/分类/特征匹配模块)
- 数据增广(算术/混合/模糊等8种方法)
数据标注
- 细化标注文档,结合预标注降低成本
- 均匀采样,交叉验证提升准确性
- 高频交叉训练,缩短周期
数据增强
数据选择与清洗
- 采用主动学习、OOD+主动学习等策略
- 优化指标:不确定性/多样性/分布/精度/平衡
数据分析
- 分析精度/召回指标、历史反馈、模型差异
- 定向补充易误判类型数据
数据迭代
- 测试流程:基础测试→离线测试→预发测试→线上验证
- 关键指标:百万量级数据、特定类型高频分析
AI架构与数据价值
- 自监督学习:构建数据相关性与任务相关性更高的基础模型集合
- 半监督学习:充分发掘无标签数据价值
- 弱监督学习:利用更细粒度内容信息
- 无监督学习:应对开放域小样本问题(如TinySet检测未知对象)
算法能力验证
- 获得中国人工智能大赛多项最高级A级证书(深度伪造视频/音频/旗帜识别等)
- 获得人工智能创新之星、浙江省科学技术进步奖一等奖