行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

5-3 内容风控场景下的Data Centric AI

文化传媒 2022-07-19 DataFunSummit2022：智能风控技术峰会尊敬冯

Data-Centric AI在内容风控场景的应用

Data-Centric AI核心思想

Data-Centric AI强调通过优化数据而非仅模型来提升AI系统性能，其公式为AI System = Code + Data，与传统的Model-Centric AI（侧重模型优化）形成对比。

内容安全场景数据特点

数据分布极不均衡：有害数据占比极低（0.1%、0.01%等），需进行极端细粒度与难例挖掘
易误判相似类型：相似案例极多，需精准区分
小目标识别难：有害区域像素占比极小（如<0.1%）
开放域识别挑战：类别多样且频繁变化
域泛化与迁移：数据来自海量互联网，需解决模型泛化问题
对抗性对抗：黑灰产对抗频繁，类别边界模糊

数据管理全流程

数据刻画

构建多级标签体系（包含/互斥/歧义分析）
细化边界描述，降低标注难度
分析易误判标签，提升标注可用性

数据收集

定向爬虫、多模态跨任务爬虫
样本挖掘、数据回流（质检/客户反馈）
冷启动策略扩充数据分布

数据生成与拓展

伪标签生成（检测/分类/特征匹配模块）
数据增广（算术/混合/模糊等8种方法）

数据标注

细化标注文档，结合预标注降低成本
均匀采样，交叉验证提升准确性
高频交叉训练，缩短周期

数据增强

应用算术、混合、模糊等8种增强技术

数据选择与清洗

采用主动学习、OOD+主动学习等策略
优化指标：不确定性/多样性/分布/精度/平衡

数据分析

分析精度/召回指标、历史反馈、模型差异
定向补充易误判类型数据

数据迭代

测试流程：基础测试→离线测试→预发测试→线上验证
关键指标：百万量级数据、特定类型高频分析

AI架构与数据价值

自监督学习：构建数据相关性与任务相关性更高的基础模型集合
半监督学习：充分发掘无标签数据价值
弱监督学习：利用更细粒度内容信息
无监督学习：应对开放域小样本问题（如TinySet检测未知对象）

算法能力验证

获得中国人工智能大赛多项最高级A级证书（深度伪造视频/音频/旗帜识别等）
获得人工智能创新之星、浙江省科学技术进步奖一等奖

报告封面

点击免费查看完整报告

你可能感兴趣

hot

数据治理一体化在Mobtech金融风控场景下的实践

商贸零售

袤博科技2021-09-13

hot

大模型场景下生成式AI多模态内容鉴伪实践分享

商贸零售

腾讯2025-12-29

hot

百度AI营销认证 | 生成式AI营销下的广告风控

商贸零售

百度2023-12-08

hot

情绪消费时代下的商业【留量】密码—超级场景×超级内容=超级留量

商贸零售

汇纳科技2022-06-30

hot

5-3 工业数据与智能算法驱动下的生产调度优化研究

商贸零售

DataFunSummit2022：决策智能在线峰会2022-11-02