您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ArchSummit深圳2023|全球架构师峰会]:蚂蚁安全领域智能化数据治理-蚂蚁集团_霄元_20230722_v4 - 发现报告

蚂蚁安全领域智能化数据治理-蚂蚁集团_霄元_20230722_v4

AI智能总结
查看更多
蚂蚁安全领域智能化数据治理-蚂蚁集团_霄元_20230722_v4

高级数据技术专家/霄元(黄国龙) 个人简介 黄国龙高级数据技术专家 20年加入蚂蚁,目前是安全大数据团队数据智能资产、内容数据资产负责人0-1主导建设蚂蚁集团内容安全数据资产专项关注大数据研发、数据架构、数据治理等领域 目录 数据治理通用能力 蚂蚁数据治理架构及能力 安全领域智能化数据治理实践 数据治理业务案例 数据治理创新探索 数据治理探索与创新 蚂蚁数据治理架构及能力_面临挑战 成本增速快 •存储资源:蚂蚁存储达EB级别,年增速40%+;•计算资源:计算资源千KCU/日. 业务需求多 •新业务资源需求旺盛;•人工智能发展快,数据需求呈现爆炸性增长。 成本看不清 •资源使用细节看不清;•成本很难分摊到业务。 蚂蚁数据治理架构及能力_治理思路 蚂蚁数据治理架构及能力_治理方案 关键能力建设方案:从事前->事中->事后,构建成本治理全链路能力。 蚂蚁数据治理架构及能力_治理架构 蚂蚁数据治理架构及能力_资源治理领域案例 集群资源混部 推进在离线混合部署,计算算力会提升10%,机器成本降低25%. 蚂蚁数据治理架构及能力_资源治理领域案例 关键技术 提升治理自动化率,实现自动识别、归因分析、自动清理,形成常态化管控能力。 引擎优化 模型优化 数仓模型 计存设计 参数优化 •业务领域建模•抽象公共层•通用应用层•配置化指标系统•大宽表设计 •Split Size•小文件合并•Reducerinstantce•CPU数•Dynamic parallelism •渐进计算•累计计算•Zorder•Shuffle优化•Bitmap索引•全改增•极限存储 UDF优化 代码设计 计算浪费 聚合优化 调度优化 重复资产 •全量改采样•with替代tmp表•视图化改造•避免数据膨胀•执行顺序优化 •任务归并•HBO优化•集群混部•错峰运行•冷热分层 •临时表•系统表•长周期表•回收站优化•大字段生命周期 •内置替换•提前计算•参数调优•本地缓存 •同链路相似表•相似任务节点•分区不更新•缓慢变化维表 蚂蚁数据治理架构及能力_资源治理领域案例 关键技术-实例 冷存体系 渐进计算 设置成渐进计算后,每日计算消耗从795CU降到22CU. 推进在离线混合部署,计算算力会提升10%,机器成本降低25%. 原理:空间换时间,自动生成中间表,避免重复计算,其中中间表可采用hash cluster,提升merge阶段Shuffle效率;Odps支持一键渐进计算、设置一个参数即可。 Hot Tier:高频消费的热点数据、优化I/O;Warm Tier:热数据、读取频率正常;Archive Tier:数据需长期保留,访问频次底;Cold Storage:长期保留,超低频访问。 蚂蚁数据治理架构及能力_基础平台能力实例 (事前)发布管控 由平台或业务方事先制定发布管控规则,相关任务上线提交时、平台自动检验结果,如有规则未校验通过,此次上线发布失败。 蚂蚁数据治理架构及能力_基础平台能力实例 (事中)实时巡检 禁止随意提交超大任务导致整个资源池的堵塞和打满,进而造成高昂的成本消耗,同时也兼顾效率,仅对异常使用进行管治。 异常大任务自动查杀实例 蚂蚁数据治理架构及能力_基础平台能力实例 (事后)成本健康分 基于累计浪费和时间加成,设计成本健康分算法。通过健康分管理数据平台使用权限。 蚂蚁领域数据治理架构及能力_治理成果 安全领域治理成果总结 已全部达成年度目标,预估节约数据成本25%+。 安全领域智能化数据治理实践 安全领域智能化数据治理实践 安全领域智能化数据治理实践 数据集建设阶段,搭建采集标注自动化数据链路降本增效;标准化建设蚂蚁安全域超大规模数据集消除数据孤岛…… 采标一体自动化数据链路蚂蚁安全域超大规模数据集 数据集治理 在线运行阶段,搭建元数据之应用全链路血缘,助力在线模型策略成本治理优化…… 应用全链路血缘在线模型成本治理方案 在线链路治理 安全领域智能化数据治理实践_数据集治理 数据集简介 高品质、多样性、大规模的数据集建设是AI技术应用竞争关键要素之一,在建设大规模数据集过程中,百PB级别的安全数据资产必将带来高昂成本支出、及各种质量风险隐患...... 数据集主要有:采集、标注、大规模数据集、训练数据集、评测数据集。 安全领域智能化数据治理实践_数据集治理 数据采集、人工标注是数据集建设关键环节之一、也是首要事项,相关事项涉及合作方众多、且时间也不可控,在人工对接中费时费力。 采标一体化链路 采标一体化自动化数据链路,从关键词计算、对接采集、转存及通知、对接标注、数据ETL全链路实现自动化,降本增效明显、且数据品质也有保障,大大缩减人力成本、将原来采集标注2周以上时效降到5天以内。 安全领域智能化数据治理实践_数据集治理 实例:*数据集数据建模设计 智能数据建模设计架构 标准数仓建模设计确保数据品质,通过大规模数据集支撑业务。 数据集实例,整合资金各业务特征、标签形成全域样本集。 大规模数据集 安全领域智能化数据治理实践_在线链路治理 在线链路治理简介 良好的治理离不开对数据资产合理评估,通过对当前安全领域的数据资产进行了效能评估,产出了数据效能分,量化数据资产在风控系统中发挥的作用,从而推动无效资产的治理,计算、保障优先级设定,成本优化等。 安全领域智能化数据治理实践_在线链路治理 数据资产类型包括策略、特征、模型、协议等90+种资产类型,种类多、数据资产量巨大、关系链路复杂,利用我们的二部图模型,构造了一张全局的资产大图,从连接起各个信息孤岛,打破平台间的血缘鸿沟。 全链路血缘 安全领域智能化数据治理实践_在线链路治理 在线链路治理流程 影响因子定义 编码器推理 指标数据 效能分变换 使用回归模型对特征进行回归训练,获各特征重要度;基于特征重要度优化模型和调权重,使效能分产出更合理;通过BOX-COX变换对数据分布进行调整(0~100分正态分布)。 基于上述影响因子特征,统计得到了从不同维度评估数据资产效能的源数据。 影响因子分:血缘静态引用量、线上流量调用量以及决策日志量三个层次。 自编码器,对一组特征进行学习,得到有效表征。 影响因子分层: ①根据数据血缘,计算出该数据资产与其它数据资产在静态血缘上的引用量;②计算该数据资产线上产生的实际流量,例如特征的调用量、模型的调用量;③计算关联该数据资产的决策日志的量级,作为该资产在风控体系中发挥效能的重要特征。备注:为了更合理的评估数据资产长短期的效能情况,分别从天/周/月/季的维度作为特征。 数据治理探索与创新_ETL AUTOPIPELINE 数据治理探索与创新_创新案例大模型Copilot 小表D:安全大数据一站式智能研发助手,结合安全特色,深度整合其他数据类大模型,以小表D为切入口,为用户提供丰富的大模型功能,贯穿用户整个数据研发生命周期,在数据分析、任务研发、任务运维、风险发现等日常生产环节提供一站式数据辅助服务,让数据研发更加智能高效。 小表D