您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023第十二届全球TOP100软件案例研究峰会]:网易云音乐-陈赢-助力算法效果效率双增长引擎-云音乐磐石机器学习平台 - 发现报告

网易云音乐-陈赢-助力算法效果效率双增长引擎-云音乐磐石机器学习平台

AI智能总结
查看更多
网易云音乐-陈赢-助力算法效果效率双增长引擎-云音乐磐石机器学习平台

陈赢网易云音乐资深算法平台工程师 讲师简介 “18年加入网易云音乐,从事搜索推荐算法工程系统、平台研发工作,先后主导了在线投放系统、在线精排系统研发,从0到1构建模型实时化项目、FeatureStore特征平台,并基于MLOps理论研发符合云音乐生态的磐石机器学习平台,提供从特征样本生产、模型训练、模型评估、模型部署、模型推理等一站式全流程机器学习平台,助力云音乐算法在商业化与内容分发侧效果提升,荣获了集团1024创新技术奖。” 资深算法平台工程师 目录 云音乐算法业务背景 多场景、多团队协作、精细化运营面临着工程挑战 目录 云音乐模型实时化实践 特征实时、模型实时快速捕捉变化,提升核心效果指标 云音乐磐石机器学习平台 泛化模型实时化能力,快速覆盖多种场景 亮点介绍 基于业界MLOps理论,结合云音乐自身业务、技术特点,从机器学习全流程各个环节-特征样本、训练、评估、推理等来分析问题,定制化开发系统与平台来解决。 模型实时化如何提升实时推荐场景分发效率 特征工程如何解决特征共享、特征一致性等问题 案例背景介绍 案例背景-同样是建房子在不同情景下的差异 农村自建房 •3~5个人•铁锹、小推车、砖刀•线尺•材料差异大、难以复制 城市高楼大厦 •几十上百人、各领域专业人士•大型吊塔、混凝土泵车等先进工具•标准化的尺寸图纸、精密的测量仪•可复制模块化结构 案例背景-算法在不同时期情景下的也表现着巨大差异 云音乐产品在发展不同阶段下算法的建模表现 产 品 成 熟 期 产 品 初 期 •云 音 乐D A U几 千W级 别•几 十算 法 场 景 、几 百模 型 、多 个算 法 团 队•如 果 没 有 全 流 程 工 程 化 系 统 、 平 台 支 撑 , 就会 出 现 特 征 失 控 、 复 杂 的D N N上 不 去 、 周期 拉 的很 长、 算 法 效 果受 制 约。 提升云音乐算法在支撑商业化、内容分发业务时的建模效率,助力算法效果提升。 问题与挑战-多场景、多团队协作、精细化运营对工程上效果和效率挑战 实 时 化 程 度 低 建 模 效 率 低 模 型 能 力 受 限 云 音 乐 业 务 成矩 阵式 的 快 速 发 展 , 历史 包 袱 重 , 每 个 算法 团 队 烟 囱 式 开 发 ,导 致 新 业 务 无 法 快速 落 地 。 云 音 乐 大 部 分 的 业 务场 景 还 在 使 用T + N的数 据 , 无 法 有 效 的 反应 用 户 的 实 时 兴 趣 变化 , 推 荐 用 户 感 兴 趣的 内 容 。 由 于 业 务 快 速 发 展 , 相应 的 系 统 能 力 没 有 跟 上 ,如 计 算 性 能 、 一 致 性 、特 征 太 大 、 穿 越 等 问 题 ,导 致 算 法 模 型 没 有 发 挥出 更 大 的 价 值 平台演进思路 平台演进过程 算法实时化落地 MLOps机器学习平台 实时化机器学习平台 大模型+LLMOps 为了将算法实时化的收益快速复制到其他业务场景,我们沉淀了基于实时特征存储、实时预估快照、实时模型训练为底座的实时化机器学习平台。 基于MLOps理论,建立覆盖算法建模全流程的端到端机器学习平台,保证算法模型质量和效果,提升算法团队生产效率。 从驱动业务增长出发,和算法团队一起深入具体的业务场景探索算法实时化方案落地,以提升模型效果。 紧跟业内先进AI技术,支持跨膜态、LLM等预训练大模型的训练、部署和服务套件,以帮助算法团队将其AI能力工程化落地到业务。 模型实时化实践 特征、样本、模型实时快速捕获变化,提升核心指标效果 FeatureLabelModel实时特征快照实时样本归因模型增量训练 模型实时化实践-推荐场景分析-User与Item变化极快 云音乐新业务发展迅速,推荐场景诞生了许多全新的业务形态。直播推荐不同与歌曲推荐和商品推荐,分秒之间,主播千变万化。 模型实时化实践-推荐场景分析-实时必要性分析 天下武功,唯“快”不破!推荐系统实时化能迅速的捕捉用户动态行为模式,更快、更好的为用户推荐其感兴趣的内容。 云音乐业务发展需要算法实时化的能力,有效解决曝光浪费、新内容分发、热点发现等业务问题。 理论角度分析 特征实时是更快的发现用户个人最近的习惯,模型实时是更容易发现全局流行数据的Pattern 实验角度分析 模型的AUC会随着训练间隔的缩短而提升,如果多天不更新模型,AUC损失达1%+ 模型实时化实践-实时特征快照-实时特征导致引起特征穿越 特征穿越带来的危害: •因果倒置,模型不置信•离线AUC很高而线上效果差 模型实时化实践-实时特征快照 从线上出发,异步回放重排之后TopN的item给到旁路环境落盘预估当时的特征 避免落盘排序时全量item的特征,减少IO压力 新增旁路环境,避免对当前请求排序造成RT等影响 模型实时化实践-实时样本归因 同一用户曝光点击行为日志先后到达,如何归因样本Label? Twice Fast-Train矫正(twitter)•实时性高 •准确性依赖矫正策略 负样本Cache归因法(facebook)•样本归因准确 •实时性依赖延迟窗口 模型实时化实践-模型实时增量训练 如何解决增量训练带来的小样本置信问题,防止模型过拟合,提升模型准确性15分钟约38w+、1天3600w+样本,如何保证15分钟内训练完成 Base模型+增量样本累积 通过离线7天模型CKPT+当天增量样本累计训练而不是每个窗口都生成CKPT。 样本置信度处理 调整正负样本比,过滤凌晨稀疏行为样本,冻结部分时间特征等。 模型训练任务性能优化 通过并行样本读取、批量解析、Estimator等方式优化训练任务性能。 模型实时化实践-实验表明模型实时化的确能带来效果上提升 指标收益点击率提升6%+有效观看率提升5%+ 结论:模型更新越快效果更好 磐石机器学习平台 泛化模型实时化能力,快速覆盖到更多业务场景 磐石机器学习平台-从特征工程开始说起 一个模型上线周期,特征工作占比60%+ 你是谁?特征管理 从哪来?特征存储(定制) 到哪去?特征应用(一致性) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 1.1、特征管理-特征元数据管理是让特征浮出水面 多场景、多团队下最头痛的问题? •格式混乱、使用姿势丰富多样,往往让特征臃肿不堪、重复开发 元数据管理 注册schema、特征离线与线上存储信息等,分层管理特征,用于发现共享特征 统一数据读写API 屏蔽底层的存储细节,使用动态protobuf高性能跨平台协议,统一高阶简单API供特征读写 特征一键上线 建立离线与线上存储血缘,自动构建数据上线任务 1.2、特征存储-基于特征的特性定制存储内核 特征数据的工程特性(挑战) •高并发读,预估查询QPS超800w/s且2ms内返回•集中批量导入,如用户行为数据导一次超10亿条•lifelong超长序列特征,单条数据体积超50K•存储ROI•...... 定制高性能的特征存储 推理服务特征本地缓存Tair-DBBulkload导入,避免单条内存写入Tair-DBKV分离,减少compaction磁盘型Tair-RDB和内存型Tair-MDB支持Proto语义,避免getAndSet字段更新 1.3、特征应用-复用特征、算子进行编排保证一致性 同一份特征、算子进行编排,加上算子跨平台运行能力,实现特征计算逻辑一致性 2.1、模型训练-简化训练过程、优化训练效率以缩短模型更新周期 算法训练代码 高阶训练框架、优化输入与导出基 于t e n s o r f l o w、p y t o r c h定 制 高 级 训 练框 架高 效 并 行 读 取样 本 与 模 型导 出 模型训练CI/CD流水线 标准镜像一键生成开发、调试环境、线上调度环境构建样本生成、训练、模型部署调度任务管道 GPU加速及分布式训练 使用A100 MIG替换CPU加速训练任务,通过tf-operator构建训练任务 2.2、模型推理-优化推理性能以计算更多Item 单场景上万qps短时间内返回计算Item数越多,排序效果越好,如何应对挑战? 多级缓存机制 支持特征全量缓存、查询缓存、特征抽取结果缓存等多层缓存,提升数据处理效率 高性能模型输入与模型加载优化 配置化构建Tensor消除Example解析耗时;模型预热切换、模型异步卸载等消除模型加载带来的性能抖动 同进程特征计算与模型计算 特征抽取与模型计算同进程,避免大体积特征跨进程跨网路给到模型输入减少IO延迟 3、模型度量分析-衡量模型“持续精细化运营”的尺子 加 了 一 个 特 征 , 到 底 有 没 有 发 挥 作 用 ? 模 型 本 身 黑 盒 化 难 以 解 释 , 无 脑 加 特 征 不 仅 没 效 果 还 增 加 了成 本 3.1、模型度量分析-怎么解释我加了特征到底起不起作用? 模型可解释性-特征重要性-一键化支持分析框架流程 1、特征重要性值越大,说明特征对模型就越重要2、特征并不是越多越好,有些特征反而起负向作用 成果展示-云音乐磐石机器学习平台助力算法效果效率双增长 更高的模型效果 5%~20% 通过算法实时化、计算&存储引擎性能优化等工程手段,实现AI策略响应更实时、算的更快、存的更多,助力模型效果增长。 覆盖云音乐多个场景带来的效果提升 更短的迭代周期 75% 基于MLOps理论,建立标准化建模流程,并且通过低代码技术实现统一AI建模流程产品,以及特征模型资产复用,助力算法团队提升生产效率。 建模周期平均从一个月缩短一周内 案例启示 在落地实践过程中,快速选择一个场景进行尝试取得成功后,去更多场景复制抽象形成通用标准的解决方案,脱离了业务,往往是空中楼阁。 微 信 官 方 公 众 号 : 壹 佰 案 例关 注 查 看 更 多 年 度 实 践 案 例