您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:游戏商城AI推荐系统演进之路 - 发现报告
当前位置:首页/其他报告/报告详情/

游戏商城AI推荐系统演进之路

2023-03-09网易d***
游戏商城AI推荐系统演进之路

游戏商城AI推荐系统演进之路人工智能,点亮游戏未来Lab-用户画像TTG 然一/高坚果2021/03/03网易人工智能实践 在此输入标题全智能场景推荐网易人工智能实践 业务背景1技术挑战1.0到2.0在线学习捕捉用户即时兴趣32.0到3.0强化学习精准优化运营目标24分享大纲网易人工智能实践 业务背景网易人工智能实践 游戏智能推荐:现状及思路人为跟踪AI监测粗粒度运营千人千面由运营人员根据经验配置道具投放,缺乏决策依据AI学习玩家偏好,根据偏好进行道具投放,并提供效果对照,及时发现最优方案由运营人员根据经验配置道具投放,缺乏决策依据基于每一个玩家画像和行为偏好,进行预测,为每个玩家提供个性化的结果,做到千人千面网易人工智能实践 •分层商城共3层,每层3个商品在此输入标题业务背景•交互式解锁上一层全部解锁后,才可购买下一层•限时刷新固定刷新周期,有限刷新次数•付费转化提升代币回收,促进月卡转化网易人工智能实践 技术挑战网易人工智能实践 快速优化迭代模型算法快速迭代业务逻辑业务需求随游戏生命周期变化玩家兴趣实时变化游戏场景变化频繁兴趣变化,概念漂移3层商品作为整体提高第3层商品的转化率最大化转化效率在此输入标题技术挑战网易人工智能实践 在此输入标题技术路线网易人工智能实践 1.0到2.0在线学习捕捉用户即时兴趣网易人工智能实践 在此输入标题基础模型V1.0日志收集数据仓库业务方数据预处理用户画像/行为道具池道具画像特征抽取特征工程数据处理样本处理模型训练预测结果模型精排规则重排请求解析AB分流报表系统访问请求返回结果推荐引擎算法模块日志上报•用户画像:等级、vip等级、充值金额、角色、性别、在线时长、抽卡频次、使用平台等•用户行为统计特征:道具点击率、道具转化率、道具使用频次等•道具画像:类别、价格、属性、品质等级、代币类型等•交叉特征:性别×点击率,抽卡频次×点击率等网易人工智能实践 1◼采用Embedding & MLP范式架构◼Other feature:用户特征、商品特征、上下文特征、交叉特征◼行为序列:1、序列item特征;2、位置特征◼pos푣푖=푡푣푡−푡푣푖;0,1,1,2,2,4,...,[2푘,2푘+1)◼伸缩点乘注意力机制◼与基线模型对比,达到最高准确率引入transformer机制,提升模型效果网易人工智能实践 •实时样本生成特征穿越特征线上线下不一致样本归因在此输入标题在线学习•实时模型训练小时级别增量训练模型稳健性•实时推送上线模型微服务模型版本管理实时模型训练&推送上线抽象复用实时样本生成在线特征库特征抽取模型在线推理特征抽取包实时样本用户实时行为日志ETL数据清洗采样、去重Join样本标注样本拼接实时特征模型增量训练模型评估模型保存模型库更新模型微服务更新网易人工智能实践 模型更新方案训练样本train_losstest_auc训练用时全量更新增量样本(一小时)0.52040.94334s全量更新增量样本(一天)0.49540.9705184s全量更新原所有样本+增量样本0.49050.9725294s增量更新增量样本0.48260.96932s增量更新原所有样本+增量样本0.48660.9725149s模型局部更新增量样本0.46750.970517s模型局部更新原所有样本+增量样本0.48790.9725433s•全量更新实时性差在此输入标题在线学习•增量更新收敛到新样本最优点•模型局部更新降低训练效率低的部分的更新频率提高训练效率高的部分的更新频率•在线学习实时性最优,难收敛,参数稀疏程度差网易人工智能实践 •标准表用户画像标准表:role_id,server,os_name,role_level,vip_level,class,...商品画像标准表:item_id,cate,shop_id,status,price,buy_type...用户行为标准表:role_id,item_id,bhv_type,bhv_time,trace_id,spm,scm...在此输入标题系统框架•特征管理模块数据接入标准数据需求文档标准表生产特征表生产数据集生产模型训练模型评估模型部署在线模型推理规则重排特征管理模块自动化特征ETLrslib离线训练框架在线学习训练框架ABTest实验平台标准基础服务框架推荐结果可视化联动模块效果指标用户画像标准表商品画像标准表用户行为标准表用户画像特征表商品画像特征表用户行为特征表特征注册模块自动生成配置文件支持自定义修改支持特征新增与删除特征筛选模块根据配置文件,灵活组合特征支持新增、删除特征配置组合任务训练集生产模块保持训练集与线上模型预估特征一致性支持回归、二分类、多分类、多标签数据集格式数据任务流水线编排Debug模式自动化生成sql文件支持Tfrecord文件自动化生成通过数源api实现数据任务自动化例行特征管理平台UserFeature表CrossFeature表SequenceFeature表Sample表Trainset表Predict表TFrecord文件Trainset任务例行特征同步任务例行网易人工智能实践 •Rslib离线训练框架在此输入标题系统框架网易人工智能实践 在此输入标题系统框架•ABTest实验平台模型更新、业务逻辑更新•基础服务框架统一工程开发模板配置标准化•可视化报表自动化sql编写和任务例行自动化参数配置模型服务通过分流规则挂载至应用服务下应用服务通过分流规则注册至AB平台Getaway网关应用服务1应用服务n模型服务1模型服务n用户请求......Traffic_id请求Traffic_id返回推荐结果Traffic_id请求Traffic_id返回模型打分网易人工智能实践 简化工程开发实现全流程开发和部署支持系统框架解决概念漂移实现特征实时性、模型实时性在线学习精准刻画用户捕捉用户行为序列的时序信息Transformer模型业务经验沉淀针对游戏推荐场景的业务规则引擎规则引擎在此输入标题在线学习v2.0网易人工智能实践 2.0到3.0强化学习精准优化运营目标网易人工智能实践 •监督学习方案监督方法:使用用户的历史购物记录和用户画像,计算每个商品的点击率,根据业务规则选取top 9的物品在此输入标题回顾与反思•一个案例需要考虑福果前面的商品需要考虑福果后面的商品全连接网络5序列网络2购买当前道具的概率当前道具编码序列网络1道具编码Sigmoid当前道具二元组参数需要学习没有参数,无需学习道具编码编码编码道具编码编码编码购买道具编码序列使用道具编码序列......购买道具二元组序列使用道具二元组序列用户画像用户画像全连接网络1全连接网络2全连接网络3道具曝光特征用户兴趣偏好网易人工智能实践 在此输入标题回顾与反思•一个案例需要考虑福果前面的商品需要考虑福果后面的商品•监督学习方案的缺陷监督方法:只考虑了历史数据中体现的用户兴趣偏好没有考虑同时推荐的其他物品,会影响这个物品的购买与否全连接网络5道具编码编码编码道具编码编码编码曝光道具编码序列购买曝光道具编码序列序列网络2序列网络3序列网络4......购买当前道具的概率道具道具的类型二元组编码器道具道具的类型二元组编码器道具道具的类型二元组编码器当前道具编码序列网络1道具编码Sigmoid购买曝光道具二元组序列曝光道具二元组序列当前道具二元组参数需要学习没有参数,无需学习...道具编码编码编码道具编码编码编码购买道具编码序列使用道具编码序列......购买道具二元组序列使用道具二元组序列用户画像用户画像全连接网络1全连接网络2全连接网络3全连接网络4道具曝光特征用户兴趣偏好网易人工智能实践 在此输入标题解决方案-组合优化与强化学习2、在神秘商店场景下,每一个商品的购买与否与其他所有商品息息相关。Reward不能直接分解到每个步骤1、在商品之间没有强制关联的场景下,目前比较常见的一种做法是,假设当前商品的购买与否只与这个商品之前的商品有关。最终获取的Reward可以直接分解到各个步骤网易人工智能实践 在此输入标题监督学习Vs. 强化学习•与监督方法的区别•推理:•监督方法:使用用户的历史购物记录和用户画像,计算每个商品的点击率,根据业务规则选取top 9的物品•RL方法:用户的历史购物记录和用户画像作为初始state ,用RL模型选择9 个商品•训练:•监督方法:1 使用用户的历史购物记录和用户画像,计算每个商品的点击率•2 用点击率拟合用户的购买/不购买行为•RL方法:1 用户的历史购物记录和用户画像作为初始state ,用RL模型选择9 个商品2 根据9个商品的Reward,调整模型参数,使得9个商品得到更高的Reward网易人工智能实践 •状态state•用户特征(历史购买等行为,用户画像)•已选物品特征•动作action•选择一个物品•奖励Reward•IF 当前所选物品符合业务规则:•Reward=1•Done=0•ELSE :•Reward=0•Done=1•IF 已选择9个物品:•Reward=9个物品带来的收益(卖掉的商品的价值总和)•Done=1在此输入标题强化学习建模网易人工智能实践 强化学习算法的学习过程需要与环境(即用户)进行大量交互在初始,算法会产生较差的推荐结果在此输入标题离线预训练需要一种方案,使得算法模型在上线前具备推荐能力•DQfD:Deep Q-learning from Demonstrations•World Model & Virtual Taobao如何上线?网易人工智能实践 在此输入标题离线预训练•DQfD:Deep Q-learning from Demonstrations对样本质量要求较高仅适用于DQN 模型•World Model & Virtual Taobao ✔样本利用率高模拟环境的训练和强化学习的训练解耦在这个场景下,每一个商品的购买与否与其他所有商品息息相关。只有在session 的最后才能获得Reward,且Reward 不能直接分解到每个步骤环境模型决策模型复杂模型,对真实环境进行建模简单模型,对credit assignment进行建模网易人工智能实践 •一、Policy通过与真实Env 进行交互获取真实数据(向玩家推荐商品,看是否购买)•二、使用真实交互数据训练World Model(构建样本集,训练CTR模型)•三、Policy通过与World Model 进行交互获取虚拟数据,并使用虚拟数据对Policy进行优化(使用强化学习方法进行训练)在此输入标题训练过程网易人工智能实践 •一、Policy 通过与真实Env 进行交互获取真实数据(向玩家推荐商品,看是否购买)•此外,还有部分真实交互数据不是通过Policy获得,•线上会有接近一半的交互数据来源于传统的统建策略•二、使用真实交互数据训练World Model(构建样本集,训练CTR模型在此输入标题训练过程全连接网络5道具编码编码编码道具编码编码编码曝光道具编码序列购买曝光道具编码序列序列网络2序列网络3序列网络4......购买当前道具的概率道具道具的类型二元组编码器道具道具的类型二元组编码器道具道具的类型二元组编码器当前道具编码序列网络1道具编码Sigmoid购买曝光道具二元组序列曝光道具二元组序列当前道具二元组参数需要学习没有参数,无需学习...道具编码编码编码道具编码编码编码购买道具编码序列使用道具编码序列......购买道具二元组序列使用道具二元组序列用户画像用户画像全连接网络1全连接网络2全连接网络3全连接网络4道具曝光特征用户兴趣偏好网易人工智能实践 •三、Policy 通过与World Model 进行交互获取虚拟数据,并使用虚拟数据对Policy进行优化(使用强化学习方法进行训练)•此处可以使用多种强化学习算法,•目前采用的是指针网络+PG 的方式在此输入标题训练过程道具A1编码编码A2编码道具An编码可推荐道具编码序列序列编码器...道具A1道具A1的类型三元组编码器道具A2道具A2的类型三元组编码器道具An道具An的类型