您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:网易集团融合数据用户画像实践 - 发现报告
当前位置:首页/其他报告/报告详情/

网易集团融合数据用户画像实践

2023-03-09网易s***
网易集团融合数据用户画像实践

集团融合数据用户画像实践杭州研究院-数据服务部网易人工智能实践 网易人工智能实践 网易人工智能实践 数据联盟网易人工智能实践 客户交易活跃度用户画像性别年龄学历婚姻状况常住地点是否有车是否有孩职业关系网络...地域主题旅游出行动漫影视新闻资讯教育公益电商购物主题域兴趣偏好基础属性是否有房手机信息...真人识别网易人工智能实践 宽域覆盖用户娱乐、在线教育、电商购物、新闻资讯、即时通讯等行业海量亿级别月活十亿级用户千亿级数据多维包含基础信息、偏好兴趣、行为、设备等数据联盟网易人工智能实践 •年龄:25岁•性别:女性•曲目偏好:童谣↑、林俊杰•在线习惯:夜晚听歌•评论频率:很少评论•曲目风格:忧伤•设备:iphonex云音乐画像严选画像•年龄:25岁•性别:女性•阅读习惯:母婴新闻↑、娱乐新闻•设备:iphonex新闻画像•年龄:25岁•性别:女性•课程偏好:无•使用频率:低频•设备:iphonex有道画像云音乐:单独画像下只能在第一时间为用户推荐童谣、林俊杰的歌曲新闻:单独画像下只能为用户推送更多母婴类新闻有道:无法根据单独画像改善服务•年龄:25岁•性别:女性•商品:美妆•付费习惯:月初消费•付费频率:老用户、小额高频•付费金额:每月1000↓•设备位置:医院•设备:iphonex•流失预警:近2个月登录次数减少且没有任何消费严选:单独画像找不到流失原因数据割裂时,单个产品能做的事情有限网易人工智能实践 “听童谣次数增多”、“看母婴新闻频率上升”、“设备位置常在医院”、“不再消费美妆商品”这几个标签符合怀孕用户的画像标签,于是推测这位用户也怀孕了。随后各产品根据“怀孕”标签做服务的优化。云音乐画像•年龄:25岁•性别:女性•设备:iphoneX•商品:美妆“美妆”、“月初消费”、“小额高频”、“每月2000元”↓、“医院”、“即将流失”★“童谣”↑、“林俊杰”、“忧伤”、“很少评论”、“半夜听歌”“母婴”↑、“娱乐”“低频用户”严选云音乐新闻有道近两个月登录次数减少,没有美妆类消费严选有道逐步推送可能需要的母婴类产品,推送对母婴无害的护肤商品当该用户近10个月内登录时,推送怀孕知识、早教课程推送心情舒缓的歌曲,半夜时分提醒妈妈注意晚上休息怀孕不适合使用美妆产品,这是多个产品画像结合下能分析得到的最优结果云音乐网易人工智能实践 网易人工智能实践 基础标签兴趣偏好地域分布关系网络用户洞察分析人群圈选定向种子人群放大十亿级用户用户画像中心增长策略精准投放规模倍增标签、竞品等lookalike分析报告网易人工智能实践 历史数据域内特征推荐系统用户画像中心基础标签行业偏好跨域行为关系网络数据联盟10+业务新客网易人工智能实践 关系网络行为分析设备关联账号互通用户画像中心真人识别真机识别低质人群一人多号、刷单套利等爬虫、模拟器等羊毛党等域内海量用户网易人工智能实践 用户广告主媒体用户画像中心精准定向特征共建用户分析人群定向圈选投放挖掘行业特征,提升ctr、cvr头部用户分析,潜在广告主挖掘网易人工智能实践 网易人工智能实践 用户ID表示idfaimeiphoneidfvoaid...macmusicidursyxidemailuserid...OneID业务1phone1phone2业务2设备号1设备号2URS1URS2设备号1设备号3业务3设备号4业务4设备号2业务5设备号5设备号2设备标识账户标识唯一标识网易人工智能实践 可能遇到的问题解决思路用户可能有多个设备使用过一定次数的设备才和账户关联设备会过期失效(僵尸设备)设定一个设备未使用时间衰减函数,对同时拥有多个设备的账号加大衰减力度异常数据需要识别出一些场景并过滤:1.借用朋友设备2.记录设备数据格式错误;有脏数据3.刷号等行为思路及方案•结合各种账户、各种设备型号之间的关系对,以及设备使用规律(时间和频次)等用户数据•采用规则过滤+数据挖掘算法(连通图划分+社区发现)判别账号是否属于同个人识别结果示意网易人工智能实践 输入构造连通图123456789611573424081234567UID1UID2UID3UID490ID1ID2参数1参数2参数3参数4参数5......权值=෍参数푖∗参数重要因子푖∗时间衰减系数当前时间采集时间采集源数量采集源列表出现次数(7/30/180天)网易人工智能实践 高可信样本集千万级各业务实名认证数据昵称文本自填信息关系网络行为序列兴趣偏好活跃时间三方授权其他标签真人系统模型预测真人系统过滤剔除无效账户融合跨域特征应用多业务数据提取多维度特征基于xgb模型进行性别预测输出预测结果以及置信度结果处理标签效果评估剔除低置信结果处理标签间冲突网易人工智能实践 多源兴趣偏好特征表达算法流程:①通过IDMapping整合用户在不同产品上的兴趣偏好标签,形成标签序列。②由亿级标签序列构建多兴趣偏好Graph,边表示Item之间存在共同用户。③利用random walk策略在Graph中进行节点采样,生成千万级Item序列。④将每个item看成词,整个序列看成句子,利用skip-gram学习获得兴趣标签的embedding值。⑤通过卷积或者Average/Sum pooling 等方式将用户源标签序列融合成单个User向量。网易人工智能实践 算法离线验证线上ABTEST业务场景验证数据分布验证01海量身份认证数据实名认证数据02实时GPS/IP数据上报强特征用户数据03外部接入高置信度用户数据外部接入网易人工智能实践 WE ARE HIRING~~~1.了解网易数帆-机器学习平台:https://www.163yun.com/product/ml2.了解网易数帆-多媒体智能开放平台:https://www.163yun.com/product/yz3.热招岗位: