预训练模型目标与核心问题
预训练模型的发展经历了从NNLM到BERT等多个阶段,其核心目标是利用全域数据进行自监督学习,辅助下游任务,整合不同任务信息到同一通用表征空间,并解决新用户/新场景/长尾情景中的稀疏标注样本问题。预训练的核心问题包括如何利用全域数据自监督学习、如何找到最契合目标任务的网络结构以及如何找到通用的迁移泛化结构。
推荐系统场景中的预训练模型
推荐场景中的预训练模型可以根据数据的组织形式、跨域信息的迁移方式等进行分类。图神经网络在推荐场景中的优势在于契合数据结构、结合图论知识提取高阶关系信息,以及兼容传统深度神经网络结构,融合节点特征表达。团队算法演进方向从Node2Vec到大规模图神经网络预训练,逐步接入多业务并采用GAT、GraphSage等模型结构。
预训练模型的服务模式
预训练模型的服务模式主要包括将预训练结果作为下游模型的特征、作为召回子模型补充多域信息,以及保留模型抽象能力。预训练结果可以作为离散/连续特征分别建模,也可以转换为离散特征或产出topK的IDlist作为离散特征。此外,预训练结果还可以用于兴趣召回和跨域兴趣召回。
图神经网络预训练案例分享
案例一:跨域兴趣召回GNN,通过GNN实现跨域兴趣和社交信息建模,为新用户补充召回。构建了包含用户、直播间、属性等节点的异构网络,并设计了User侧和Item侧的Metapath,通过连接共同side-item/属性的节点构建邻接矩阵,构造重构loss,解决过度拟合目标域行为的问题。借鉴多目标模型的思想,为每个重构loss赋予可学习的权重,自动调节。
案例二:多目标GNN特征提取,通过GNN提取用户订阅号行为作为特征,为广告精排模型提供额外信息。构建了包含用户、广告、公众号文章等节点的异构网络,设计了User侧和Item侧的Metapath,通过补充公众号跨域样本同步训练,共享用户侧底层embedding和卷积参数,增强用户特征提取。通过MMDloss平滑跨域用户embedding分布,拆分域内行为构建私有embedding,强化域内特征提取。
微信Plato图计算团队
微信Plato高性能计算团队专注于图计算、图机器学习的应用研发,致力于打造高性能的微信超大规模社交网络图计算平台,推进图算法的工业级应用,助力业务腾飞。