总结
问题
图数据广泛存在于社交网络、知识图谱、药物和新材料等领域,图神经网络(GNN)被广泛应用于异常检测、蛋白质结构预测等场景。图卷积神经网络(GCN)、图注意力网络(GAT)和图SAGE等GNN模型通过消息传递机制聚合邻居信息,提升表达能力。然而,传统的消息传递机制(NMP)在大规模图数据上存在高通信开销和训练/预测时间长的问题,且针对任务设计GNN需要专业知识。
方法
为解决GNN的可扩展性问题,本文提出了可扩展图神经架构范式(SGAP),定义了可扩展训练流程的抽象,包括预处理(聚合)、模型训练(更新)和后处理(聚合)三个阶段。SGAP范式通过在图的层次上刻画数据流动,避免了NMP范式中的高通信开销。此外,本文设计了自动化搜索系统PaSca,包括搜索引擎和评估引擎,用于推荐和评估兼顾多个优化目标的Scalable GNN配置。
SGAP范式
SGAP范式包括三个主要操作:
- 预处理:使用图聚合器(如GCN、APPNP、MotifNet)聚合邻居节点的特征。
- 训练:使用消息聚合器(如mean、max、gate)聚合来自预处理阶段的消息,并利用机器学习模型(如MLP)更新节点特征。
- 后处理:将软标签作为新的特征,并再次使用图聚合器聚合邻居的标签信息,得到最终预测。
PaSca系统
PaSca系统包括搜索引擎和评估引擎:
- 搜索引擎:在SGAP的三个阶段设计空间中推荐配置实例,处理不同优化目标之间的权衡。
- 评估引擎:使用图数据聚合器切分大图,并基于已经计算好的消息计算下一阶段的消息;使用神经网络结构训练器进行Mini-batch训练和异步网络更新。
实验
实验结果表明:
- 基于SGAP的APPNP比基于NMP的GraphSAGE更可扩展,加速比更接近理想值。
- PaSca搜索出的代表性方法(如GBP)能兼顾多个搜索目标,如PaSca-V3在预测性能和效率上均优于PaSca-V2和JK-Net。
- 基于SGAP的网络结构在预测性能上具有竞争力,PaSca-V3在不同数据集上取得了最佳性能。
结论
本文设计的PaSca系统实现了自动化建模10亿节点的超大规模图神经网络系统,并在视频推荐和内容风控等场景中广泛应用。系统部分功能已开源,并获得了CCF A类数据挖掘旗舰会议WWW2022的“最佳学生论文奖”。PaSca搜索出的代表性模型在预测性能、效率以及可扩展性等多个方面超越现有的SOTA GNN模型,为研究者探索Scalable GNN结构设计提供了有力工具。
SGL系统设计目标
- 高可扩展性:基于SGAP处理超大规模图数据。
- 自动化:根据指定的多个目标自动化搜索网络结构。
- 易用性:针对多个任务定制的用户友好的接口。
- 针对数据的优化:多种数据处理操作。
- Bag-of-Tricks:内置多种有效的提点方法。