行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

2-3 You are AllSet！超圖GNN的新視角

信息技术 2022-07-18 DataFunSummit2022：图机器学习峰会 Fanfan(关放）

超圖機器學習：AllSet框架的重新檢視

超圖機器學習介紹

圖機器學習（特別是GNN）在圖相關任務中取得成功，因圖適合刻劃物件間兩兩交互關係。然而，現實中的非兩兩交互關係（如學術網絡中的多作者論文）需要超圖來刻劃。超圖中，超邊可包含超過2個點。

現有超圖機器學習方法的局限性

處理超圖數據最簡單的方式是透過集團擴張（CE）轉換成一般圖，但這會丟失信息，導致算法次優表現。CE透過連接張量或關聯矩陣表示d-uniform超圖，並定義消息傳播機制。許多現有超圖GNN（如HGNN）基於CE設計。然而，網絡科學中有許多直接定義於超圖上的信息傳播方法（如多線性PageRank），這些方法與張量特徵問題相關，且在某些情況下表現優於CE。

AllSet框架的提出

為了解決CE的局限性，本文提出了AllSet框架，其核心思想是許多超圖消息傳播皆可看作兩個多重集函數（multiset function）的组合：푓푉→퐸（學習每個超邊的表示）和푓퐸→푉（學習每個節點的表示）。多重集函數的輸入排序不影響輸出，允許重複輸入。

AllSet框架的理論表達能力

定理3.3：CE-based和Z-based傳播定義皆可被AllSet還原。
定理3.4：AllSet框架的表達能力嚴格大於許多現有的超圖神經網絡（如HGNN, HyperGCN, HCHA, HyperSAGE, HNHN）。
定理3.5：AllSet是MPNN架構的超圖推廣。

可學習的AllSet層設計

為設計可學習的AllSet層，本文利用Deep Sets和Set Transformer的萬能模擬性質，分別設計AllDeepSets和AllSetTransformer來學習푓푉→퐸和푓퐸→푉。實驗顯示Set Transformer在超圖實驗中表現更佳，可能因為其使用注意力機制進行權重累加。

實驗結果

數據集：本文使用了五個常用引用網絡數據集、三個UCI數據集（Zoo, 20News, Mushroom）、兩個CV相關數據集（NTU2012, ModelNet40）以及三個新提出的超圖數據集（Yelp, House, Walmart）。
結果：AllSetTransformer在節點分類任務中一般來說具有最優性能，而現有的超圖神經網絡在非學術網絡數據集上表現不佳。例如，UniGCNII在Yelp和Walmart上的表現明顯差於AllSetTransformer，說明了根據數據自適應學習超圖傳播機制的重要性。

結論與未來方向

結論：本文提出了泛用的AllSet框架，證明了其強大的理論表達能力，並設計了可學習的AllSet層AllSetTransformer，實驗顯示其性能優於SOTA超圖神經網絡。此外，本文引入了新的超圖數據集，為超圖神經網絡的測試基準化做了初步貢獻。
未來方向：
- 探索比Set Transformer性能更好的多重集函數模型（如Janossypooling）。
- 將GNN的解決方案（如ClusterGCN, GraphSAINT）應用於AllSet框架中。
- 根據AllSet學到的多重集函數判斷所學到的傳播機制，增強可解釋性。
- 探索AllSet在其他超圖任務（如超邊預測，超圖的圖分類問題）中的性能與改良設計。