AI智能总结知识表示学习旨在将知识图谱(KG)中的实体和关系表示为低维向量,以便在机器学习任务中使用。知识图谱是一种语义图,包含实体(ℰ)、关系(ℛ)和事实/三元组(&)。知识表示学习的目标是通过学习实体的嵌入,保留原始图谱中的尽可能多的信息。
知识表示学习的主要任务包括知识图谱补全、链接预测/三元组分类、实体对齐和实体分类。链接预测的目标是预测缺失的链接,通常通过预测三元组的得分来进行评估。评估指标包括头实体预测、尾实体预测和三元组排名。
知识图谱推理问题包含以下重要组件:评分函数、损失函数、正则化和优化算法。评分函数用于衡量三元组的合理性,常见的评分函数包括基于三元组、基于路径和基于子图的模型。负采样用于平衡正则化数据,正则化用于防止模型过拟合。随机梯度下降是常用的优化算法。
自动化机器学习(AutoML)旨在自动设计机器学习模型。AutoML问题可以被视为一个黑盒优化问题,需要高效地搜索模型的超参数或设计。AutoML的两个重要方面是搜索空间和搜索算法。搜索空间需要足够通用,以涵盖人类智慧,但不能过于通用,否则搜索成本会很高。搜索算法需要高效地找到空间中的良好点。
AutoKGE问题旨在自动设计知识图谱嵌入的评分函数。AutoKGE问题可以被视为一个双层优化问题,其中搜索空间是超参数和评分函数,搜索目标是验证性能,搜索约束是搜索时间,训练目标是经典学习模型的训练目标。
知识图谱嵌入模型可以分为基于三元组、基于路径和基于子图的模型。
基于三元组的模型使用评分函数来衡量三元组的合理性。常见的评分函数包括ResCAL、TransE、DistMult、ComplEx、SimplE、Analogy和QuatE。双线性模型(BLM)是其中一种重要的模型,包括DistMult、SimplE、ComplEx、Analogy和QuatE。AutoSF方法将BLM统一为一个形式,并使用AutoML方法搜索结构矩阵。
基于路径的模型使用关系路径来表示知识图谱中的长期信息。TransE模型使用条件随机场(CRF)来建模关系路径。RSN模型使用递归神经网络(RNN)来建模关系路径。Interstellar模型使用一种混合搜索算法来搜索递归架构。
基于子图的模型使用子图来表示知识图谱中的信息。GraIL模型使用图神经网络(GNN)来对子图进行归纳推理。RED-GNN模型使用关系有向图来增强路径,并使用GNN来对子图进行推理。
基于三元组的模型速度快,但表达能力有限。基于路径的模型能够建模长期信息,但难以建模短期信息。基于子图的模型能够进行归纳推理,但效率是一个挑战。
AutoML可以用于知识图谱表示学习中的模型设计,但搜索空间和搜索算法需要考虑领域特定的知识。未来工作包括自动化设计GNN架构、在大规模知识图谱上进行推理、在动态/事件知识图谱上进行推理,以及在生物/金融知识图谱上应用。

