知识图谱的开源生态
知识图谱主要用于刻画事物关系、沉淀领域知识,其应用广泛,包括机器人及IOT设备的智能化、对话式信息获取、临床 proteomics 数据解释等。知识体系组织形式包括 Taxonomy(树状结构)、Folksonomy(大众标签)和 Ontology(规范化描述)。
工程化本体构建流程
- 收集领域本体术语
- 定义本体概念层级(继承、等价、兄弟关系)
- 定义本体属性关联(属性类型、推理关系、互逆关系)
- 定义本体约束条件(取值类型、范围、缺省值)
知识图谱的构建范式
- 基于已有的工具、数据开发原型
- 根据业务需求开发功能模块实现应用系统
知识图谱的开源数据与工具
知识图谱构建流水线
包括本体建模、知识抽取、知识融合、知识校验、知识更新等环节。
本体标注工具
Protégé、NeOnToolkit、Altova SemanticWorks、思维导图等。
知识标注开源工具
Brat、Doccano 等。
知识抽取工具
DeepDive、Snorkel、OpenNRE、DeepKE 等。
知识抽取工具:DeepKE
- 支持低资源、长篇章的知识抽取(命名实体识别、关系抽取、属性抽取)
- 在线文档和 GoogleColab 教程丰富
知识图谱融合工具
OpenEA、PRASEMap 等。
知识图谱表示与推理工具
- 传统 KGE:TransE、DistMult、RotatE 等
- 基于图结构的 GNN-KGE:R-GCN 等
- 注入规则的 Rule-KGE:RUGE 等
- 工具:OpenKE、NeuralKG 等
知识图谱表示与推理工具:NeuralKG
- 包含 C-KGE(TransE)、GNN-KGE(R-GCN)、Rule-KGE(RUGE) 等模型
- 超参搜索功能
知识图谱搜索与可视化工具
Elasticsearch、FAISS、D3.js、Vis.js 等。
知识图谱开放数据
开源开放的本体资源
- 谷歌知识图谱(Things, Not Strings)
- Freebase
- MetaWeb
- WikiData
- Schema.org
- YAGO
- WordNet
- ConceptNet
- BabelNet
- 大词林
- OpenHowNet
开放多模态知识图谱:OpenRichpedia
基于百科的大规模多模态知识图谱。
中文领域开放知识图谱:OpenKG.CN
总结与未来展望
- 树立知识图谱开源思维,打破数据算法壁垒
- 具备自主可控和原始创新的知识图基础技术
- 数据与知识的交互融合,主观认知与机器感知