CONTENTS 01020304 01 知 识 图 谱 概 览 1.什么是知识图谱? 知识图谱(KnowledgeGraph)于2012年5月首先由Google提出 知识图谱旨在描述真实世界中存在的各种实体或概念,以及它们之间的关联关系。其中: •每个实体或概念用一个全局唯一确定的ID来标识,称为标识符;•每个属性—值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。 1.1通用知识图谱VS行业知识图谱 面向通用领域以常识性知识为主“结构化的百科知识”强调知识的广度使用者是普通用户 面向某一特定领域基于行业数据构建“基于语义技术的行业知识库”强调知识的深度潜在使用者是行业人员 1.2行业知识图谱助力人工智能应用 1.3知识图谱产业概览 知识图谱数据与服务 构建大规模通用知识图谱和领域图谱,为机器认知提供背景知识 底层支撑系统与产品 1支撑知识图谱运作的混合型系统,提供高效稳定的查询;2领域知识图谱构建的工具集成系统,提供知识图谱构建能力 知识图谱咨询与方案 提供领域知识图谱构建与应用咨询服务或落地解决方案,给华为、电信、移动、阿里巴巴、滴滴等数十家应用单位提供了知识图谱解决方案。 智能数据获取系统图数据库系统知识库构建工具集 02 构 建 领 域 知 识 图 谱 1、什么是领域知识图谱? •KnowledgeGraph is alarge scalesemanticnetwork •Consisting ofentities/conceptsas well as thesemantic relationshipsamong them NoKG (Not only KG):从“小”知识到“大”知识 •传统知识工程,专家构建,代价高昂,规模有限;知识边界易于突破,难以适应大数据时代开放应用到规模化需求 •大规模开放应用需要“大”知识(大规模知识库) Small knowledge+ big data= bigknowledge知识图谱引领知识工程复兴 2、DKG与GKG的关系?-区别 •DKG与GKG在知识表示、获取与应用等方面有着显著差异 领域行业应用对于知识需求难以闭合 行业应用中的知识需求难以封闭于预设的领域知识边界内 •GKG对于DKG有着显著支撑作用 3、为何需要符号化表示的知识图谱? •符号表示与分布式表示是两种重要的知识表示方式 4、为什么需要领域知识图谱DKG 大数据时代需要知识引擎释放大数据价值形成行业认知能力实现简单工作自动化 人工智能时代需要机器智脑实现自然人机交互 将领域知识赋予机器,解放人类脑力 领域知识的积累与沉淀是智能化的必经路径 以政府领域知识图谱为例 5、领域知识图谱系统的生命周期? 起点 6、DKG中知识如何表示? •三元组SPO表示 •跨媒体表示 •<七里香,MV导演,邝盛>•<七里香,发行时间,2004年08月03日>•<七里香,填词,方文山>•<七里香,歌曲原唱,周杰伦> •文本、图片、视频 •时空语义扩展 •时间维度/空间维度 通过文字、图片和视频来表示实体“Tesla ModelS” (贝拉克·奥巴马,职业,美国总统,2009年1月20日,2017年1月20日)(唐纳德·特朗普,职业,美国总统,2017年1月20日,--)(复旦大学,类别,公立大学,121.4989(经度),31.2932(纬度) (TeslaModelS,图片,“//123.jpg”) 7.行业知识图谱生命周期 7.1知识建模 常用方法 自顶向下的方法:专家手工编辑形成数据模式自底向上的方法:基于行业现有的标准进行转换从现有的高质量行业数据源(如业务系统数据库表)中进行映射 需要考虑 行业全数据分析,制定统一的知识分类体系 能够支撑事件、时序等复杂知识表达 多人在线协同编辑,并且实时更新 能够导入集成使用现有的(结构化)知识 支持大数据量可以与自动算法进行结合,避免全人工操作 7.1知识建模:本体知识库结构设计 SNOMED CT(Systematized NomenclatureofMedicine--ClinicalTerms)医学系统命名法-临床术语,是当前国际上广为使用的一种临床医学术语标准。提供了一套全面统一的医学术语系统,涵盖大多数方面的临床信息,如疾病、症状、指标、操作、微生物、药物等 7.2知识获取 从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。 7.2知识抽取的方法:多策略学习方法 多策略学习 利用不同数据源之间的冗余信息,使用较易抽取的信息(结构化数据库)来辅助抽取那些不易抽取的信息。 多数据源:结构化数据、半结构数据、文本数据 7.2知识抽取:病历结构化 7.3知识融合 知识融合需要考虑什么 数据模式层融合 数据层融合 •概念合并•概念上下位关系合并•概念的属性定义合并 •实现不同来源、不同形态数据的融合•海量数据的高效融合•新增知识的实时融合•多语言的融合 •实体合并•实体属性融合•冲突检测与解决 行业知识图谱的数据模式通常采用自顶向下和自底向上结合的方式,因此基本都经过人工的校验,保证了可靠性;因此,知识融合的关键任务在数据层的融合。 7.3知识融合——疾病库知识的融合 7.3知识融合——疾病库知识的融合 知识在线融合-知识卡片 7.4知识存储 知识图谱数据存储需要完成的基本数据存储: 三元组知识的存储事件信息的存储时态信息的存储使用知识图谱组织的数据的存储 知识图谱上层应用需要支持: 知识推理知识快速查询图实时计算 7.4事件及时序知识存储方案 通常,我们采用匿名节点的方式来对事件进行存储 7.4大规模知识图谱存储解决方案 知识图谱是基于图的数据结构,其存储方式主要有两种方式: RDF存储&图数据库(Graph Database) 7.5知识计算 基于规则的推理 基于本体的推理 使用规则引擎,编写相应的业务规则,通过推理辅助业务决策。 7.6知识应用 智能问答 可视化决策支持 语义搜索 通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。 基于知识图谱中的知识,解决传统搜索中遇到的关键字语义多样性及语义消歧的难题;通过实体链接实现知识与文档的混合检索。 针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的答案。 8、DKG如何评价? 9、DKG如何存储? 10、DKG如何查询? •SPARQL•优点:表达能力强、可推理•缺点:较复杂、难书写、复杂查询执行代价高昂 e.g.,找到所有朋克摇滚(PunkRock)风格的乐队和它的成员名 11、DKG如何应用? DKG落地实践案例 12、DKG落地有哪些最佳实践? •应用引领•避难就简•结构化->半结构化->非结构化•避免从零开始•以通用图谱中的领域图谱作为种子•问题:如何有效发现领域实体与关系?•跨领域迁移•从邻近领域迁移•问题:如何迁移具有共性的知识? 13、DKG还存在哪些挑战? 知识获取 知识应用 知识表示 •知识图谱只能表达简单关联事实,对于时空语义、跨媒体语义支撑力度不够 •领域样本缺失现象严重,手工构建代价高昂;稀疏样本下的高质量自动化构建缺乏有效手段 如何实现稀疏样本下的图谱自动构建? 03 知 识 图 谱 在 医 疗 行 业 应 用 国外医疗知识图谱案例:IBMWaston 通过对医学文献进行打分评级,迅速整理病患医疗记录,以提高肿瘤学家的工作效率; 通过分析海量医学文献,确定个性化诊疗方案,助力肿瘤学家为患者提供高质量、循证型癌症治疗方案; 通过美国纪念斯隆-凯特琳癌症中心获得世界顶级肿瘤学专业国际水准肿瘤治疗专业知识。 Waston进行实体抽取 阿霉素导致细胞外信号调节激酶(ERK)2的激活,反过来磷酸化p53在以前未知的站点,Thr55...... Waston构建医疗知识图谱 基于专家知识进行图谱扩展 Waston评估知识的置信度 表现:Waston通过短时间分析海量语料,给出精准答案 •选择两个或多个感兴趣的基因•查看关系网•展示关系的强度、性质、距离•有色向量表示相互作用的性质•悬停在关系上查看证据 •从两个不同的概念中选择实体(即,疾病/基因)•可视化共现关系•利用统计数据确定交叉点•深入查看数据 “医疗”+知识图谱应用 医疗知识图谱应用:搜索范式迁移(2) 医疗知识图谱应用:搜索范式迁移(3) 医疗知识图谱应用:轻问诊(1) 与传统就医模式不同,轻问诊是将智能问答的应用与互联网相结合,面向患者提供的一种新型在线式的基础医疗问答服务,该应用依托于基于知识图谱的智能问答。 医疗知识图谱应用:轻问诊(2) 智能问答 •告诉我你的症状是什么? •我觉得疲劳,而且头疼、关节疼,还伴随有呕吐。 医疗知识图谱应用:轻问诊(3) 智能问答 虚拟医生使用Wiki数据知识 虚拟医生 医疗知识图谱应用:轻问诊(4) 医疗知识图谱应用:知识服务平台 针对中医药知识体系系统梳理、建模和展示以图形可视化方式展示核心概念之间的关系辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。与阅读文献等手段相比,可大幅度节约知识检索获取时间。 医疗知识图谱应用:药物发现(1) OpenPHACTS新药物发现 欧盟重大联合攻关项目 面向药物研发的开放数据访问平台开发,其核心技术就是采用语义技术为有关研究人员提供高效的数据访问技术环境的支持。 医疗知识图谱应用:药物发现(2) 医疗知识图谱应用:药物发现(3) 医疗知识图谱应用:辅助诊断(1) 针对诊断与治疗环节的医疗机器人 医疗大数据诊疗,其中包括基于认知计算,以IBMWatsonforOncology为代表的的辅助诊疗解决方案 医疗知识图谱应用:辅助诊断(2) 医疗知识图谱应用:辅助诊断(3) 医疗知识图谱应用:医疗行情分析(1) 1000+综合+行业新闻源 16万国产药品目录 30万药企资质信息 医疗知识图谱应用:医疗行情分析(2) 原材料供应链可视化分析 支持某医药企业全部一百多种重点物料的全景图展示政策变更、异常天气等预警信息在图中直观显示,且实时更新可根据需求只查看特定类型的节点或高亮某一影响链路,影响关系/组成关系一目了然 医疗知识图谱应用:医疗行情分析(3) 04 知 识 图 谱 在 其 他 领 域 应 用 基于代码知识图谱的搜索与推荐管理 •贴合全球最大规模软件项目实际情况代码的搜索引擎,管理对象为代码仓库,包括代码,项目,程序员等。 •实现某代码平台的精准、高效搜索 •平均代码搜索时间从10份中降低到一分钟 运营商业务分析智能化解决方案 •项目背景 •通过知识图谱实现更丰富的搜索召回和更精准的个性化推荐,为运营商业务知识管理和分析提供支撑 •关键技术/模块 •Kade知识库编辑系统•搜索、推荐技术 •落地应用成果•已作为基础组建集成进入某大型民营企业知识管理平台 商业情报分析智能化解决方案 •项目背景 •该系统实现面向企业商业情报分析,旨在降低企业获取商机的门槛,帮助企业发现并对接客户、友商、供应商。 •关键技术 •智能信息获取•文本标签化、实体链接•关联分析、知识推理•用户画像与个性化推荐 •落地应用成果 •与河南省某孵化器公司深度对接,帮助其旗下数百家中小型企业发现商业机会。 司法智能辅助审判 •项目背景 •为提高简单案件的审判效率,减少宝贵的司法资源的浪费,本项目建立了一套智能判案辅助机器人系统,为当事人提供专业的案件咨询,案件风险评估,法院服务和法律援助等。 •关键技术 •专家系统、知识