AI智能总结
链接数据洞察价值LINKED DATA & S M ART DATA 胡芳槐上海海翼知信息科技有限公司hufh@hiekn.com 王昊奋深圳狗尾草智能科技有限公司Wang_haofen@gowild.cn Tutorial简介 以行业知识图谱为主 偏向于行业知识图谱应用及相关的技术 结合行业应用的一些最佳实践及相关的组件 针对行业知识图谱在行业中的应用进行实战演示 Tutorial主要内容 行业知识图谱概述,包括行业图谱简介,行业知识图谱的应用及挑战,以及行业知识图谱生命周期管理。 行业知识图谱关键技术,包括行业知识图谱生命周期中各过程的相关技术、现有可用的工具,以及各过程中的最佳实践及相关组件。 行业知识图谱应用实战,以金融证券行业应用为例,演示知识图谱从知识建模、知识抽取到行业应用的全过程。 Tutorial目标听众 知识图谱学习者,对知识图谱在行业应用感兴趣的技术人员。 各行业应用中想引入知识图谱相关技术的知识及数据管理人员,尤其是有行业知识库构建及上层问答搜索等有需求的。 希望了解知识图谱如何在行业中应用的管理决策者。 Tutorial预期目标 了解行业知识图谱相关概念及其在行业中的现有应用,理解其给行业应用带来的价值。 理解知识图谱在行业中应用的相关挑战与生命周期,理解生命周期各过程的基本目标及相关组件。 对行业知识图谱应用相关的技术进行熟悉,了解有哪些现有的工具可以使用和相关注意事项、以及一些行业应用的最佳实践。 Tutorial听众的知识基础 RDF:资源描述框架 OWL:RDF Schema的扩展 SPARQL:RDF查询语言 ▍行业知识图谱简介 ▍行业知识图谱应用▍KG应用挑战▍行业知识图谱生命周期 行业知识图谱概述 谷歌知识图谱: Thins not strings 知识图谱助力人工智能应用 通用知识图谱 Google所提出的知识图谱是面向全领域的通用知识图谱。 通用知识图谱主要应用于面向互联网的搜索、推荐、问答等业务场景。 通用知识图谱,它强调的是广度,因而强调更多的是实体,很难生成完整的全局性的本体层的统一管理。 通用知识图谱相关项目 行业知识图谱:Palantir 行业知识图谱 行业知识图谱指面向特定领域的知识图谱。 用户目标对象需要考虑行业中各种级别的人员,不同人员对应的操作和业务场景不同,因而需要一定的深度与完备性。 行业知识图谱对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持。 有严格与丰富的数据模式,行业知识图谱中的实体通常属性比较多且具有行业意义。 行业知识图谱数据的特点 数据来源多:内部数据、互联网数据、第三方数据 数据类型多:包含结构化、半结构化、非结构化数据,且后两者越来越多 数据模式无法预先确定:模式在数据出现之后才能确定;数据模式随数据增长不断演变 数据量大:在大数据背景下,行业应用的数据的数量通常都以亿级别计算,存在通常在TB、PB级别甚至更多 行业知识图谱应用一览 行业知识图谱相关项目 通用知识图谱VS行业知识图谱 面向通用领域以常识性知识为主“结构化的百科知识”强调知识的广度使用者是普通用户 面向某一特定领域基于行业数据构建“基于语义技术的行业知识库”强调知识的深度潜在使用者是行业人员 通用知识图谱+行业知识图谱 通用知识图谱的广度,行业知识图谱的深度,相互补充,形成更加完善的知识图谱。 通用知识图谱中的知识,可以作为行业知识图谱构建的基础;而构建的行业知识图谱,再融合到通用知识图谱中。 ▍行业知识图谱简介 ▍行业知识图谱应用 行业知识图谱概述 ▍KG应用需求与挑战 ▍行业知识图谱生命周期 金融证券——企业知识图谱 企业知识图谱应用——企业风险评估 基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据,利用图计算等方法构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。 用户群体 银行、担保、投行、政府…… 应用环节 客户资源分类管理信贷前期风险评估采购企业风险审核招投标企业资质评级 企业知识图谱应用——企业社交图谱查询 基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业关联。 企业知识图谱应用——企业最终控制人查询 基于股权投资关系寻找持股比例最大的股东,最终追溯至自然人或国有资产管理部门。 企业知识图谱应用——企业之间路径发现 在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度。 企业知识图谱应用——初创企业融资发展历程 基于企业知识图谱中的投融资事件发生的时间顺序,记录企业的融资发展历程。 企业知识图谱应用——上市企业智能问答 金融证券——金融交易知识图谱 金融交易知识图谱应用——辅助信贷审核 •基于知识图谱数据的统一查询,全面掌握客户信息;避免由于系统、数据等孤立造成的信息不一致造成信用重复使用、信息不完整等问题。 金融交易知识图谱应用——反欺诈(1) 不一致性验证可以用来判断一个借款人的欺诈风险,类似交叉验证。比如借款人A和借款人B填写的是同一个公司电话,但借款人A填写的公司和借款人B填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。 金融交易知识图谱应用——反欺诈(2) 组团进行欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。如下图可以看出贷款人A、B和C之间没有直接的关系,但通过知识图谱可以很容易的看出这三者之间都共享着某一部分信息,存在一定的组团骗贷风险。 金融证券——其它应用场景 异常分析(异常交易、异常客户)失联客户管理精准营销智能投研智能公告…… 生物医疗——医疗知识图谱 医疗专业知识医疗文献医疗常识 医疗知识图谱应用——中医药知识平台 针对中医药知识体系系统梳理、建模和展示以图形可视化方式展示核心概念之间的关系辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。与阅读文献等手段相比,可大幅度节约知识检索获取时间。 生物医疗——Watson辅助诊断与治疗 安德森癌症中心联合IBM Watson开展终结癌症的任务。 生物医疗——Open PHACTS新药物发现 欧盟重大联合攻关项目 面向药物研发的开放数据访问平台开发,其核心技术就是采用语义技术为有关研究人员提供高效的数据访问技术环境的支持。 图书情报——图情资源知识图谱 图情资源知识图谱应用——知识导航与资源展示 使用知识图谱中的知识体系进行知识导航,引导用户学习知识体系,以及通过实体链接所关联的资源。 图情资源知识图谱应用——知识点推荐与搜索 图情资源知识图谱应用——图情资源统计 知识图谱行业应用——其它行业 农业 识别作物危害 政府行业政府大数据管理 ▍行业知识图谱简介 ▍行业知识图谱应用 行业知识图谱概述 ▍KG应用挑战 ▍行业知识图谱生命周期 从数据库发展到大数据时代,企业希望融合使用全量数据 公司内部数据、新闻网站、论坛帖子、微博…多源异构数据难以融合 信息聚合、数据融合需求迫切! 企业全量数据应用挑战2:数据模式动态变迁困难 当前数据模式动态变迁困难,当客户新需求、业务新认知时程序员需痛苦的修改数据结构及业务逻辑,带来扩展性差、对客户响应慢、维护成本高等不良情况。 企业全量数据应用挑战3:非结构化数据计算机难以理解 计算机无法理解非结构化数据的语义 企业迫切需要将非结构化数据结构化 企业大数据应用挑战4:数据使用专业程度过高 企业大数据应用挑战5:分散的数据难以统一消费利用 基于知识图谱数据存储、融合、分析统一平台,为用户提供统一的消费入口,以不同的形态(检索、可视化、分析等)展示给用户。 解决方案:基于行业知识图谱进行数据融合使用 挑战1:使用知识图谱(本体)对各种类型的数据进行抽象建模,基于可动态变化的“概念—实体—属性—关系”数据模型,实现各类数据的统一建模。 挑战2:使用可支持数据模式动态变化的知识图谱的数据存储,实现对大数据及数据模式动态变化的支持。 挑战3:利用信息抽取技术,对非结构化数据及半结构化数据进行抽取和转换,形成知识图谱形式的知识。 挑战4、5:在知识融合的基础上,基于语义检索、智能问答、图计算、推理、可视化等技术,提供统一的数据检索、分析和利用平台。 知识图谱助力企业商业智能 ▍行业知识图谱简介 ▍行业知识图谱应用 行业知识图谱概述 ▍KG应用挑战 ▍行业知识图谱生命周期 知识图谱基础技术规范 RDF RDF是语义网标准中的第一层 RDF代表 •Resource:页面、图片、视频等任何具有URI标识符•Description:属性、特征和资源之间的关系•Framework:模型、语言和这些描述的语法 RDF是一个三元组(triple)模型,即每一份知识可以被分解为如下形式:( subject(主), predicate(谓), object(宾)) RDF是一个链接资源描述的图模型,其三元组可看作图中的弧。 (顶点,边,顶点) RDF其它语法:Turtle、TriGN-Triples、N-Quads、JSON、RDFa OWL:RDF Schema的扩展 复杂类:交、并、补属性约束:存在量化、全称量化基数约束:最大基数约束、最小基数约束属性特征:反、对称、非对称、不相交、自反属性链 复杂类 复杂类 对称属性 属性链 SPARQL简介 RDF的查询语言:基于RDF数据模型可以对不同的数据集撰写复杂的连接( joins)由所有主流图数据库支持SPARQL Protocol and RDF Query Language SPARQL Query – graph visualization 本体(ontology)可以填充知识与查询之间的语义间隙 1.知识建模 即建立知识图谱的数据模式。行业知识图谱的数据模式对整个知识图谱的结构进行定义,因此需要保证可靠性。 常用方法 自顶向下的方法:专家手工编辑形成数据模式自底向上的方法:基于行业现有的标准进行转换从现有的高质量行业数据源(如业务系统数据库表)中进行映射 知识建模关键技术与难点 多人在线协同编辑,并且实时更新能够导入集成使用现有的(结构化)知识支持大数据量能够支撑事件、时序等复杂知识表达可以与自动算法进行结合,避免全人工操作 2.知识获取 从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。 知识获取关键技术与难点 从结构化数据库中获取知识:D2R难点:复杂表数据的处理从链接数据中获取知识:图映射难点:数据对齐从半结构化(网站)数据中获取知识:使用包装器难点:方便的包装器定义方法,包装器自动生成、更新与维护从文本中获取知识:信息抽取难点:结果的准确率与覆盖率 3.知识融合 数据模式层融合 数据层融合 •实体合并•实体属性融合•冲突检测与解决 •概念合并•概念上下位关系合并•概念的属性定义合并 行业知识图谱的数据模式通常采用自顶向下和自底向上结合的方式,因此基本都经过人工的校验,保证了可靠性;因此,知识融合的关键任务在数据层的融合。 知识融合:跨语言融合 ICD编码 中文体系结构 Dbpedia Mapping 识别sameAs关系 Knowledge Vault:Google将建全球最大知识库 Knowledge Vault是一种以互联网信息为基础的数据库,即“知识库”。 知识来源:Gmail、Google+、Youtube通过特定算法自动搜集整编互联网信息,再将其存入数据库中。