您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[深圳狗尾草智能科技&上海海翼知信息科技]:行业知识图谱构建与应用101 - 发现报告

行业知识图谱构建与应用101

AI智能总结
查看更多
行业知识图谱构建与应用101

Tutorial简介以行业知识图谱为主偏向于行业知识图谱应用及相关的技术结合行业应用的一些最佳实践及相关的组件针对行业知识图谱在行业中的应用进行实战演示 Tutorial主要内容行业知识图谱概述,包括行业图谱简介,行业知识图谱的应用及挑战,以及行业知识图谱生命周期管理。行业知识图谱关键技术,包括行业知识图谱生命周期中各过程的相关技术、现有可用的工具,以及各过程中的最佳实践及相关组件。行业知识图谱应用实战,以金融证券行业应用为例,演示知识图谱从知识建模、知识抽取到行业应用的全过程。 Tutorial目标听众知识图谱学习者,对知识图谱在行业应用感兴趣的技术人员。各行业应用中想引入知识图谱相关技术的知识及数据管理人员,尤其是有行业知识库构建及上层问答搜索等有需求的。希望了解知识图谱如何在行业中应用的管理决策者。 Tutorial预期目标了解行业知识图谱相关概念及其在行业中的现有应用,理解其给行业应用带来的价值。理解知识图谱在行业中应用的相关挑战与生命周期,理解生命周期各过程的基本目标及相关组件。对行业知识图谱应用相关的技术进行熟悉,了解有哪些现有的工具可以使用和相关注意事项、以及一些行业应用的最佳实践。 Tutorial听众的知识基础RDF:资源描述框架OWL:RDF Schema的扩展SPARQL:RDF查询语言 ▍行业知识图谱简介▍行业知识图谱应用▍KG应用挑战▍行业知识图谱生命周期 行业知识图谱概述 谷歌知识图谱: Thins not strings 知识图谱助力人工智能应用语义搜索私人助理聊天机器人智能硬件GoogleBing百度SiriGoogle Now微软小娜百度度秘微软小冰公子小白Apple WatchTicwatchIBM Watson Health 通用知识图谱Google所提出的知识图谱是面向全领域的通用知识图谱。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等业务场景。通用知识图谱,它强调的是广度,因而强调更多的是实体,很难生成完整的全局性的本体层的统一管理。 通用知识图谱相关项目 行业知识图谱:Palantir 行业知识图谱行业知识图谱指面向特定领域的知识图谱。用户目标对象需要考虑行业中各种级别的人员,不同人员对应的操作和业务场景不同,因而需要一定的深度与完备性。行业知识图谱对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持。有严格与丰富的数据模式,行业知识图谱中的实体通常属性比较多且具有行业意义。 行业知识图谱数据的特点数据来源多:内部数据、互联网数据、第三方数据数据类型多:包含结构化、半结构化、非结构化数据,且后两者越来越多数据模式无法预先确定:模式在数据出现之后才能确定;数据模式随数据增长不断演变数据量大:在大数据背景下,行业应用的数据的数量通常都以亿级别计算,存在通常在TB、PB级别甚至更多 生物医疗农业政府行业知识图谱应用一览金融证券 电信 行业知识图谱相关项目 通用知识图谱行业知识图谱通用知识图谱VS行业知识图谱 面向某一特定领域基于行业数据构建“基于语义技术的行业知识库”强调知识的深度潜在使用者是行业人员面向通用领域以常识性知识为主“结构化的百科知识”强调知识的广度使用者是普通用户 通用知识图谱+行业知识图谱通用知识图谱的广度,行业知识图谱的深度,相互补充,形成更加完善的知识图谱。通用知识图谱中的知识,可以作为行业知识图谱构建的基础;而构建的行业知识图谱,再融合到通用知识图谱中。 ▍行业知识图谱简介▍行业知识图谱应用▍KG应用需求与挑战▍行业知识图谱生命周期 行业知识图谱概述 企业基础数据投资关系任职关系企业知识图谱金融证券——企业知识图谱企业专利数据企业招投标数据企业招聘数据 基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据,利用图计算等方法构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。用户群体银行、担保、投行、政府……应用环节客户资源分类管理信贷前期风险评估采购企业风险审核招投标企业资质评级……企业知识图谱应用——企业风险评估 企业知识图谱应用——企业社交图谱查询基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业关联。 基于股权投资关系寻找持股比例最大的股东,最终追溯至自然人或国有资产管理部门。企业知识图谱应用——企业最终控制人查询 在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度。企业知识图谱应用——企业之间路径发现 企业知识图谱应用——初创企业融资发展历程基于企业知识图谱中的投融资事件发生的时间顺序,记录企业的融资发展历程。 企业知识图谱应用——上市企业智能问答 金融证券——金融交易知识图谱企业知识图谱交易客户数据客户之间的关系金融交易知识图谱+ •基于知识图谱数据的统一查询,全面掌握客户信息;避免由于系统、数据等孤立造成的信息不一致造成信用重复使用、信息不完整等问题。金融交易知识图谱应用——辅助信贷审核 金融交易知识图谱应用——反欺诈(1)不一致性验证可以用来判断一个借款人的欺诈风险,类似交叉验证。比如借款人A和借款人B填写的是同一个公司电话,但借款人A填写的公司和借款人B填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。 组团进行欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。如下图可以看出贷款人A、B和C之间没有直接的关系,但通过知识图谱可以很容易的看出这三者之间都共享着某一部分信息,存在一定的组团骗贷风险。金融交易知识图谱应用——反欺诈(2) 异常分析(异常交易、异常客户)失联客户管理精准营销智能投研智能公告……金融证券——其它应用场景 医疗专业知识医疗文献医疗常识电子病历大数据医案医疗知识图谱+生物医疗——医疗知识图谱 医疗知识图谱应用——中医药知识平台针对中医药知识体系系统梳理、建模和展示以图形可视化方式展示核心概念之间的关系辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。与阅读文献等手段相比,可大幅度节约知识检索获取时间。http://www.tcmkb.cn 安德森癌症中心联合IBM Watson开展终结癌症的任务。生物医疗——Watson辅助诊断与治疗 生物医疗——Open PHACTS新药物发现欧盟重大联合攻关项目面向药物研发的开放数据访问平台开发,其核心技术就是采用语义技术为有关研究人员提供高效的数据访问技术环境的支持。 图书馆分类学体系特定方向的知识体系图书期刊论文专利报刊图情资源知识图谱+图书情报——图情资源知识图谱 图情资源知识图谱应用——知识导航与资源展示使用知识图谱中的知识体系进行知识导航,引导用户学习知识体系,以及通过实体链接所关联的资源。 图情资源知识图谱应用——知识点推荐与搜索 图情资源知识图谱应用——图情资源统计 知识图谱行业应用——其它行业农业识别作物危害政府行业政府大数据管理客服系统基于知识图谱的智能客服系统…… ▍行业知识图谱简介▍行业知识图谱应用▍KG应用挑战▍行业知识图谱生命周期 行业知识图谱概述 从数据库发展到大数据时代,企业希望融合使用全量数据DBBD来源:开源技术社区Nock(洛神)数据库时代大数据时代数据规模小MB/GB大TB/PB/ZB数据类型少结构化数据为主多包含结构化、半结构化、非结构化数据,且后两者越来越多数据模式可预先确定先有数据模式后产生数据;数据模式相对固定;无法预先确定模式在数据出现之后才能确定;数据模式随数据增长不断演变处理方法One Size Fits AllNo Size Fits All融合使用全量数据会遇到哪些挑战呢? 公司内部数据、新闻网站、论坛帖子、微博…多源异构数据难以融合信息聚合、数据融合需求迫切! 企业全量数据应用挑战2:数据模式动态变迁困难当前数据模式动态变迁困难,当客户新需求、业务新认知时程序员需痛苦的修改数据结构及业务逻辑,带来扩展性差、对客户响应慢、维护成本高等不良情况。我们需要:可自由扩展的数据模式!人员投入大数据结构难改动 企业全量数据应用挑战3:非结构化数据计算机难以理解计算机无法理解非结构化数据的语义企业迫切需要将非结构化数据结构化Web of Document 企业大数据应用挑战4:数据使用专业程度过高行业智能问答大幅降低数据使用门槛 企业大数据应用挑战5:分散的数据难以统一消费利用基于知识图谱数据存储、融合、分析统一平台,为用户提供统一的消费入口,以不同的形态(检索、可视化、分析等)展示给用户。✔可视化✗业务系统繁多✗使用方式各异✗难以全局把握 解决方案:基于行业知识图谱进行数据融合使用挑战1:使用知识图谱(本体)对各种类型的数据进行抽象建模,基于可动态变化的“概念—实体—属性—关系”数据模型,实现各类数据的统一建模。挑战2:使用可支持数据模式动态变化的知识图谱的数据存储,实现对大数据及数据模式动态变化的支持。挑战3:利用信息抽取技术,对非结构化数据及半结构化数据进行抽取和转换,形成知识图谱形式的知识。挑战4、5:在知识融合的基础上,基于语义检索、智能问答、图计算、推理、可视化等技术,提供统一的数据检索、分析和利用平台。 知识图谱助力企业商业智能业务需求技术方案数据挑战语义理解数据关联探索非结构化数据计算机难以理解多源异构数据难以融合数据结构化数据结构化数据结构化数据融合 ▍行业知识图谱简介▍行业知识图谱应用▍KG应用挑战▍行业知识图谱生命周期 行业知识图谱概述 50 知识应用知识计算 知识图谱基础技术规范W3C推荐的语义网标准栈 RDFRDF是语义网标准中的第一层RDF代表•Resource:页面、图片、视频等任何具有URI标识符•Description:属性、特征和资源之间的关系•Framework:模型、语言和这些描述的语法RDF是一个三元组(triple)模型,即每一份知识可以被分解为如下形式:RDF是一个链接资源描述的图模型,其三元组可看作图中的弧。RDF其它语法:Turtle、TriGN-Triples、N-Quads、JSON、RDFa ( subject(主), predicate(谓), object(宾)) (顶点,边,顶点) OWL:RDF Schema的扩展复杂类:交、并、补属性约束:存在量化、全称量化基数约束:最大基数约束、最小基数约束属性特征:反、对称、非对称、不相交、自反属性链属性链 复杂类复杂类对称属性传递类 SPARQL简介RDF的查询语言:基于RDF数据模型可以对不同的数据集撰写复杂的连接( joins)由所有主流图数据库支持SPARQL Protocol and RDF Query Language SPARQL Query – graph visualization?albumdbpedia:The_Beatlesdbpedia:The_Beatlesfoaf:made<http://musicbrainz.org/record/...>foaf:madeData:Graph pattern:Results:"Help!"dc:titledc:title<http://musicbrainz.org/record/...>"Abbey Road"dc:titlefoaf:made?album<http://...><http://...><http://...>?titledc:titlefoaf:made 本体(ontology)可以填充知识与查询之间的语义间隙 1.知识建模即建立知识图谱的数据模式。行业知识图谱的数据模式对整个知识图谱的结构进行定义,因此需要保证可靠性。常用方法自顶向下的方法:专家