您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[刘晖]:知识图谱:打破人工智能的认知天花板 | 研究报告 - 发现报告
当前位置:首页/行业研究/报告详情/

知识图谱:打破人工智能的认知天花板 | 研究报告

信息技术2020-12-30刘晖B***
知识图谱:打破人工智能的认知天花板 | 研究报告

知识图谱:打破人工智能的认知天花板 ⎿孲䥗崸⡰嶣⃎ᾬ‬父㟬副䟶挿嫳䦆䯨槸⥑Ѭ⋨㦪ᆬ䕸ᇇ╡慯䀡⎢䲞ὲ㲓‬父㟬副㻜䃠Ҿ₸䡦卥慍⋗‬父㟬副ώⒼ⢬Ѭヅ⋩⩹副䕸孕һ₌㆏兵һ╡孕挼䲻䏫ン䟶崖䥗㟬副㎂ᾬ䯳䦦卜思⪛吣㣱䟶⋥暠Ѭ䥗崸⡰嶣㎿ㄉ′′′′噞␵╃⷇Ҿ慃⿦㣗Ѭ䥗崸⡰嶣19日㢡䉟〘὿⍁Ѭ⃎ᾬⴐ䔢崖䥗㟬副䟶㦪ᆬ毣␚␍Ѭ用⿱㹍〆䚚⢚捃壿һ䚧⚸һ(r)䜉һ㚱␓䲻嵪⪌槸⥑Ҿ,QIR4⥬ ⵫䥗崸⡰嶣19日㢡䚑ᄠ䟶㽣⎭嬴ⵑѬ豸(파)㔔五䥗崸⡰嶣⫴⃇ⴐ䔢㢬⟚䟶愚崸һ㆏兵ᾀᾭ␚ⳘῒѬ㨥䕸䥗崸⡰嶣19日㢡⃅乭ᾀ’ᾌ晰偅㣶Ѭ⏈㤂ⴐ䔢崖䥗㟬副䟶19日㢡㒃㎊ᾀ╃⷇廽␱Ѭ㔔㶴䥗崸⡰嶣⵸⫴⃇㏅䦦‬父㟬副䟶崖䥗⪛吣㣱Ҿ主要观察发现һ䥗崸⡰嶣㞡ⴐ䔢‬父㟬副⁀ұ㊑䥗Ҳ張Ⓓ⎢ұ崖䥗Ҳ䟶⥬䦲Ҿ⢚⋷⴫偦〘Ѭ䥗崸⡰嶣㞡ὲ䬿姚愰嬶呵һ⋥准㆙ガ䟶汊庚捁㛢㓠姚䪬Ѹ⢚19日㢡偦〘Ѭ䥗崸⡰嶣╡孕挼ᾬὲ䬿⃱䚚⡰偅㣶㕁慢䥗崸◾ぬ㮓ό䏛⋥准⋥乭䟶19日㢡㜫㹇Ҿһ⢚䥗崸⡰嶣䟶⁩↮偦〘Ѭ欈⊺Ѭ䥗崸⡰嶣㡻␛ ⴐ䔢ᾌ␓㎊䛗汊〘䟶妾ᾌ㛢㓠㸭䕸Ѹ⋨㲓Ѭ䥗崸⡰嶣⥬ 嵟Ά慐㔗ⴐ䔢䥗崸壿╺◾╡孕挼㆙Ѭ㎂ᾬ‬䷭㆏偦ᾀ㢬⟚彡ヶ㆏偦䟶惞㓔⟚Ѹ㡲▀Ѭ䥗崸⡰嶣ⴐ䔢⵫㔚䕸◾⌥䳈䟶㡻␍㚡㘃Ѭ⃱⋨⢚㡦⪌槸⥑ㄉ′′′′⿱㹍〆䚚Ҿһ⁀䥗崸⡰嶣䟶㣶ぬ19日㢡㣗䡽Ѭᾭ嫳(4)▝䥗崸⡰嶣姚䪬һ䥗崸Ⳋ√һ䥗崸㐯╈һ䥗崸壿╺һ䥗崸㔚䕸䲻⋥暠倶㎂扚⍸Ҿ⢚⋨╃⷇䂆慍愹䭽ᾟѬ偁⓸Ὸ⁀‬父儖⃅㟬㋙㣶ぬ⎢卜␚唩╈㣶ぬ䟶惞╊Ѭ䥗崸⡰嶣ᾀ㽣〘Ⳙῒ䟶壿╺㎂ᾬ挿嫳╃⷇㜫▃Ҿһ⁀䥗崸⡰嶣䟶’ᾌ晰偅㣶㣗䡽Ѭ䥗崸⡰嶣ὼ㾪’ᾌ㻻┼㛢㓠挹核㥹㹚һ 㡿␓һ䧞⁨庶䀂һ㛢㓠々䲻㛢㓠◾19日㢡㚡㘃Ѹᾟ㾪⁀´䥗崸⡰嶣䟶崰崓ᾀ㣶ぬѬ(4)㑞㕂ℍ䚚 䥗崸⡰嶣⍸㤂һ〆䚚䟶╶䷭⫉⁨父⋩┼孕⌥㜫㦺Ѹώ㾪䥗崸⡰嶣ᾭ嫳ᾀ$,䡪⋥19日㢡偅╺Ѭ㽣〘〆䚚 ⣴䡦槸⥑Ҿһヅ⎿Ѭ䥗崸⡰嶣㔚䕸◾ᅯ憑父ᾌ1.副␍䟶催⪣㎂ᾬᾭ嫳19日㢡㒃㎊Ҿ₦栁〆䚚⢬㟡὿㜟㽣⋗ᾅᾌ槸⥑Ѭ䥗崸⡰嶣⵸⁀䥗崸㡿␓と₪卥㽣ⶴ⌥䳈◾槶㺽㡿␓Ҿ㳖⪈Ѭ⢬㟡毣␚ώ䟶䥗崸⡰嶣19日㢡䚑ᄠ⵸►䔢乭偑1.╃⷇廽␱Ѭᾀ䥗崸姚䪬һ卜䊨嵟孲===䕸һ㢬⟚Ⳙῒһ⡰㛢㓠々һ⪌Ⰴ⃅===䕸䲻⋥准19日㢡䡪 壿╺Ѭ㽣〘庽副〆䚚⢬㟡Ҿ ὲҹ䥗崸⡰嶣㫴慢 ̔ҹ䥗崸⡰嶣䟶㣶ぬ19日㢡⃅乭ύҹ䥗崸⡰嶣䟶’ᾌ晰偅㣶⡍ҹ19日㢡㒃㎊ᾀ╃⷇廽␱1 知识图谱:人工智能的认知基础1 知识图谱表示1 上游:数据资源和软硬件支撑2 知识表示方法的发展与演进2 知识存储3 知识抽取4 知识融合5 知识推理2 中游:知识图谱的构建3 下游:知识图谱应用场景3 知识图谱价值特征的三个维度1 知识图谱推理和快速工业化能力的缺失成为主要技术挑战2 伴随应用场景不断深入专业领域,知识图谱将从知识服务延伸至深层决策和预测服务3 场景驱动下的知识图谱技术生态将呈现系统化发展趋势1615289111216162020204目录CONTENTS 一、知识图谱概述伴随信息技术革命的爆发,人类社会生活、商业和工业场景产生海量数据,且呈现大规模、异质多元、组织结构松散等特征。这些数据作为信息、知识、实现智能的原材料,存在大量无用内容和噪声,在数据的基础上提取有用、相关的数据即为信息,更进一步的,基于此进行加工和处理得到普适、抽象、正确的信息即得到知识。当基于数据训练的机器感知能力愈发接近人类,处于弱人工智能时期的阶段性任务已基本完成,基于知识的机器认知能力将成为强人工智能的基本实现方式,通过知识,机器将能够更好的理解信息、推理更多知识、并对未来信息作出预测,进而实现系统化的强智能。1.知识图谱:人工智能的认知基础1⡰⁀㛢㓠⎢崖䥗㟬副ҡ庶㜋㣗䀂Ѫ,QIR4䦆䯨柔Ң本质上,知识图谱是一种由关联性知识组成的网状知识结构,对机器而言表现为图谱,其形成过程即建立对行业或领域的理解和认知,拥有规范的层次结构和强大的知识表示能力。具体来说,我们可以从内容、技术两个维度建立对知识图谱的基本认识: 2知识图谱作为知识工程的分支,其理论基础可追溯到上个世纪五六十年代所提出的一种知识表示形式——语义网络,在此基础上结合了专家系统、机器学习、语义网、关联数据等先进技术的最新成果,伴随互联网时代数据规模的爆炸式增长,知识图谱的概念逐渐呈现在我们面前,受到了学术界和产业界的广泛关注。(1)基于符号主义的前知识工程2.知识表示方法的发展与演进早期人工智能主要分为符号主义和连接主义两种流派。符号主义研究使用计算机符号表示人脑中的知识并模拟心智的推理过程;而连接主义侧重于模拟人脑的生理结构,在此基础上发展而来的深度学习即利用人工神经元(感知器)组成的神经网络模拟人脑结构和功能。在这一时期,符号主义处于人工智能发展的核心地位,其关注核心即知识的表示和推理——本质上希望得到通用问题的求解程序。早在 1960 年,Quillian 便提出语义网络( Semantic Networks )概念,定义了基本的由边和节点组成的知识表达模式,符号逻辑、产生式规则等基于符号主义的知识表示方法也为知识工程的发展奠定了思想基础。⡰䥗崸⡰嶣19日㢡╃⷇䟶㝨杦倱ᾀ憭愃倱ҡ庶㜋㣗䀂Ѫ,QIR4䦆䯨柔Ң从内容维度来看,知识图谱是一种表达规范、关联性强的高质量数据表示。一方面,“表达规范”表现为知识图谱采用更加规范且标准的概念模型、本体术语和语法格式来建模和描述数据;另一方面,“关联性强”则体现在知识图谱本质上是一个有向、有环的复杂图结构,目的是将非结构、无关联的粗糙数据逐步提炼为结构化、高度关联的知识。从技术维度来看,知识图谱是一种使用图结构描述知识和建模万物关联关系的技术方法。知识图谱的构建过程涉及知识表示、关系抽取、图数据库存储、数据融合、推理补全等多方面,应用阶段也涉及与智能问答、语义搜索、自然语言理解、自动推理、描述性数据分析等多领域的交叉融合。 3(3)万维网和统计机器学习(4)群体智能(2)基于专家系统的知识库万维网的出现是文本数据大规模爆发的开始,由 HTML 定义的文本内容通过超链接相互连接,成为一个可相互共享信息的开放平台,使知识从封闭走向开放。由此,人们开始关注如何将人工构建知识库和推理规则转变为实现知识的自动获取、学习和利用,以统计机器学习为核心的人工智能开始成为主流,信息的表达方式也开始变得更加规范和易于检索。与此同时,“本体”的概念被引入,用于进行对特定领域概念和概念之间关系的形式化表达。多人协作的知识建立方式开始发挥重要作用, Netscape 公司于 1998 年制定开放目录规范计划( ODP ),采用网民共建的方式编制和管理目录,帮助人们进行高效快捷的网页检索,目前已成长为互联网上规模最大、影响最广泛的人工目录。进入新世纪,互联网数据规模进一步爆炸式增长,搜索技术的发展提升了信息获取的效率,但获取信息的准确性仍存在很大缺陷。Tim Beemers-Lee 先后提出语义网( Semantic Web )和链接数据(Linked Data)概念,相对语义网络,语义网和链接数据更倾向于描述万维网中资源、数据之间的关系,从而实现对互联网内容的结构化表示,并将网络连接的基本单位由网页转变为颗粒度更小的数据信息。语义标识语言 RDF(资源描述框架)在语义网络节点和边的取值上做出约束,制定出统一标准,为多源数据的融合提供便利。W3C 制定的 RDFS / OWL 对 RDF 进行了类似的类定义及其属性的定义,解决了 RDF 抽象表达能力有限的困境。这一时期的技术发展帮助智能系统更好理解互联网内容,并实现对多元内容的融合,为知识图谱的发展奠进入 20 世纪 70 年代,伴随专家系统的兴起,人工智能逐渐转向建立基于知识的系统,即希望通过知识库和推理实现智能系统。特别是随着 1977 年 Feigenbaum 提出“知识工程”概念,知识的表示成为智能系统的核心,知识工程也成为人工智能领域成果最丰富、最具影响力的分支。Minsky 提出的框架表示法( Frame )、Tomkins 提出的脚本表示法( Script )等逻辑表示方法,以及 MYCIN 医疗诊断专家系统、识别分子结构的 DENRAL 专家系统、进行计算机故障诊断的 XCON 专家系统等特定领域的专家系统不断涌现,虽然该阶段知识库系统的描述能力、计算能力极为匮乏,但同样为知识图谱的产生起到了深远影响。⡰‬父㟬副䟶ᾖ䬿㺳㺰Ѫ䲘╩ᾭΆ◾慐㔗ᾭΆҡ庶㜋㣗䀂Ѫ҉䥗崸⡰嶣Ѫ㜫㹇һⴐ彧ᾀ〆䚚Ҋһ,QIR4䦆䯨柔Ң 4究其根本,知识图谱热度不减的原因在于人工智能进入以场景为牵引的深度应用阶段,数据治理需要基于业务战略高度进行逻辑性的存储和应用,基于此,知识图谱可理解为场景的数字骨架。知识图谱的构建过程即将各类数据进行梳理、融合,将杂乱无章的数据通过本体框架整合为结构化数据,这有助于解决数据的异构、多样、复杂、孤岛化等问题,数据的关联和结构化是进一步扩展应用价值的基础。知识图谱的理念源于自然语言的语义知识表示,可实现基于语义信息的数据融合,且语义信息更便于人类理解。而深度学习作为人工智能的另一分支,能够学到事物底层的特征空间,通过特征工程识别隐含的语义,但对于人类来说更像是一个“黑箱”,不具备可解释性。基于以上特征,知识图谱则成为人类思维与机器路径思维的转换器,弥合了事物底层特征空间与事物语义空间的鸿沟,也使得知识图谱与深度学习的融合成为重要发展方向,二者的交叉将以多种形式应用在更多领域。知识图谱的构建和应用过程即融合多方信息来源、综合各类可能性,实现精准推理和决策的过程。具体来说,利用图谱中的概念上下位关系、属性类型及约束、图模型实体间关联关系,结合业务场景定义的关系推理规则,可实现不一致性检测、推断补全、知识发现等各类功能,支撑了知识图谱在金融、工业、教育、电商、医疗、生活娱乐等行业领域的广泛应用。(1)业务战略高度的行业数据治理(2)基于语义连接的知识融合和可解释性(3)实现对推理和决策的有力支撑3.知识图谱价值特征的三个维度(5)知识图谱自 2006 年起,大规模维基百科类富结构知识资源开始出现,伴随网络规模信息提取方法取得巨大进步,Freebase 、DBpedia 等早期语义网项目均以 Wikipedia 作为主要数据来源,现代的知识图谱概念随着 Google 于 2012 年推出 Knowledge Graph 而被人们所熟知。在海量数据和大规模数据库的基础上,知识图谱更加注重实现知识在搜索引擎等领域的应用,Bing 、Google、Yahoo 等搜索引擎公司自 2011 年便共同支持语义网项目 Schema.org ,采用互联网众包的方式生成和收集高质量知识图谱数据。知识图谱在搜索引擎的应用进一步推动语义网、NLP 、数据库等技术的发展,在语义理解、智能问答、大数据分析、商业智能中的应用也愈发广泛,特别是知识图谱嵌入式表示的发展,使知识图谱计算与深度学习、增强学习相结合,符号主义与连接主义开始相互融合、相互促进。定了坚实基础。 二、知识图谱的构建技术体系5知识图谱的构建是一项庞大而复杂的工程,不仅需要算法模型的持续优化,更需要持续的知识运营以及工程系统的搭建,最终形成知识网络并得以应用。根据知识图谱内容和应用领域,可分为通用知识图谱或行业知识图谱,通用知识图谱主要解决全网信息结构化的问题,而行业知识图谱主要解决领域信息标准化的问题。在构建方式上,对于百科数据或行业高质量数据源,一般采用自底向上( Bottom - up )的构建方式,即先抽取实体数据,再逐层构建本体;而自顶向下( Top - down )的构建方式即先定义本体和数据规范,再抽取数据,在形成结构分类层次的基础上将实体添加到概念,这类方法更适用于专业程度高、且知识稀疏分散的领域。 总体来说,知识图谱的构建尚无标准流程,当前业界主流的构建方式是基于企业内部数据、公开数据等数据基础,以应用场景为导向,通过定制化方式构建知识图谱。其构建流程和关键技术可分为知识图谱表示、知识存储、知识抽取、知识融合、知识推