您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中国电子技术标准化研究院]:2023知识图谱与大模型融合实践研究报告 - 发现报告

2023知识图谱与大模型融合实践研究报告

2023-08-15 - 中国电子技术标准化研究院 罗鑫涛Robin
报告封面

前言 为推进知识图谱与大模型在企业级的落地应用,分析知识图谱与大模型融合技术路径,研究报告从知识图谱与大模型落地面临的瓶颈出发,分析了知识图谱与大模型的主要特征、知识图谱与大模型擅长的主要场景和核心基础能力,对比了知识图谱与大模型的优劣势,进而从技术演化层面、技术互补层面、知识库建设层面探讨了知识图谱与大模型融合的可行性及收益。 同时,研究报告分析了知识图谱与大模型融合的技术路径及其关键技术,研究了知识图谱与大模型融合系统评测体系,对比了实际融合系统与大模型的性能测试结果。最终,通过梳理已有11个领域的实践案例,给出了技术挑战与发展展望。 转载、摘编或利用其它方式使用本报告文字或者观点的,应注明来源为“中国电子技术标准化研究院”或对应案例提供单位,且不得对本报告进行有悖原意的删减与修改。由于知识图谱与大模型技术发展迅速,研究报告编制时间和作者学识限制,恐有纰漏或不严谨之处,敬请谅解和批评指正。 研究报告编写组 参编单位及人员 参编单位及人员 第一章背景 1.知识图谱的定义与发展历程——知识图谱的定义 1.知识图谱的定义与发展历程——知识图谱发展历程 2.大模型的定义与发展历程——大模型的定义 狭义上: 广义上: 大模型是指参数数量大、结构复杂的深度学习模型,具备涌现能力、通用能力,并能够处理复杂的下游任务,如自然语言处理、图像识别等。 大模型通常是指参数规模在一百亿(10B)以上,使用大规模的训练数据,具有良好的涌现能力,并在各种任务上达到较高性能水平的模型。[2] 权威论文中大模型的定义 大模型与传统模型相比具有三大特征[2] 具有涌现能力 参数规模庞大 具有通用性 在特定任务上,随着模型规模提升模型性能突然出现显著提升 参数规模不少于十亿(1B),严格意义上需超过一百亿(10B)[2] 能够仅通过提示、微调适应广泛的下游任务 2.大模型的定义与发展历程——大模型的发展历程 3.知识图谱落地面临的瓶颈 4.本体构建难度大 1.语料数据标注效率低、主观性强 本体构建对领域专业知识和构建经验要求高,实体与关系的标识和对齐、本体扩展和更新、本体评估和质控、不同本体融合等方面仍面临技术挑战 语料数据标注仍大量依靠人工,存在标注效率低、主观性强等问题 5.知识通用性不足 企业级知识图谱平台及其知识内容具有较强的行业属性和领域专业性,通用性和迁移泛化能力尚有不足,跨行业、跨领域规模化应用有待提升 2.知识抽取质量,难以保证 知识抽取规则的构建仍主要依赖人工,主观性强,导致可移植性差和误差传播,使得知识抽取质量难以保证 3.语义理解和自然语言处理难度大 6.知识完备性不足 知识图谱在面对自然语言中的语义歧义、上下文理解、语言常识推理等问题时,仍缺乏有效的解决办法 企业级知识图谱构建中通常面临领域边界限制、企业内数据规模有限、数据中知识稀疏等问题,导致其知识完备性不足 4.大模型落地面临的瓶颈 1.训练大模型的成本高 5.输出的安全性不足 大模型的训练和优化需要大量的算力资源和海量的数据资源,涉及高性能硬件设备、强大的分布式计算能力、数据治理与融合等,投入成本巨大 大模型的开放性导致其存在信息泄露、数据攻击的风险,影响输出结果的鲁棒性和安全性 6.知识更新的实时性不足 大模型训练新数据、获取新知识的周期较长,且成本较高,导致其数据更新的滞后和知识时效性的不足 面向特定领域、多应用场景的高质量中文语料规模和质量不足 3.训练过程的可控性差 7.领域知识的覆盖率不足 大模型的黑盒问题使得其推理过程很难得到合理的解释和有效的控制,增加了大模型优化的难度,并限制了其在部分领域的应用 GPT等大模型对各领域专业知识的覆盖仍不足,对专业问题的回答尚无法令人满意 8.社会和伦理问题隐现 大模型的输出可能存在与社会和伦理要求相悖的内容,如:生成内容消极、负面,具有破坏性等 大模型的输出结果是根据概率推理而生成,具有随机性和不稳定性,导致其正确性的验证难度大,难以保证结果的准确可信 ○GerhardWeikum研究知识获取表示、分布式信息系统、数据库性能优化与自主计;算、信息检索与信息提取等;○Tom M.Mitchell的研究涵盖知识表示、知识库构建、机器学习、人工智能,机器人和认知神经科学等;○Ian Horrocks的研究涵盖述述逻辑、语义网络、知识表达、知识库、网络本体语言等方向;○唐杰研发出研究者社会网络ArnetMiner系统,唐杰的高引用论文是2008年在KDD会议上发表的“ArnetMiner:extraction andmining of academic socialnetworks”对其负责的知识工程实验室ArnetMiner系统关键问题进行讨论,整合来自在线Web数据库的出版物并ᨀ出一个概率框架来处理名称歧义问题; 附1:知识图谱领域国内外学者及相关研究 知识图谱国内外研究学者: ○Gerhard Weikum,德国萨尔布吕肯Max-Planck信息学研究所○Tom M.Mitchell,卡内基梅隆大学计算机科学学院最高级别E.Fredkin讲席教授○Ian Horrocks,英国牛津大学计算机专业教授○唐杰,清华大学教授○李涓子,清华大学教授○漆桂林,东南大学教授○陈华钧,浙江大学教授○王昊奋,同济大学教授○刘峤,电子科技大学教授 1.知识图谱与大模型的对比——技术特性层面 大模型的优势 知识图谱的优势 可解释性:知识图谱可基于基于明确的语义结构进行查询和分析,具有较好的可解释性。 通用性:模型具有指令遵循能力,能处理多种任务,并支持多语言、多模态、多领域的应用。 可信赖性:知识图谱通常是由专家创建和维护,因此其可信赖性较高。 可生成性:模型能生成各种形式和风格的文本,也能生成多模态的内容,如图像、音频等。 创作能力:能生成新颖、连贯和通顺的文本,也能生成多模态作品,如图片、歌曲等。 可校验性:知识图谱中的信息可以通过专家进行校验。 常识能力:基于海量通用训练数据中的知识,具有常识理解能力。 可评价性:知识图谱的质量可通过查询的准确性和完整性来评价。 语义理解能力:能根据文本、多模态数据中出现的内容,理解其含义和关系。 领域能力:具有较强的领域知识支持,支撑了其领域服务能力。 推理能力:可根据图谱中的精确知识内容和关联结构,进行高可信度的推理。 大模型的不足 知识图谱的不足 可解释性:模型的决策过程是黑箱的,难以解释。 通用性:知识图谱通常面向特定领域,在通用性上可能较弱。 可信赖性:模型的输出可能存在错误或有偏见的信息。 可生成性:知识图谱主要用于查询和分析,而非生成新的内容。 可溯源性:模型的输出是基于训练的数据,而不是特定的数据点或知识点,较难追溯其输出的来源。 学习能力:缺乏自主学习能力。 创作能力:缺乏自主创作能力。 可校验性:模型的输出和推理结果有赖于通过人工或者其他系统进行校验。 常识能力:局限于知识图谱中的信息,常识能力较弱。 可评价性:模型的性能和输出可通过一些标准任务进行评价,尚不成熟。 常识能力:无法处理超出训练语料范围的常识问题。 领域能力:缺乏丰富全面的领域知识,领域服务能力一般。 语义理解能力:可能出现理解错误或歧义等问题。 2.知识图谱与大模型融合的可行性——技术演化层面 多模态知识图谱 利用多模态信息补充符号语义表达的不足,强化知识的表征能力,支撑多模态理解、推理和元认知等能力。知识异构模态语义对齐难,在不同模态间映射关系多样 多模态大模型 AlexNet代表的深度学习出现 大模型和知识图谱是相互依赖的知识处理与应用技术,知识图谱发展激发了深度学习的需求和发展,深度学习和大模型也成为知识图谱构建的基础能力,并共同面对未来多模态知识相关的挑战。 2.知识图谱与大模型融合的可行性——技术互补层面 知识图谱能够为通用大模型的工业化应用,弥补通用大模型语料里专业领域知识的不足。 ,可对大模型的生成能力进行各方面的评估,降低事实性错误的发生概率。 ,适度控制内容生成, 大模型 大模型可以利用语义理解和生成等能力抽取知识,,也可以抽取出隐含的、复杂的、多模态的知识,降低图谱构建成本。 大模型可以用于从文本中提取知识、从而扩展和丰富知识图谱的内容。知识图谱可以为大模型提供结构化知识进行语义补充和生成引导。 2.知识图谱与大模型融合的可行性——知识库建设层面 3.知识图谱与大模型融合的现有研究工作 01知识图谱赋能大模型 通过将知识图谱作为训练目标、模型输入、专门知识融合模块,增强大模型预训练效果;通过动态知识融合、检索增强的知识融合方法,增强大模型推理能力;通过基于知识图谱的探针、分析技术,增强大模型可解释性。 02大模型赋能知识图谱 通过将大模型作为编码器或者通过大模型的生成能力,增强知识图谱表征;将大模型作为解码器、生成器,作用于知识补全;利用大模型的生成能力,增强图谱构建,对图谱交互、图谱问答等任务提供支持和提升 03大模型和知识图谱协同 将大模型与知识图谱进行统一表征,增强结果准确性;将大模型和知识图谱结合,运用于推理过程,弥合文本和结构信息之间的差距并提升推理可解释性。 4.知识图谱与大模型融合的收益 •提高可解释性:知识图谱的显性知识与大模型的隐性知识相结合,可提高知识应用的可解释性。•实现交叉验证:知识图谱的输出与大模型的输出相结合,可为知识应用提供交叉验证/比对的手段,提高服务的可信赖性。•优化知识存储:知识图谱的结构化信息存储和大模型的非结构化信息处理相结合,可优化知识存储和检索效率。•提高决策能力:知识图谱推理结果与大模型推理结果的结合,可进一步丰富辅助决策的知识背景,并提供更精确的决策建议。•增强隐私保护:知识图谱中数据加密和保护能力与大模型数据调用能力相结合,可降低大模型对个人隐私数据的依赖,有利于保障隐私安全。•确保知识产权保护:知识管理机制与本地化部署方式相结合,可更好地保护知识产权,防止知识的滥用或盗用。•增强伦理边界:通过优化知识图谱中的知识结构及大模型训练样本结构,构建约束规则类知识并降低数据偏见,强化输出边界。 •增强理解能力:大模型的语义理解能力可帮助知识图谱更好地理解和分类非结构化信息。•降低构建成本:大模型的上下文理解能力、基础常识支持能力等可帮助知识图谱提升非结构化数据的知识获取、知识建模、知识融合等能力,降低其构建和维护成本。•丰富输出形式:大模型的生成能力可帮助知识图谱获得多元化的知识输出和服务形式,增强知识图谱系统的服务效果,并提升人机交互水平。•提高知识完备性:大模型中涵盖的知识及其对新数据的理解能力,可帮助知识图谱进行知识补全和知识校验,提高知识的完备性。 •降低算力:可减少大模型对无结构化文本的依赖,从而降低大模型的预训练或推理所需的算力和时间。•提高知识可信度:依托知识图谱中经质量评估的知识,可帮助大模型提高信息的质量和可信度,并保障知识的正确性和时效性。•增强通用性、领域能力、认知能力:可帮助大模型获得跨领域和跨语言的知识,并更好地适应不同的领域任务和场景。•降低构建成本:依托知识图谱中的结构化知识,可减少大模型对标注数据或专家知识的需求,从而降低大模型的构建成本和难度。•提高可生成性:可帮助大模型可生成更贴近实际、更具有解释性的内容。•提高创作能力:通过知识图谱的知识增强,可帮助大模型创作内容更具逻辑、一致性和创新性等。 知识图谱+大模型 •第三章 1.知识图谱与大模型融合的总体技术路线 利用知识图谱与大模型各自的优势相互赋能(1+1),并结合上层应用集成,实现两者技术的互补。利用知识图谱间的互联互通及大模型间的集成调度(N+N),实现融合后系统能力的持续增强。 ①知识图谱赋能大模型:以知识图谱为工具提升大模型的能力 ②大模型赋能知识图谱:以大模型为工具提升知识图谱的能力 ③知识图谱与大模型协同 2.大