您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国电子技术标准化研究院]:2023知识图谱与大模型融合实践研究报告 - 发现报告
当前位置:首页/其他报告/报告详情/

2023知识图谱与大模型融合实践研究报告

2023知识图谱与大模型融合实践研究报告

中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 前言为推进知识图谱与大模型在企业级的落地应用,分析知识图谱与大模型融合技术路径,研究报告从知识图谱与大模型落地面临的瓶颈出发,分析了知识图谱与大模型的主要特征、知识图谱与大模型擅长的主要场景和核心基础能力,对比了知识图谱与大模型的优劣势,进而从技术演化层面、技术互补层面、知识库建设层面探讨了知识图谱与大模型融合的可行性及收益。同时,研究报告分析了知识图谱与大模型融合的技术路径及其关键技术,研究了知识图谱与大模型融合系统评测体系,对比了实际融合系统与大模型的性能测试结果。最终,通过梳理已有11个领域的实践案例,给出了技术挑战与发展展望。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明来源为“中国电子技术标准化研究院”或对应案例提供单位,且不得对本报告进行有悖原意的删减与修改。由于知识图谱与大模型技术发展迅速,研究报告编制时间和作者学识限制,恐有纰漏或不严谨之处,敬请谅解和批评指正。研究报告编写组中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 参编单位及人员中国电子技术标准化研究院郭楠、韩丽、李瑞琪、李湘、胡成林、陈艳利中国电信股份有限公司研究院石晓东、赵龙刚、孙佩霞南京柯基数据科技有限公司杨成彪、吴刚、魏爱梅北京海致科技集团有限公司瞿珂、李思宇、胡嘉彦中译语通科技股份有限公司陈自岩、彭旋沈阳东软智能医疗科技研究院有限公司程万军北京文因互联科技有限公司张屹、李亚军中电科大数据研究院有限公司曹扬、孔德智、熊子奇、尹杨、闫盈盈北京京航计算通讯研究所马静、郝创博、白洋、张彤中科知道(北京)科技有限公司吴章生、李海英、王海波北京中企智造科技有限公司蔡志伟、张燕浪潮软件科技有限公司张峰、王珂琛杭州海康威视数字技术股份有限公司姜伟浩、赵宏、吴炎、吴鹏亮广州柏视医疗科技有限公司刘涛、颜子夜豪尔赛科技集团股份有限公司张丰、刘姝、戴聪棋电科云(北京)科技有限公司方正、王尚帅云从科技集团股份有限公司李军网智天元科技集团股份有限公司贾承斌厦门渊亭信息科技有限公司洪万福、潘璐阳、朱成忠国际商业机器(中国)有限公司(IBM)初德高青岛海尔科技有限公司王先庆、鄂磊、鞠剑伟浪潮电子信息产业股份有限公司李仁刚、贾麒、范宝余北京三快在线科技有限公司黄坤、刘瑾、李轩深圳市矽赫科技有限公司洪鹏辉、洪宝璇、林叠守同方知网数字出版技术股份有限公司万敏锋、相生昌、周永中国电力科学研究院有限公司徐建南、徐会芳、张英强浙江创邻科技有限公司周研、马超湖北汽车工业学院龚家元泰瑞数创科技(北京)股份有限公司刘俊伟、罗伊莎 国电南瑞科技股份有限公司张万才 石超 施雨南京航空航天大学周福辉、袁璐、宋熙富泰华工业(深圳)有限公司史喆、张学琴各章节编辑中国南方电网超高压输电公司李强:第一章中国电信股份有限公司研究院 石晓东第二章网智天元科技集团股份有限公司 贾承斌第三章南京柯基数据科技有限公司 杨成彪第四章厦门渊亭信息科技有限公司 潘璐阳第五章中国电子技术标准化研究院 李瑞琪第六章青岛海尔科技有限公司 王先庆中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 参编单位及人员中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 第一章 背景中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 知识图谱Knowledge Graph-KG国家标准及研究报告学者/机构以结构化形式描述的知识元素及其联系的集合。[1]知识图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。[2]知识图谱本质上是一种叫作语义网络的知识库,即一个具有有向图结构的知识库。[3]维基百科:对事实和数字的组合,谷歌将其用于为搜索提供了上下文意义。谷歌于2012年推出,使用维基百科、维基数据和其他来源的数据。百科百度百科:在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图结构化形式可呈现为有向图结构化的形式谷歌:知识图谱是一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。[6][1]GB/T 42131-2022《信息技术 人工智能 知识图谱技术框架》[2]中国中文信息学会语言与知识计算专委会,《知识图谱发展报告(2018)》[3]漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):004-025[4]王昊奋,漆桂林,陈华钧.《知识图谱:方法,实践与应用》[J].自动化博览, 2020(1).DOI:CNKI:SUN:ZDBN.0.2020-01-014.[5] L. Ehrlinger and W. W ̈oß, “Towards a definition of knowledge graphs,” SEMANTiCS (Posters, Demos, SuCCESS), vol. 48, pp. 1–4, 2016.[6]https://blog.google/products/search/introducing-knowledge-graph-things-not/Farber:知识图谱是一种资源描述框架(RDF)图,可用于描述任何基于图的知识库。[5]知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型。[4]高效的检索能力可将概念、实体及其关系结构化组织起来,具有高效检索能力智能化推理能力可从已有知识中挖掘和推理多维的隐含知识附1:海外学者在知识图谱领域相关研究1.知识图谱的定义与发展历程——知识图谱的定义知识图谱与传统知识库相比具有的三大特征中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 加菲尔德提出引文索引的思想1955普莱斯引文网络分析1965Quillian语义网络提出最早的表达人类知识1968Feigenbaum知识工程提出专家系统开始广泛研究与应用1977Douglas Lenat建立Cyc知识库1984Tim Berners Lee提出语义网概念,是后续知识图谱的基础1998首届国际语义网大会(ISWC)召开,该会议延续至今,在国际上具有很高的学术影响力2002W3C将RDF和OWL纳入标准,并在后续不断更新,包括RDFS、SPAQL等逐渐填充进入,形成丰富的语义网技术栈 2004Tim Berners Lee提出linked Open Data2006Dbpedia知识库建立2007Schema.org建立2011Google正式提出知识图谱(Knowledge Graph, KG)概念同年,Wikidata项目启动2012首个KG嵌入方法TransE提出,推动了后续包括图神经网络等KG推理方法飞速发展2013OpenKG组织成立2015首届CCKS大会召开2016事理图谱概念提出,强调了KG对事件的顺承、因果等复杂认知能力的建模2018RichPedia作为多模态KG发布,代表KG进入新时代2020首个知识图谱国标发布20221.知识图谱的定义与发展历程——知识图谱发展历程中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 具有涌现能力在特定任务上,随着模型规模提升模型性能突然出现显著提升大模型与传统模型相比具有三大特征[2]参数规模庞大参数规模不少于十亿(1B),严格意义上需超过一百亿(10B)[2]权威论文中大模型的定义具有通用性能够仅通过提示、微调适应广泛的下游任务2.大模型的定义与发展历程——大模型的定义Ø大模型通常是指参数规模在一百亿(10B)以上,使用大规模的训练数据,具有良好的涌现能力,并在各种任务上达到较高性能水平的模型。[2]狭义上:Ø大模型是指参数数量大、结构复杂的深度学习模型,具备涌现能力、通用能力,并能够处理复杂的下游任务,如自然语言处理、图像识别等。广义上:中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 AlexNet为代表的新一代模型在规模和性能上超越传统方法2012年自然语言处理模型Word2Vec诞生2013年Google提出Transformer架构,奠定了大模型预训练算法架构的基础2017年•OpenAI发布GPT-1(Decoder)•Google发布BERT(Encoder)•预训练大模型成为自然语言处理领域的主流2018年RLHF算法被提出2022年3月2023年5月2023年7月OpenAI公司推出GPT-2,模型参数规模15亿,Decoder技术路线优势显现2019年OpenAI公司推出GPT-3,模型参数规模1750亿,在零样本学习任务上实现了巨大性能提升2020年微软发布BEiT-3模型,标志多模态大模型时代到来2022年8月搭载GPT3.5的ChatGPT正式发布2022年11月•GPT4正式发布,包含1.8 万亿参数,采用混合专家模型•百度发布“文心一言”,国内大模型研发热潮涌现2023年3月•国家人工智能标准化总体组下设立大模型标准化专题组,启动标准编制工作•《生成式人工智能服务管理暂行办法》公布CNN为代表的传统神经网络模型占主导地位2005年中国发布的10亿以上参数大模型超过79个,“百模大战”态势初步形成2.大模型的定义与发展历程——大模型的发展历程中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院中国电子技术标准化研究院 4.本体构建难度大本体构建对领域专业知识和构建经验要求高,实体与关系的标识和对齐、本体扩展和更新、本体评估和质控、不同本体融合等方面仍面临技术挑战6.知识完备性不足企业级知识图谱构建中通常面临领域边界限制、企业内数据规模有限、数据中知识稀疏等问题,导致其知识完备性不足5.知识通用性不足企业级知识图谱平台及其知识内容具有较强的行业属性和领域专业性,通用性和迁移泛化能力尚有不足,跨行业、跨领域规模化应用有待提升3.语义理解和自然语言处理难度大知识图谱在面对自然语言中的语义歧义、上下文理解、语言常识推理等问题时,仍缺乏有效的解决办法2.知识抽取质量,难以保证知识抽取规则的构建仍主要依赖人工,主观性强,导致可移植性差和误差传播,使得知识抽取质量难以保证1.语料数据标注效率

你可能感兴趣

hot

城市环境综合治理两网融合模式探索与实践研究报告

中国再生资源回收利用协会2019-08-09
hot

守正创新融合共生-2023游戏IP赋能文旅实践报告

文化传媒
中国旅游研究院2023-05-23
hot

认知智能时代:知识图谱实践案例集(速读版)

信息技术
中国电子技术标准化研究院2021-01-01
hot

认知智能时代:知识图谱实践案例集

中国电子技术标准化研究院2021-01-31