AI智能总结
(Semantic-enhanced Programmable Graph) 白皮书(v1.0) ——新一代工业级知识语义框架及引擎 离散实体要素深度语义网络化,稀疏关系自动补全显性稠密化加速企业海量数据知识化集成,无缝衔接AI技术框架应用落地 蚂蚁集团×OpenKG联合出品 版权声明 本白皮书版权属于蚂蚁集团×OpenKG,并受法律保护。转载、摘编或利用其他方式使用本白皮书文字或观点的,应注明“来源:蚂蚁集团×OpenKG”。违反上述声明者,蚂蚁集团和OpenKG将追究其相关法律责任。 编写说明 牵头编写单位:蚂蚁科技集团股份有限公司 参与编写单位:同济大学、天津大学、恒生电子股份有限公司、浙江创邻科技有限公司、达观数据有限公司、海乂知信息科技(南京)有限公司、浙江大学、之江实验室、中国科学院计算技术研究所 编写组成员 蚂蚁科技集团股份有限公司:梁磊、张志强、彭晋、赵培龙、郭智慧、何雨潇、袁琳同济大学:王昊奋 天津大学:王鑫、王翔 恒生电子股份有限公司:白硕、陈佼 浙江创邻科技有限公司:周研、张晨 达观数据有限公司:王文广、贺梦洁 浙江大学:陈华钧、张文 之江实验室:章衡 中国科学院计算技术研究所:白龙 推荐语 知识图谱是早期专家系统和语义网技术的延续,自2012年Google将其应用于搜索推荐领域以来,知识图谱技术在各领域得到了广泛应用。然而,长期以来知识图谱语义表示和技术框架并未有显著进步,这大大提高了各领域图谱的构建成本和业务落地的复杂度。我很高兴地了解到,蚂蚁集团和OpenKG合作,结合蚂蚁集团多年的知识图谱工业实践提出了兼容大数据体系和AI技术体系的知识语义框架SPG。SPG具有可编程性和框架化特性,具备较强的跨场景迁移能力,可以加速知识图谱的产业化落地,是知识图谱技术框架的突破性技术。自2022年底以来,ChatGPT、GPT4等大模型掀起了人工智能的新浪潮,但当前大模型仍然存在知识幻觉性、复杂推理谬误和计算成本高等问题。符号化知识图谱的技术体系作为大模型的补充,可以实现可控的内容理解和内容生成,为大模型产业落地提供正确的领域知识和复杂推理能力的支持。期待SPG成为知识图谱领域的重要技术,结合蚂蚁集团多元化场景的持续打磨以及与OpenKG社区力量的共建,推动产业在知识图谱领域的发展,促进不同领域之间的知识互通互联,促进大模型和知识图谱技术可控低成本产业落地。 ——清华大学人工智能研究院知识智能研究中心主任、教授李涓子 知识图谱作为符号化的知识表示体系,具备高阶语义、结构严谨、复杂推理等能力。在大语言模型(LLM)飞速发展的时代,知识图谱与LLM之间有丰富的互动关系,一方面LLM为低成本构建大规模知识图谱提供了有力工具,能否借助LLM构建超出现有知识图谱规模1-2个数量级的世界知识图谱成为一个有趣的研究问题;另一方面知识图谱的高质量、可解释的知识表示和推理能力,也为解决LLM的空想问题提供了一种可能的探索方向。 传统知识语义框架,如RDF/OWL及LPG等在知识管理方面有显著不足,很难支撑LLM时代的知识图谱构建与应用。SPG是蚂蚁知识图谱团队多年业务实践的总结,它有效克服了RDF/OWL及LPG的在知识管理上的不足,是一种新一代知识语义框架,借助SPG语义规范及可编程范式构建引擎架构,可以支持各领域图谱的高效构建和跨领域的知识语义对齐。 知识图谱的未来发展,离不开活跃的社区,未来蚂蚁将在SPG以及世界知识图谱构建与演化等方面持续与OpenKG社区合作,加速其技术成熟和产业落地。我们也欢迎产学各界同仁积极参与共建,共同促进知识图谱技术的成熟进步,促进不同领域之间的知识互通和流通,构建知识图谱+LLM双驱动可控落地的新一代AI技术体系。 ——蚂蚁集团技术研究院院长、副总裁陈文光 蚂蚁集团拥有多元化的业务场景和海量的领域数据。SPG框架是基于蚂蚁多年的知识图谱实践经验而打磨而成的。由于蚂蚁业务数据具有多源异构、时序动态和关联复杂等特点,这为大规模知识图谱构建提供了良好的孵化环境。SPG框架通过对多业务、多场景问题的抽象总结,定义了新一代企业级知识管理范式,具备较强的企业级应用适应性。它通过数据的知识化,将海量数据转化为知识,并通过复杂模式计算和图学习推理等方法解决高维业务问题。SPG框架为高效的领域图谱构建和跨领域图谱语义对齐提供了更多创新的可能性。此外,在大型模型时代,通过基于SPG构建的图谱框架和领域图谱,可以实现大型模型在安全风控、小微信贷、数字金融等业务领域的可控落地。通过与OpenKG的合作,我们希望通过社区和产业的力量加速推进SPG框架的完善,促进知识图谱技术的成熟,并推动产业的发展。在这个过程中,我们欢迎各位同仁积极参与共建,共同推动知识图谱技术的发展和创新,真正实现大模型与知识图谱双向驱动的可控AIGC,从而加速产业的落地。 ——蚂蚁集团机器智能部负责人、研究员周俊 序言 知识图谱作为一种建模和管理数据的方法,已经在企业数字化过程中发挥了重要作用。然而,随着企业对知识图谱的需求不断增加,传统的知识图谱技术面临着一些挑战。基于对当前知识图谱技术的深入研究和实践经验的总结,蚂蚁集团发现,传统的知识图谱技术在应对复杂的业务场景和大规模数据时存在一些局限性。例如,知识图谱的构建需要统一的工业级知识建模框架,以便适应不同领域的需求;知识图谱的推理能力需要更加高效和可解释;知识图谱的构建和推理过程需要更好的可编程性和跨场景迁移性。 作为蚂蚁集团知识引擎的负责人,梁磊带领团队研制了一个工业级知识图谱语义框架——SPG(Semantic-enhanced Programmable Graph)。当他第一次向我介绍蚂蚁的思考和SPG时,我惊喜地发现大家不约而同地在解决类似的问题,原来约定的1小时会议也慢慢演变成了一个上午的深度交流。之后我愈发感觉我们整合力量去扩展SPG来应对大模型时代新的机遇和需求,并向整个社区开源这个一站式全新的知识图谱平台工具。当我将这个想法告诉了梁磊,他和蚂蚁集团非常支持,我们也积极推进OpenKG的各个研发力量和蚂蚁知识图谱团队的合作,最终形成了一个虚拟团队开展了后续的双周交流,设计规划和研发工作。 SPG框架以属性图为基础,融合了RDF/OWL的语义性和LPG的结构性,兼具语义简洁和大数据兼容的优势。通过SPG框架,我们可以实现知识的动态到静态自动分层、领域内知识的唯一性和知识之间的依赖关系定义。同时,SPG框架还提供了可编程的范式,支持快速构建新的领域图谱和跨场景迁移。其在解决典型问题和场景方面具有广泛的应用价值。在黑产图谱和产业链事理图谱中,SPG框架可以帮助企业更好地识别和应对黑灰产对抗,提高风险防控能力;在知识推理和智能问答中,SPG框架可以提供更加准确和可解释的推理结果,提升用户体验和决策效果。 在本白皮书中,我们将详细介绍SPG框架的设计原理、技术模块和应用案例。我们希望通过这份白皮书,能够为读者提供一个全面了解SPG框架的机会,并激发更多的讨论和合作。我们相信,SPG框架将为企业数字化提供更加强大和灵活的知识图谱技术支持,推动知识图谱技术的发展和应用。最后,我们要感谢您对本白皮书的关注和支持。如果您对SPG框架或知识图谱技术有任何问题或建议,欢迎随时与我们联系。让我们一起开创新一代工业级知识图谱的未来! 谢谢! ——王昊奋、梁磊和SPG团队 目录 第1章从数据化到知识化:企业深化竞争优势,图谱技术与时俱进............................................11.1知识图谱作为新一代企业级知识管理范式的期待...............................................................11.2从二元静态到多元动态:知识管理模式的跃迁...................................................................21.3与领域知识结合为AI可控、可靠落地提供了新思路.........................................................41.4知识图谱技术体系的发展需与时俱进...................................................................................51.5基于SPG的工业级知识图谱引擎..........................................................................................6第2章基于属性图的知识管理存在的问题........................................................................................82.1典型案例1:黑产知识图谱....................................................................................................82.2属性图应用于黑产图谱所存在的问题.................................................................................112.3典型案例2:金融事理图谱..................................................................................................112.4属性图应用于事理图谱所存在的问题.................................................................................152.5知识建模中结构定义与语义表示的耦合导致的复杂性及异构性.....................................162.6对领域知识多元异构性表达能力不足.................................................................................182.7知识间逻辑依赖带来的一致性及传导推理问题.................................................................202.8面向非完备数据集的图谱构建与演化问题.........................................................................222.9无语义不可编程的属性图所存在的问题总结.....................................................................24第3章语义增强可编程框架SPG......................................................................................................253.1 SPG语义框架模型.................................................................................................................253.2 SPG分层架构..............................................................................................................