AI智能总结
Heather Hedden 高级顾问企业知识有限责任公司 数据峰会May 9, 2024 关于议长 Heather Hedden 高级顾问 , 企业知识 ⬢领导各种用例的分类和本体的设计和开发对于不同的客户。⬢从事各种公司和咨询工作超过 28 年的分类学家。⬢分类学设计和创作研讨会和课程的讲师。⬢这本书的作者,意外分类学家, 第三版 (今日信息公司, 2022 年) 。⬢博客在 accident - taxonomist. blogspot. com 企业知识一览 ESTABLISHED 2013- 我们的基金会和主要成员已经为全球客户提供知识管理咨询超过 20 年。 领域的专长10知识管理战略与设计技术解决方案内容与品牌战略企业搜索企业学习 分类学与本体设计敏捷设计思维与 facilitation 知识图谱、数据建模与AI集成变革管理内容管理 获奖顾问 100 家重要的公司在 KM(2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024) 前 50 名的前卫在 AI(2020, 2021, 2022) 定义的知识图谱 为什么选择企业知识图谱 ⬢在企业中 , 结构化数据存在于多个孤立数据中单独的数据应用程序中的存储库。 ⬢将它们组合到数据湖或数据仓库中 , 混合数据并不完全共享相同的原始结构。 数据湖或数据仓库也带来了非结构化数据。 ⬢结合的数据可以被搜索,但无法进行全面分析、比较、多步查询、发现或推理。 ⬢数据用户需要超越仅仅 “发现 ” 数据 , 从数据中获得见解和知识。 为什么选择企业知识图谱 问题: ●数据孤岛●异构数据源●混合非结构化和结构化数据●相同的东西用不同的名字●同一事物的本地化含义 解决方案: ●跨数据的语义链接●共享数据和内容●统一词汇●统一的应用程序视图 原因: ●效率低下●错过的机会●糟糕的决策 提供人:●知识图谱 为什么选择企业知识图谱 直观的互动以机器可读但人类可理解的方式提供信息。 发现隐藏的事实和模式大规模分析。 聚合与推理 来自多个不同解决方案的信息聚合。 定义的知识图谱 结合实例数据的知识领域模型。 ⬢表示统一跨域或组织的信息 , 丰富了上下文和语义。 ⬢包含紧密相关的业务对象和主题链接,分类, and已连接现有的数据和文档。 实际内容和查询层之间的一层。 ⬢Both机器可读的and人类可读的通过某种形式的显示。 ⬢从获取其名称知识base +图数据库和可选的图可视化。 定义的知识图谱 不同的定义从不同的角度 :(基于知识图谱食谱) KG 提供了一种结构和 知识工程师 : 所有的通用接口数据 , 并支持在整个数据库中创建智能多边关系。 KG 是一个模型创建的知识域主题专家在智能机器学习算法的帮助下。 作为额外的结构虚拟数据层 , KG 所在在现有数据库或数据集之上 ,将所有数据大规模链接在一起。 知识图谱- “使用图结构数据模型的知识库或拓扑来表示和操作数据。 “ 知识库 - “用于存储计算机系统使用的复杂结构化和非结构化信息的技术 ” 。 - 维基百科 知识图谱历史 1.由荷兰格罗宁根大学和特温特大学的研究人员于1982年启动的“知识图谱”项目(针对数学)2.特定主题知识库的兴起 : 例如 , 1985 年的 Wordnet ; 2005 年的 Geonames3.通用基于图的知识库 , 2006 年的 DBpedia(基于链接数据) , 2007 年的 Freebase4.Google 在 2012 年推出了知识图谱(基于 Freebase) , 以提高搜索结果的价值。5.大型数据重公司采用的知识图谱 : Airbnb 、亚马逊、苹果、美国银行、6.彭博社、 Facebook 、 Genentech 、高盛、摩根大通、 LinkedIn 、微软、 Uber 、富国银行7.到 2019 年 , 知识图谱成为各种会议的主题8.企业知识 graphs 成为焦点 知识图谱组件 知识图谱包括 : 1. 提取的数据存储在或虚拟化中 : a.A图形数据库 ,of either:i.基于 RDF 的三重存储ii.标记的属性图 (LPG)b.搜索索引(如果不大) 2. 哪些是用元数据标记 / 分类 / 注释的 : a.作为中的概念受控词汇表s (包括分类法) ,标记和组织数据b.as属性在一个本体论丰富数据 3.它们在语义上与本体论基于语义关系, 表示概念关系 知识图谱组件 KG 组件 : 数据 来自表格 / 关系数据到图... KG 组件 : 图数据库中的数据 图数据库以图的形式构造数据 , 包括节点 (点 ,顶点) 和边 (线、链接) , 而不是作为行和列的表 , 作为关系数据库是。 KG 组件 : 图数据库中的数据 KG 组件 : 图数据库中的数据 RDF 三重存储图数据库 ⬢存储数据⬢存储内容的链接⬢存储元数据、受控词汇表、分类学、本体 基于 RDF : 资源描述框架 万维网 (W3C) 建议 www. w3. org / TR / rdf11 - concepts ⬢“Web 上数据交换的标准模型 ” 需要使用 URI 来指定事物和指定关系 将信息建模为主语 - 谓语 - 宾语三元组 KG 组件 : 分类 ⬢分类法是受控,有组织的一组概念。⬢概念用于标记 / 将内容分类为使查找和检索特定内容更容易。⬢这使得更好查找能力比单独搜索。⬢分类法是一种连接的中介用户想要的内容。 KG 组件 : 分类 A知识组织系统 (KOS)那就是... 1. 受控 :一种受控的词汇 , 基于明确的概念 , 不是只是文字(事物, not字符串). 概念以层次结构 , 类别或方面的结构进行组织 , 以使其更易于查找和理解。 KG 组件 : 分类 你可以用分类法做什么 : ⬢主题浏览:探索按层次结构排列的主题 , 然后在主题 ⬢分面(过滤 / 细化) 搜索 :查找内容满足基本的组合标准 ⬢发现:查找与已找到的内容相同概念标签的其他内容;探索更广泛的、更具体的以及(有时)相关分类主题。 内容策展 : 根据预先设置的搜索词创建提要或警报 · 元数据管理 : 支持识别、比较、映射、分析等。 KG 组件 : 分类 标准 : SKOS(简单知识组织系统) 表示知识组织系统的数据模型(“标准 ”) 万维网 (W3C) 建议 (2004 年初版 - 2009 年修订版) ⬢“一种通用数据模型 , 用于通过以下方式共享和链接知识组织系统Web ”www. w3. org / TR / skos - reference ⬢方便地将此类词汇表作为链接数据发布和使用 ⬢基于 RDF(资源描述框架) , 并编码在 XML , JSON , JSON -LD 等。 ⬢概念和关系是具有 URI 的资源 建立在 SKOS 上的 KOS 是机器可读和可互换的 ⬢不同的 KOS 类型 (名称权限、词汇表、分类方案、同义词库、分类法) 都可以构建在 SKOS 中 KG 组件 : 分类 SKOS 原则和元素 KOS 是一组用 URI 标识的概念 概念可以按层次分为概念方案 ⬢概念有一个首选标签任何自然语言 , 以及任何数量的替代标签and隐藏标签⬢概念可以用任意数量的词法字符串 (标签) 在任何自然语言 ⬢概念可以使用分层和关联语义相互链接关系: 较宽 / 较窄和相关 可以使用各种映射关系链接不同概念方案的概念 ⬢⬢⬢范围注释、定义、编辑注释和历史注释概念可以用Notes概念还可以是 : 集合 , 可以标记或排序 KG 组件 : 分类 ⬢集中管理的分类法(不是在孤立的应用程序中构建的分类法) ,现在倾向于建立在 SKOS 数据交换模型上。 ⬢由于SKOS基于RDF,SKOS分类学可以在RDF图数据库中轻松管理,并与数据、其他分类学和本体连接。除了链接到内容。 KG 组件 : 本体 本体 ⬢知识领域的模型⬢类似于(大部分) 知识图 , 但不包括所有实际实例数据⬢在一个特定领域中对实体的类型(类别)、属性特征及其相互关系进行正式命名和定义。⬢关系包含意义 , 或者是 “语义 ”⬢属性是实体的自定义属性⬢W3C 提供的标准 : Web 本体语言 (OWL) 和 RDF - Schema⬢关于特定领域的一组精确的描述性陈述⬢语句表示为主语 - 谓语 - 宾语三元组⬢包含类 , 关系和属性 , 它们以三元组的语句链接在一起 KG 组件 : 本体 本体模型示例 : 关系:总部位于 < > 的雇主所在地 属性 : 电子邮件地址 , 职位 , 总部城市 , NAICS 代码 , 货币 , 语言 KG 组件 : 本体 W3C 本体标准和指南 OWL(Web 本体语言)www. w3. org / OWL RDF(资源描述框架) “一种语义 Web 语言 , 旨在表示丰富和关于事物的复杂知识 ,事物的组和事物之间的关系 “- RDFS的扩展 www. w3. org / TR / rdf11 - concepts“数据的标准模型网络上的交换 “以三元组建模 ” RDFS (RDF - Schema) www. w3org / 2001 / sw / wiki / RDFS一种通用语言,用于表示简单的WebRDF词汇表 - 超越RDF以指定RDF资源的类和属性,作为本体论的基本要素。 https: / / www. w3. org / TR / 2008 / RSPARQL (SPARQL 协议和RDF 查询语言) EC - rdf - sparql - query - 20080115 /要查询和更新的语言RDF 数据 KG 组件 : 本体 OWL 特定的本体组件 实体 - 三元组的主题(域) 或对象(范围) - 图节点 类⬢具有共同特征和关系的命名概念集⬢可以分组子类或个人(类的实例)⬢个人⬢类的成员或实例(可以在链接分类中管理) ⬢数据类型属性⬢属性或个人的特征⬢数据类型属性的对象是一个值⬢对象属性⬢Relations个体之间⬢可能是有向的 , 对称的 , 或具有逆 KG 组件 : 本体 + 分类 本体是链接并增强其他受控词汇的语义层。 KG 组件 : 本体 + 分类 你不能单独使用分类法 , 但可以使用添加的本体( 因此具有知识图) : ⬢模型复杂的相互关系(例如在产品审批或供应链流程中)并连接到内容 ⬢搜索基于类别(类) 而变化的更具体的标准 探索概念之间的明确关系(不只是更广泛 , 更窄 , 相关) ⬢可视化概念和语义关系 跨企业中孤立的内容和数据存储库进行连接跨数据执行推理和推理跨数据集搜索 , 而不仅仅是搜索内容 构建知识图谱 构建知识图谱的步骤 : 1. 确定用例,或需要解决的问题。2. 清点和整理相关数据及内容。3. 识别并映射数据之间的关系:设计并实施本体论。4. 在图数据库中集成示例数据。5. 作为概念验证测试,连接到本体论/分类法。6. 连接到或构建用户应用程序和界面。7. 使用数据管道、自动标注和AI技术进行自动化和扩展。 构建知识图谱 : 示例基础架构 构建知识图谱 所需的核心软件和技术 : ⬢图形数据库管理软件⬢基于 W3C 标准的分类 / 本体管理软件⬢搜索软件(如 Solr 或 Elasticsearch)⬢前端 (Web) 应用程序 同样重要的是 : 提取 - 转换 - 加载 (ETL) 工具来提取数据文本挖掘 / 自然语言处理 / 实体提取工具机器学习自动分类工具⬢在 RDF 的 SPARQL 查询语言中指定的功能(例如加权 / 评分关系的算法) 构建知识图谱 角色协作 : ⬢解决方案架构师⬢软件工程师⬢Web 开发人员⬢信息架构师 ⬢⬢数据架构师数据分析师数据