您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[同方知网]:同方知网(陈琳):同方知网KBase数据库介绍:知识领域需求驱动的数据库探索者 - 发现报告

同方知网(陈琳):同方知网KBase数据库介绍:知识领域需求驱动的数据库探索者

信息技术2024-08-26陈琳同方知网S***
AI智能总结
查看更多
同方知网(陈琳):同方知网KBase数据库介绍:知识领域需求驱动的数据库探索者

知识领域需求驱动的数据库探索者 陈琳|同方知网数字出版技术股份有限公司 自主·创新·引领 目录Contents 知网简介01 KBase介绍02 KBase应用领域03 KBase未来发展04 Chapter01 第一部分知网简介 知网简介 同方知网 同方知网是以数据与技术双轮驱动的知识服务提供商,1995年始创于清华大学,2020年随同方股份加入中核集团,成为中核集团下属成员单位。同方知网致力于全方位、立体化、体系化打通国内国际知识生产、传播和利用的全过程,是数字出版产业与期刊、图书、报纸等各类传统出版产业深度融合发展的开拓者。 企业定位和目标 Ø企业定位:服务科技创新,促进学术传播,承担社会责任Ø企业目标:建设中国特色、世界一流的学术资源信息平台 “12345”战略 Ø建设“一个平台”:中国特色、世界一流的学术资源信息平台;Ø实现“两大效益”:社会效益、经济效益;Ø领跑“三条赛道”:数字出版、增值服务、互联网平台;Ø强化“四种能力”:品牌建设、资本运作、国际经营、风险防控;Ø实施“五项工程”:版权固本、数据强基、技术创新、服务增值、平台转型; 同方知网积极融入人工智能产业变革,发布了我国首个专业知识增强的知识服务和科研行业大模型,以全栈自主可控为基础,注入了知网专业知识数据,有效解决了通用大模型可信度低、专业性差、更新时效性低等突出问题,为千行百业的数智化升级赋能。 人工智能 同方知网前瞻性布局数据要素产业,持续创建数据要素产业生态合作圈,面向知识资源产业链上下游客户打造集数据资源化、数据产品化、数据资产化于一体的综合服务平台;同时积极开展数据入表、数据治理、数据资产化、数据应用场景、数据交易与流通等服务,加快数据要素产业升级。 数据要素 Chapter02 第二部分KBase介绍 KBase介绍 KBase---Knowledge 国产搜索型数据库、多模数据库 研发语言:C/C++同方知网:完全自主知识产权研发周期:20余年研发历程 四种数据库模型: 1.搜索型数据库模型2.NXD数据库模型3.RDF数据库模型4.向量数据库模型 兼容标量数据、全文数据、向量数据的混合查询 •丰富的全文索引类型对应丰富的检索功能 •丰富的传统文献检索控制能力 •是否分句分段•是否分词•是否启用停用字 •精确查找•位置查找•同句•同段•词序控制•距离控制•词频查找•模糊查找 •拼音(音调)索引•词干模式(词干、繁简统一) •客户端负载均衡器 •根据代理层实时压力进行调度 •分布式集群 •基础:多副本并行表•代理层:不存储数据,负责结果集合并、排序分组并行计算•中心节点、副中心负责日志收集和调度 自动化、实时性、一致性 KBase从V12版开始支持了全新的数据更新方案-读写分离系统: 知网原有的日更新、月更新等需要在几百台后端机器上实施的操作,优化为只需更新几台源端机器,通过统一版本管理机制与增量自动同步机制更新到其余几百台机器上。 大幅减少了人工运维成本,并提供更好的数据一致性,并且该系统可支持全天候24小时不间断数据更新与同步。 KBase介绍-NXD数据库引擎 KBaseNXD数据库管理系统是一款创新的数据库产品,专为满足日益增长的XML数据管理需求而设计。它利用XML数据的结构化特性,为用户提供了一个强大且高效的XML数据存储和管理平台。 内容碎片化检索 内容动态重组 模板驱动数据融合 细粒度访问XPath和XQuery 数据库技术的发展在很大程度上受到应用需求与应用场景的推动。 国产数据库,只有通过大力推广应用才会真正有长足的发展! KBase介绍-RDF数据库引擎 RDF在知网节的应用 知网节是知识网络节点的简称,它以一篇文献作为节点,围绕这篇文献构建起一个知识网络。 关系数据库问题 •生成大量关联数据•更新速度慢 RDF优势 •实时计算二级关联文献•更新速度快•对关联文献分组统计,比图数据库系统ArangoDB快10倍 KBase介绍-向量数据库引擎 随着AI应用的普及,向量检索在包括语义检索、图片搜索、视频搜索、文献推荐、智能问答、AIGC、知识增强等应用场景中都有广泛需求。随着LLM、AIGC的技术发展,向量数据的管理需求更是得到空前释放,同方知网从2023年开始,面向AI,面向大模型,基于KBase打造原生向量数据库系统,建立了AIGC时代的知网数据库技术基座。 KBase面向多种不同的向量计算、检索场景,支持各种对应的向量索引算法,实现在单机上,高维向量数据规模为十亿量级时,响应时间达到毫秒级别。 KBase介绍-向量数据库引擎 知网对向量数据库的共性需求、个性化需求 •人工智能应用中向量数据存储和检索技术需求:如论文查重、AI学术助手、AI写作、智能医疗等。 •大规模海量文本数据的语义检索需求:段落、全文、篇名、摘要等信息的高性能实时的文本语义检索能力。•多模态数据的检索需求:文本、图片等混合数据的语义检索能力。•混合检索需求:向量数据与非向量数据之间的混合检索能力。•公司主营业务技术支撑,技术发展创新的需要。 大模型时代向量数据库的通用需求 •大模型的快速应用,推动向量数据库向高扩展、高性能、实时性方向发展。•作为大模型的外部知识库,提高大模型回答的准确性和可靠性,还可广泛应用于推荐系统、自然语言处理等AI领域。•向量数据库的研发和应用将不断推动人工智能技术的进步,助力各类人工智能应用取得更大的成功。 KBase介绍-融合分布式文件系统HFS 强大的文献管理功能 HFS •集中化管理•版本控制•格式转换 作为KBase二进制数据存储的解决方案。提供了分布式存储非结构化数据的能力,这使其在文献管理和数据处理领域具备了强大的能力和竞争优势。 安全的数据存储和传输 •多副本存储•SM4加密传输•权限管理 Chapter03 第三部分KBase应用领域 政府 企业 电子政务政务问答信息公开 企业搜索数据分析智能客服 教育 安全 数字图书馆档案管理学术研究助手 电子档案安全审计 电力 医疗 内网搜索知识管理智能问答 KBase应用领域-产品案例:知识管理产品应用 KBase应用领域-产品案例:知识问答产品应用 KBase应用领域-产品案例:科研诚信产品应用 Chapter04 第四部分KBase未来发展 存储引擎与架构 面向云原生、面向数据安全、面向高性能读写并发,重构数据库存储引擎。 用AI重构KBase 02 在搜索的智能交互、多模检索引擎的融合排序、基于AI的语义搜索引擎等方面逐步加强AI技术的应用。 向量数据库持续优化 03 面向大模型RAG等应用需求,持续优化向量数据库。 信创生态与国产化 与外部硬件厂商一起形成解决方案,成为信创云的一部分。 THANKS 感谢聆听 自主·创新·引领