腾讯云工具指南 AGI时代的“数据枢纽”-向量数据库05 目录CONTENTS 产品价值—向量数据库是AGI时代的数据枢纽01 全球产业数据库具有怎样的关键发展趋势?04中国信通院人工智能创新中心负责人、云计算与大数据研究所副所长——魏凯 为什么AGI时代需要向量数据库?05腾讯集团高级执行副总裁、云与智慧产业事业群CEO——汤道生 优质的向量数据库应该符合怎样的标准?06中国信通院云计算与大数据研究所大数据与区块链部主任——姜春宇 腾讯云向量数据库的具体优势及实践 07腾讯云创始团队成员、腾讯云数据库副总经理兼向量数据库负责人——罗云 02行业实践—向量数据库解决各行各业智能化场景痛点 百川智能:解决大模型企业的数据大规模与高性能需求09 销售易:向量数据库在智能CRM的实践11 03用户声音——开发者的产品实测报告 用向量数据库构建图搜图系统14码农学习联盟 18齐光同辰 P A R T01 产品价值向量数据库是AGI时代的数据枢纽 AGI时代的到来激发了数据更大的生产力——如何更好的管理、存储、检索非结构化数据将决定大模型在各行各业的应用前景及可能性而为AI而生的向量数据库,或许是大模型的“最佳拍档” 全球产业数据库具有怎样的关键发展趋势? 中国信通院人工智能创新中心负责人、云计算与大数据研究所副所长魏凯 趋势1:从类型看,非关系型数据库前景广阔 就目前全球数据库产品分布来看,非关系型数据库数量已经超过了关系型数据库。相比之下,国内的数据库市场依然以关系型数据库为主(整体占比超过65%),这其中又以图数据库、时序数据库等关键领域类型数据库为主。 趋势2:从创新看,我国的非关系型技术实力不断增强 从V L D B 、S I G M O D 和ICDE三大数据库领域权威的学术会议来看,近三年,我国企业及高校平均贡献占比分别为23.81%、27.17%和40.70%,且数量呈逐年上升趋势。 趋势3:从标准看,数据库需要从供给侧到标准侧制定相关标准 目 前 数 据 库 行 业 玩 家 众多,亟需统一行业标 准 规范发展:主要面向三类参与 方(数 据 库 技 术产品、数据库服务商以及数据库应用机 构)建立不同的评判标准。 为什么AGI时代需要向量数据库? 腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生 最近这一年,AIGC浪潮席卷全球,很多志向高远的企业,都在思考如何拥抱新技术,以AI重塑公司的业务和产品。很多客户也和腾讯开展了紧密的合作,探索如何将大模型在实际场景中用起来,帮助业务降本、提效、增收。 众所周知,大模型应用的关键,不只是构建好模型算法,更重要的是做好数据的处理、挖掘等问题。数据贯穿了大模型从预训练到产业落地的全过程。一定程度上,智能时代,企业数据处理能力有多强,决定了业务发展的天花板有多高。 企业在搭建和使用大模型时,需要把海量数据,安全高效地接入大模型,但在企业复杂的数据中,适合关系型数据库的,结构化数据仅有20%,其余80%是文本、图像、视频、音频等非结构化数据。 向量数据库可以把复杂的非结构化数据,处理成多维逻辑的坐标值,与大模型进行连接,数据处理效率比传统方式提升10倍。 同时,向量数据库也可以作为“外部知识库”,给大模型输送最新、最全面的信息,应对有时效性的问答;并且让大模型拥有长期记忆,避免聊天时“断片”。可以说是大模型的“最佳拍档”。 AI驱动产业变革的时代正在到来,作为支撑大模型的重要基础设施,向量数据库也会从一个“领域型数据库”,变成覆盖广阔场景的“通用型数据库”,甚至是“数据枢纽”,前景广阔。 优质的向量数据库应该符合怎样的标准? 中国信通院云计算与大数据研究所大数据与区块链部主任姜春宇 随着人工智能时代到来,一些非结构化数据需要通过机器学习算法从中提取出以向量为表示形式的“特征”,向量数据库的兴起便是为了解决对这些向量进行存储与计算的问题。 相比其他类型数据库,向量数据库具有8大关键技术能力: 高级查询功能 硬件加速 分布式与并行计算能力 实时处理能力提升 更高效的分布式与并行计算可以让大规模向量数据在多个计算节点间进行 分配,使得查 询、排序等操作能够并发进行,大大缩短了计算时间。 为了更高效地处理数据,硬件加速将是一种有效的解决方案。利用GPU的强大并行计算能力,或者利用定制的AI芯片,都可以大大提高向量数据库的处理能力。 许多AI应用需求求向量数据库有高效的实时处理能力,即使是 对大规模的向量数据,也能在最短的时间内找到最匹配的结果。 高级查询功能,如范围查询、最近邻查询,甚至基于语义的查询等,将是向量数据库的必备功能。 与大模型的深度融合 多模态数据处理能力 提升通用性和易用性 不同大模型的性能优化 未 来 ,向 量 数 据 库 将 和 深 度 学习、大 模 型 更 紧密地 结合,共同推动AI的发展。向量数据库需要能够理解大模型的需求,为其提供最合适的数据服务。而大模型也需要能够利用向量数据库的能力,以提高自身的效率和效果。 随着向量数据库的应用场景不断拓宽,提 升其 通 用性 和易用性 成为一项 重要 任 务。这包括提 供 更简单的数据导入导出,提供更易用的查 询接口,以 及 提 供 更 灵活的数据管理功能。 随着大模型向多模态发展,如图文混合模型、音视频混合模型等,对 应 的 数 据 也 将 会 更 为 复 杂 多元。向量数据库需要能够有效地处理这些多模态数据。 不同类型的大模型对数据的处理和计算需求可能会有所不同。向量数据库需要能够针对这些差异进行优化,以提供最佳的性能。 腾讯云向量数据库的具体优势及实践 腾讯云创始团队成员、腾讯云数据库副总经理兼向量数据库负责人罗云 腾讯云将向量数据库定义为AGI时代的数据枢纽,其需要具备“企业化”及“智能化”两项关键能力:前者需要满足企业对分布式、高性能、高可用、安全性、可靠性及成本可控六个关键能力;后者则需要实现借口、计算、存储三个关键领域的智能化。 P A R T02 行业实践向量数据库解决各行各业智能化场景痛点 解决大模型企业的数据大规模与高性能需求 客户场景:搜索增强 百川智能是一家为客户提供大模型服务的能力,基于搜索与输入法多年积累,以RAG框架为原型融合企业私有数据、实时性数据。为客户提供搜索增强的能力,一方面基于搜索经验优化大模型,另一方面基于搜索模型补齐大模型短板,解决大模型应用常见的模型幻觉与数据时效性问题。 场景痛点 百川智能作为模型服务提供商,数据规模在亿级以上。使用向量数据库方案之前主要以“开源向量算法”支撑,其面临两个主要痛点: 1.可用性较弱。作为算法级别的功能,在分布式系统下会存在扩展性、可用性等方面问题。2.消耗大量人力做二次开发。因为没有成熟体系化,需要消耗大量人力做二次定制开发。比如说向量数据的格式组织及管理,数据分片、导入、管理、删除、索引等。 解决方案:向量数据库的统一技术栈支持 一、管理个性化知识:在企业知识文档上传时统一化存储管理 传统ES数据库是为关系型结构数据设计,向量数据库基于AI而生集成Embeding服务进行向量化处理—— 把原始长文本内容分割为表征能力更强的短文本通过Embedding模型生成向量化数据将向量化数据在数据库内分区管理运用可视化数据管理平台在线执行互表操作 二、问答个性化知识:在问答企业知识问题时实现搜索增强 当大模型面对企业级数据问答时,如果不能融合企业私有数据及实时性数据即会出现常见的幻觉问题。向量数据库提供端到端的RAG检索方案。当外部用户向模型起初问题时—— 基于Embedding对问题结合其聊天历史向量化解析通过在线及离线方式检索融合知识库及网页端内容基于相关性模型进行精排再求解输出大模型基于更全面与实时数据推理答案并召回数据 向量数据库在智能CRM的实践 客户背景 销售易将AIGC能力无缝融入CRM的销售及服务场景中,为客户提供“智能销售”与“智能服务”功能,前者包括:智能销售助理、日程会议纪要、客户画像标签、推荐解决方案、推荐潜在客户;后者包括:智能客服机器人、坐席辅助、智能会话质检、生成知识条目、工单创建分配。 场景痛点 企业服务市场应用大模型的主要门槛是满足企业业务数据的安全性与时效性—— 1.数据安全:企业的业务数据需要满足安全合规要求,不能直接用于大模型训练2.快速变化:企业时刻都在产生大量的数据,如何适应业务数据快速变化的需求3.实时响应:业务系统对实时响应要求很高,需要从海量数据中迅速检索问题答案4.场景落地:销售和服务场景众多,如何将数据结合大模型来解决实际业务问题 原来的关系型数据库因为其数据结构原因,更多应用于表单级系统,无法支撑智能化需求,主要因为——1.其检索时依赖于关键词文本搜索而非语义搜索,需要做大量分词的词库词法维护2.其推荐时无法理解自然语言描述文本,无法做智能化推荐 销售易主要应用向量数据库于底层知识库生成与检索 基于向量数据库,智能机器人可以实现—— 1.意图识别:通过语义分析和识别,在问题描述模糊的情况下,精准识别用户意图,结合知识库资源,准确解答问题 2.检索信息:自然语言描述问题和需求,利用语义相关性检索知识库和CRM系统数据,综合内容生成结果 3.多轮对话:对多轮对话和上下文理解,让用户感受到拟人化的服务体验,实现了自然、流畅的对话。 4.创建信息:自主调用CRM系统API,创建CRM线索记录,保存潜在用户的信息;或创建服务工单,记录用户问题。 基于向量数据库,全内容语义检索和推荐相似客户—— 知识库文档与语义搜索:知识库、文档、附件CRM数据相关性搜索:检索对象、会议纪要、活动记录推荐相似客户:基于相似特征及内容(而不是传统表单关键词检索) 向量数据库在SaaS领域的应用优势 1.高性能大规模:企业的业务数据需要满足安全合规要求,不能直接用于大模型训练2.支持向量和标量:支持向量和标量字段的混合存储和检索,是文档内容和结构化字段之间的桥梁。3.运维轻量简便:按照帮助手册简单接入,无需安装、部署和运维,有效减少运维成本和人力成本。4.专家级服务支持:腾讯云数据库团队提供专家级的技术方案指导,赋能研发团队加速产品和架构落地。 P A R T03 用户声音开发者的产品实测报告 用向量数据库构建图搜图系统 码农学习联盟 以图搜图案例 下面我们使用 PyTorch 和腾讯云向量数据库构建一个以图搜图(Reverse Image Search)系统。 该系统以图片作为输入,基于图片的内容检索出最相似的图片。其背后的基本思想是利用预训练的深度学习模型提取出每个图片的特征,并将其表示为一个嵌入向量(Embedding)。然后,通过存储和比较这些图片嵌入向量,实现图片的检索。 工作流程如右图: 首先,使用 PyTorch 对输入图片进行预处理并提取特征,得到图片的嵌入向量。然后,将这个嵌入向量存入向量数据库中。当需要检索图片时,同样先对查询图片进行预处理和特征提取,得到查询图片的嵌入向量。在向量数据库中对该向量进行相似性检索,向量数据库会返回与该向量相似的 top k 个向量。 PyTorch 生态包括 torch 和 torchvision 两个重要的库。torch包括了各种有用的数学函数,以及用于创建和训练神经网络的工具。torchvision 库专门用于处理图像数据。 构建项目 下面会对重要的代码部分做详解,最终的 demo 代码,可以在文末获取,代码拉到本地就可以运行,对新手很友好。 1.创建一个新的项目目录: 2.创建一个新的 Python 虚拟环境(可选,但推荐): 创建一个新的 Python 虚拟环境能有效地隔离项目依赖,简化依赖管理。 3.安装需要的 Python 包: 激活这个虚拟环境: Linux/macOS 这个命令会将 torch、torchvision、Pillow、tcv