您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OceanBase]:OceanBase向量能力与AI应用案例集(2025) - 发现报告

OceanBase向量能力与AI应用案例集(2025)

信息技术2025-07-04-OceanBase话***
AI智能总结
查看更多
OceanBase向量能力与AI应用案例集(2025)

目录 一、引言 01 1.1 为什么现在必须重新思考“数据库与AI的边界”1.2 OceanBase Vector 部分代表用户 二、Data x AI 革命 03 2.1 Data x AI 发展趋势:从非结构化数据爆发到技术架构革新2.2向量嵌入可以帮助理解语义2.3 向量数据库的作用及场景 三、OceanBase Vector 构建一体化向量数据库07 3.1 OceanBase 向量特性介绍3.2 OceanBase 向量的五大优势3.3 OceanBase:全球技术领先的分布式数据库3.4 Data x AI Landscape:开源开放,深度融入全球AI生态圈 四、向量数据库选型和未来趋势 17 4.1 选择向量数据库的考虑因素4.2 性能基准4.3 迁移服务4.4 未来趋势 五、案例 21 6.1 货拉拉:资损代码识别与数仓 AI 答疑6.2 携程:基于 OceanBase 向量搭建酒店图片检索6.3 中国联通软研院:ChatDBA 构建运维 RAG6.4 九讯云:电商导购 + 商品快速搜索 + 智能客服6.5 慧视通:智能登签6.6 三维家:基于 OceanBase 向量的家具智能推荐6.7 视源股份:学习机绘本题库6.8 当贝投影:观影记录推荐6.9 伯俊科技:知识库6.10 in银泰商业:零售业智能问数平台6.11 某跨境电商:电商网站推荐系统6.12 百宝箱:AI Agent 一、引言 IDC DataSphere 数据显示,到 2027 年,全球非结构化数据将占到数据总量的 86.8% ,达到 246.9ZB 。全球数据总量从 103.67ZB 增长至 284.30ZB ,复合增长率为 22.4% ,呈现稳定增长态势。随着互联网内容化的飞速发展,以音视频等多媒体内容为代表的非结构化数据呈现出高速增长的趋势。文本、图片、音频和视频等非结构化数据的存储和检索需求也变得越来越多。 当前我们大量的基础设施几乎都是面向结构化数据而设计实现的,可以预见数据处理技术需要从结构化向非结构化转变,以更好的应对海量非结构化数据的管理需求。 在生成式 AI 时代,非结构数据的存储、计算和应用将得到急剧发展。非结构化数据的爆发不仅是技术挑战,更是商业机遇。向量数据库正从单一检索工具演变为 AI 原生数据基础设施,其与云计算、边缘计算、具身智能等融合将催生更复杂的生态系统。未来具备混合查询、一体化架构与企业级数据安全保护能力的向量数据库,将成为企业智能化转型的核心引擎。 1.1 为什么现在必须重新思考“数据库与 AI 的边界” 人工智能技术的快速发展,尤其是生成式 AI(如 ChatGPT)、检索增强生成(RAG)和多模态检索的兴起,正深刻改变企业对数据的需求。如今,数据不仅仅是简单的存储和查询对象,而成为智能应用和实时决策的核心资产。与此同时,海量的非结构化数据——文本、图像、音频、视频等多模态信息,正以前所未有的速度爆发增长,这对数据基础设施提出了新的挑战。 传统数据库主要面向结构化数据和事务处理设计,虽然在稳定性、一致性和高效事务处理方面表现优异,但面对非结构化数据的存储、向量检索以及实时智能计算时,功能和性能明显不足。特别是在 AI 驱动的实时应用场景中,数据库需要支持从高并发的在线事务处理(OLTP)到复杂的实时分析(HTAP),并且要无缝集成 AI 能力,才能满足业务快速变化的需求。因此,必须重新定义数据库与 AI 的边界,打造一个既支持事务一致性,又具备实时分析和 AI 推理能力的统一数据平台。这样的平台不仅能够处理结构化和非结构化数据,还能融合语义搜索、向量计算、多模态数据处理等 AI 功能,实现业务数据与智能计算的深度融合。 重新思考“数据库与 AI 的边界”,意味着推动数据库向实时智能化转型,构建面向未来的统一数据底座。这样的数据平台不仅是企业数字化的基石,更是实现智能经济和 AI 赋能业务的关键引擎。 二、Data x AI 革命 2.1 Data x AI 发展趋势:从非结构化数据爆发到技术架构革新 在人工智能技术的推动下,数据的角色正经历深刻变革。过去,数据主要由结构化信息组成,便于存储、管理和处理。然而,随着 AI 的普及,数据的种类和形式变得更加多样,尤其是非结构化数据的爆发,推动了从传统数据存储到复杂数据处理的转型。这一转变不仅改变了数据的存储与查询方式,还带来了更为复杂的数据分析与处理需求。随着 AI 的深入应用,数据不仅仅是“被存储”的对象,更是“智能化处理”的核心要素。尤其是在多模态数据处理和知识图谱构建等场景中,数据的多维度特性要求新的技术架构来支持更高效的处理与推理能力。因此,未来的数据处理不仅需要应对结构化数据的管理,还要支持非结构化数据、混合数据、以及实时数据的智能分析和多模态检索等多重需求。 在这一背景下,Data × AI 的深度融合正在成为技术发展的关键趋势。非结构化数据的爆发、技术架构的革新,以及AI技术的融合,这一趋势不仅重塑了数据处理范式,更催生出全新的技术架构与应用场景。在 Data x AI 的深度融合下,以下是预测的五个关键趋势方向: 非结构化数据爆发与多模态检索需求激增 非结构化数据的复杂性(高维度、语义关联性)迫使传统数据库向向量化转型。例如,企业需对视频流中的行为特征、医疗影像的病理特征进行实时分析。向量数据库通过将多模态数据(人脸、声纹、指纹等)统一转化为向量,支持跨模态联合检索。这一能力在认证场景中尤为重要,例如结合人脸与声纹的综合打分机制,准确率远超单一模态检索。预计到 2028 年,全球向量数据库市场规模将达 43 亿美元,年复合增长率 23.3%,其中多模态场景占比将超过40%。 技术架构革新:混合查询与分层存储成为标配 为应对非结构化数据的高维特性,向量数据库正从单一稠密向量检索向混合查询演进: 稀疏与稠密向量融合: 多级存储优化成本: 结合 BM25(稀疏向量)与深度学习模型(稠密向量)的混合检索方案,可提升语义搜索准确率(如电商场景中关键词与商品特征的联合匹配)。 基于内存、本地磁盘、对象存储的分层架构,将冷热数据分离存储,降低内存依赖成本。例如,热数据(高频检索的实时视频特征)存于内存,历史数据转存至低成本对象存储。 AI 融合:从 RAG 到大模型的“数据中枢” 生成式 AI 的爆发使向量数据库成为大模型的“长期记忆体”与知识增强工具: RAG(检索增强生成): 训练与推理优化: 通过向量数据库存储外部知识库(如企业私有文档),结合用户提问生成上下文增强的 Prompt ,减少大模型“幻觉”问题。 在模型训练中,向量数据库统一多源数据格式(文本、图像等),加速特征提取与检索;在推理阶段,其作为隐私屏障,隔离用户敏感数据与通用模型,防止信息泄露。 云上的向量数据库的技术栈加速迭代 未来会出现新的存储形态,即 VaaS (Vector as-a-Service),即用户将使用公有云服务,利用更方便的向量处理接口,支持存储和梳理向量数据。同时可以结合 GPU 等硬件加速索引构建与相似度计算,提升大规模数据吞吐量。另外可以结合云的弹性和分布式结构特性,满足 AIGC 业务的突发流量。 非结构化数据爆发与多模态检索需求激增 在 AGI 时代,数据的质量、可获取性和组织方式正逐渐成为制约智能化能力上限的核心因素。相比单点技术的突破,真正支撑 Data x AI 落地的,是底层数据基础设施的统一与演进。 当前,大模型能力的提升已经从“算法为王”过渡到“数据为本”。生成式 AI 的幻觉问题、本地知识补全、多模态理解能力、实时交互性能等核心挑战,本质上都指向一个共同根源——对高质量数据的高效组织、融合与使用能力的缺失。这不仅需要更强的模型,还需要一个能够支撑全链路数据流转、智能处理和安全管理的统一数据底座。 统一的数据底座不仅提供结构化与非结构化数据的融合能力,还具备以下关键能力: 低成本获取与高质量治理:应对数据获取难、数据质量评估难的问题。 跨模态融合与统一建模:满足文本、图像、行为等多模态数据的统一表达与查询需求。 实时性与可扩展性结合:支持海量长尾场景下的在线智能应用。 流动性与可控性并存: 保障金融、医疗等高严谨行业数据的安全可控流动。 2.2向量嵌入可以帮助理解语义 非结构化数据是指没有明确定义的数据格式和组织结构的数据。非结构化数据通常包括文本、图像、音频、视频等形式的数据,以及社交媒体内容、电子邮件、日志文件等。由于非结构化数据的复杂性和多样性,处理这些数据需要采用特定的工具和技术,例如自然语言处理、图像识别、机器学习等。 传统搜索技术允许我们使用关键词来从非结构化数据中获得信息。这些方法通常在理解内容的深层含义方面存在不足:丢失了上下文、语义和用户意图。因此需要使用高级技术如自然语言处理来识别文本中的关键实体、情感和主题。 处理非结构化数据最强大的方法之一是使用向量 Embedding(向量嵌入):通过深度学习神经网络提取非结构化数据里的内容和语义,将非结构化数据(文图音视)变成特征向量的过程。Embedding 技术将原始数据从高维度空间映射到低维度空间,将具有丰富特征的多模态数据转换为多维向量数据。这些 Embedding 由许多维度组成,有时被称为特征,而与传统的基于关键词的搜索不同,向量 Embedding 采用语义相似性搜索,其中在高维空间中接近的向量代表具有相似含义或内容的项目。 2.3 向量数据库的作用及场景 人工智能技术的快速发展,尤其是生成式 AI(如ChatGPT)、检索增强生成(RAG)和多模态检索的兴起,正深刻改变企业对数据的需求。如今,数据不仅仅是简单的存储和查询对象,而成为智能应用和实时决策的核心资产。与此同时,海量的非结构化数据——文本、图像、音频、视频等多模态信息,正以前所未有的速度爆发增长,这对数据基础设施提出了新的挑战。 传统数据库主要面向结构化数据和事务处理设计,虽然在稳定性、一致性和高效事务处理方面表现优异,但面对非结构化数据的存储、向量检索以及实时智能计算时,功能和性能明显不足。特别是在AI驱动的实时应用场景中,数据库需要支持从高并发的在线事务处理(OLTP)到复杂的实时分析(HTAP),并且要无缝集成 AI 能力,才能满足业务快速变化的需求。因此,必须重新定义数据库与 AI 的边界,打造一个既支持事务一致性,又具备实时分析和 AI 推理能力的统一数据平台。这样的平台不仅能够处理结构化和非结构化数据,还能融合语义搜索、向量计算、多模态数据处理等 AI 功能,实现业务数据与智能计算的深度融合。 重新思考“数据库与 AI 的边界”,意味着推动数据库向实时智能化转型,构建面向未来的统一数据底座。这样的数据平台不仅是企业数字化的基石,更是实现智能经济和 AI 赋能业务的关键引擎。 现代向量数据库能够处理不同规模的向量数据,从千万到亿到百亿,并且支持多租户,提供全面的 API 支持,涵盖多种的编程语言,并提供全面和易用的管理界面。向量数据库还具有混合搜索能力,结合传统关系数据库中的标量过滤和向量相似性搜索以提供更准确的结果。向量数据库是语义搜索、推荐系统、图像识别和自然语言处理等应用的基础,并赋能 GenAI 应用。 检索增强生成(RAG): 高级搜索(图像/文字): 图像/文本检索任务是指在大规模图像/文本数据库中搜索出与指定图像最相似的结果,在检索时使用到的文本/图像特征可以存储在向量数据库中,通过高性能的索引组织实现高效的相似度计算,进而返回和检索内容相匹配的图像/文本结果,典型场景如人脸识别等。 RAG 是一个人工智能框架,用于从外部知识库中检索事实,以便为大型语言模型 ( LLM ) 提供最准确、最新的信息,并让用户深入了解 LLM 的生成过程,常应用于智能问答、知识库等。 个性化推荐: AI 智能体: 推荐系统可以根据用户的历史行为和偏好,向用户推