行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Apache Doris向量检索引擎实现

信息技术 2024-12-14 陈林忠百度睿扬

向量检索引擎实现：Apache Doris

什么是向量检索

非结构化数据处理：面对海量非结构化数据（如图片、音频、视频等），如何进行有效处理和分析挖掘价值。
向量表示：使用 Embedding Model 将原始数据转换为高维向量，捕捉实体特征信息，具有语义信息。
- 单模态 Embeding Model：如文本（text-embedding-ada-002）、图像（ResNet50）、音频（PANNs）。
- 多模态 Embeding Model：如 SigLIP、Unum。
相似性度量：
- cosine（余弦距离）：适用于推荐场景。
- L2（欧式距离）：适用于计算机视觉场景（如人脸识别、以图搜图）。
- L1（曼哈顿距离）：适用于推荐场景。
- inner_product（内积）：适用于模型深度学习模型训练。
向量检索技术：在海量向量中快速找到与目标接近 K 个向量，使用向量 ANN 索引（Approximate Nearest Neighbor）技术，如 HNSW、FAISS、ScaNN、DiskANN 等。
- 算法性能评价：召回率、QPS。

Apache Doris 向量检索

向量索引实现：
- 支持多种距离函数：cosine_distance、l2_distance、l1_distance、inner_product。
- 语法支持：建表（INDEX USING ANN 指定索引类型）、查询语法（topk 查找、范围查找）。
- 向量类型：采用 array 存储向量。
索引库选型：
- HNSW：内存型索引，成本高，稳定性稍差。
- DiskANN：低成本，稳定性好，支持内存、SSD、HDD。
- 性能对比：DiskANN 相对于 HNSW 性能有明显优势，但比较吃 IO。

遇到的问题及解法

问题：
- 功能上不支持 idfilter 过滤。
- 索引文件多，存算分离场景下小文件过多。
- 只支持从文件中读取原始向量。
解法：
- 支持 idfilter，实现混合查找：先按标量条件过滤，再下推向量检索。
- 性能优化：设置过滤比例，当过滤节点占比过高时退化为暴力检索。
- 索引文件合并：将多个索引文件合并为一个大文件，重写 reader 逻辑。
- 支持直接传入向量：改造索引构建接口，直接传入向量文件。
- Compaction 资源隔离：为 ann 索引表创建独立的 Compaction 线程。
- 全局延迟物化：优化标量读取，先读取计算向量字段，排序取 topk，再补齐标量字段。

未来规划

2025 年 Q1 发版（3.0.X 版本）：
- DiskANN 改造：支持 idfilter 下推、多文件索引合并/重写 reader、支持直接传入向量。
- 语法支持：建表、查询导入、引入 diskann 库，适配索引接口、导入向量时构建 diskann 索引、查询支持函数下推到 scannode、执行计划适配改造。
- 其他：副本恢复、backup/restore、compaction 流程。

陈林忠百度大数据平台部2024.12.14 分享嘉宾陈林忠百度大数据平台部资深研发工程师ApacheDorisCommitter主要从事分布式存储、分布式数据库的研发工作目录什么是向量检索01 ApacheDoris怎么做向量检索02 遇到的问题及解法03 未来规划04 01什么是向量检索非结构化数据在迅猛增长结构化数据 •文字•日期•数字等非结构化数据 •图片•音频•视频、文本等面对海量非结构数据，如何去处理分析挖掘价值？如何表示非结构化数据向量Embeding •向量维度比较高，常见的768/1536/4096维•捕捉原来实体特征信息，具有语义信息•相似的实体在向量空间中比较接近单模态EmbedingModel •文本:text-embedding-ada-002•图像:ResNet50•音频:PANNs 多模态EmbedingModel •SigLIP•Unum 如何度量向量与向量之间的相似性 cosine(余弦距离) •向量的夹角•适用推荐场景 L2(欧式距离) •两个点之间的绝对距离•适用cv场景，例如人脸识别、以图搜图 L1(曼哈顿距离) •维度的绝对差相加来计算距离•适用推荐场景 inner_product(内积) •维度的相乘相加来计算距离•适用模型深度学习模型训练如何在海量向量中快速找到与目标接近K个向量 ApproximateNearestNeighbor •HNSW•FAISS•ScaNN•DiskANN•.... 算法性能评价 •召回率•QPS 向量ANN索引（ApproximateNearestNeighbor） •排序方式：按照距离排序•近似查找向量检索总结向量数据库路径1：专用向量数据库路径2：通用数据库(TP/AP)+向量索引 •极致性能 •天然继承原有数据库的基础能力（高可用,拓展性等）•实现ALL-in-one查询（标量+向量）向量数据库=向量检索+用户接口+高可用+拓展性+备份/恢复+运维工具等 ApacheDoris向量检索 ApacheDoris如何实现向量索引 •语法支持建表查询语法适配向量计算 支持多种距离函数ann谓词下推 •向量存储array类型… 向量索引索引构建索引查询语法支持：建表 •通过INDEXUSINGANN指定索引类型为ANN索引，目前只支持diskann•通过PROPERTIES中的算法参数，指定具体的ANN算法以及算法的参数 •各算法特有参数，以算法名称加下划线开头语法支持：查询语法 topk查找范围查找 •topk查询:通过orderby+limit实现•混合查询：wherepredicate+orderby+limit 向量类型业内常见做法开发专门的向量类型：例vector(N) •N表示向量维度•向量每个元素用float32表示首版采用自带Array类型来存储向量：array 专用向量类型开发 •array在底层存储需要记录offset，有一定的额外开销•在向量检索领域维度一般是固定的距离函数支持4种距离函数（2.1版本） •cosine_distance•l2_distance•l1_distance•inner_product 索引库选型：HNSWvsDiskAnn 目标：海量数据、高召回率、低延迟 HNSW内存型索引问题 DiskANN •成本低:单机10亿，4TB，挂1块SSD•稳定性：与Doris索引加载逻辑保持一致、按需从磁盘加载 •成本高:100w，768维，占用4G内存•稳定性稍差：冷启动，加载，波动大索引库选型：DiskAnn性能 HNSW(内存型) DiskANN(SSD) DiskANN(HDD) •QPS：624•召回率：98%•avg延迟：13ms•ioutil：100%•单跑：2ms •QPS：30•召回率：99.4%•avg延迟：60ms•ioutil：100%•单跑：20ms •QPS：323•召回率：99.7%•avg延迟：13ms•单跑：1ms 6并发，100w，768维，取top10性能对比 diskann支持多次场景适用性能 •相对于HNSW性能也有明显优势缺点•比较吃IO，可以通过加磁盘解决•内存•SSD•HDD 遇到的问题及解法 Doris适配DiskAnn过程中存在的问题 DiskAnn功能改造：支持idfilter，实现混合查找混合查找 select*fromvector_table wherecity="北京"ORDERBYdistance_function('[0.1,0.2,0.3,....,0.1]',question_embedding)limit10; 步骤 •先按照标量条件过滤•把结果下推向量检索•向量检索只在下推的向量中取topk DiskAnn功能改造：性能优化问题：当过滤的节点过多，查询性能慢，最坏情况全图遍历，才能找到结果解法：设置过滤比例，当过滤节点占比达到一定占比时退化为暴力检索，不走索引，默认值90% DiskAnn功能改造：索引文件合并问题：索引文件爆炸，分区数*分桶数*rowset个数*segment个数*diskann索引文件数解法: 影响： •成本：存算分离场景，S3按请求次数收费•性能:文件越多，open慢•复杂度：生命周期管理(副本恢复、GC、备份恢复) •文件合并，diskann索文件合并为1个大文件•重写diskann的reader逻辑，从大文件读取索引 DiskAnn功能改造-支持直接传入向量优化1-Compaction资源隔离-独立的Compaction线程 100w，768维，索引构建5分钟问题：影响其他表的Compaction过程，导致版本堆积，性能下降解法：存在ann索引表的Compaction过程，由独立的后台线程负责优化2-全局延迟物化例子:selectcontent,distance_function(vector,[0.1,0.2,0.3...])asscorefromvector_tableorderbyscoreasclimit10 未来规划 ThanksforWatching！

点击免费查看完整报告

Apache Doris向量检索引擎实现

向量检索引擎实现：Apache Doris

什么是向量检索

Apache Doris 向量检索

遇到的问题及解法

未来规划

你可能感兴趣

1-3 Apache Doris存储层向量化改造设计与实现

Apache Doris助力企业实现数据智能化应用

【财联社早知道】英伟达联手Zilliz发布全球首个GPU加速向量数据库，将助力AI大模型的发展，这家公司与英特尔联合发布AIGC向量数据库解决方案，能够实现海量向量数据的高实时性查询、检索、召回等功能-20240323

从Impala到Apache Doris，货拉拉用户画像优化实践

存算分离：Apache Doris部署新范式

MySQL Oracle到Apache Doris数据实时同步技术实践

利用Apache SeaTunnel对接160种数据库批流加载到Apache Doris

1-2 基于 Apache Doris 构建实时统一的现代数据分析平台

网易游戏基于Apache Doris湖仓融合建设

Apache Doris：现代化数据仓库的创新之路