行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

云原生湖仓一体演进

2025-06-24 腾讯木子学长v3.5

01 Lakehouse 价值与挑战

AI 场景数据管理痛点：数据散布、ETL 串联时效性差、修改和模式变更困难、版本管理难、跨系统一致性难。
AI 数据读写性能差：不同文件格式重复序列化、存储介质间反复 I/O。

02 AI 系统对 Lakehouse 的需求

明确向量数据是 Lakehouse 与 AI 系统的桥梁。

03 向量数据连接 DATA 与 AI

向量表技术：
- Iceberg：兼容现有架构、可拓展性高、社区活跃，但向量索引需额外管理。
- Lance：原生支持多模态数据、内置多种索引、AI 数据集元数据优化。
向量表查询优化：
- Iceberg LSH 索引：通过 locality sensitive hashing 聚类向量，支持实时更新、并发写入、跨引擎使用。
- Lance 向量表优化：简化数据格式（去除行组）、优化元数据管理、DiskANN 磁盘向量索引（IVF_HNSW_PQ）。

04 向量湖的技术方向与实现

Iceberg 向量表与 LSH 索引：
- 搜索复杂度 O(size(df) * dim)，SimJoin 复杂度 O(size(dfa) * size(dfb) * dim)。
- LSH 索引构建步骤：计算 LSH key、映射 bucket，优势在于实时更新、支持并发、跨引擎使用。
Lance 向量表优化：
- 数据格式优化：按列拆分数据页，简化元数据管理。
- 向量索引优化：DiskANN 磁盘向量索引，支持超大规模数据集和跨引擎使用。

05 管理多模态数据新范式

多模态数据管理架构：支持文本、图像、音频、视频、向量等。
业界探索：
- LanceDB：支持 SQL 查询、高容量、多模态，但向量索引限制较多。
- DeepLake：统一系统支持数据分析和向量查询，但向量索引功能有限。
- Gravitino：支持多模态数据管理，但需进一步验证。

06 社区和业界的实践与展望

总结：Lakehouse 结合向量数据技术（Iceberg、Lance）可解决 AI 数据管理痛点，多模态数据管理是未来趋势。

云原生湖仓一体演进大模型数据底座的架构变革与实践徐潇腾讯云数据湖技术专家 ApacheGravitinoPMC 目录 02 01 Lakehouse价值与挑战AI时代下数据平台变革 03 向量数据连接DATA与AI 05 管理多模态数据新范式向量湖的技术方向与实现 06 04 社区和业界的实践与展望当前AI场景数据管理痛点 AI数据管理困难 1.数据散布在不同的数据文件中，需要ETL串联，时效性差。 2.数据修改和模式变更困难。 3.数据版本难以管理，尤其是跨系统一致性难以管理。 AI数据读写性能差 1.不同文件格式的重复序列化和反序列化。 2.不同存储介质之间反复I/O AI系统对Lakehouse的需求向量数据：Lakehouse与AI系统的桥梁向量湖的表格式 Iceberg： 1.Lakehouse基建的一部分，和现有架构最大限度兼容 2.表格式可拓展性高，周边开源生态系统完善 3.社区活跃度高，业界支持丰富 Lance： 1.原生支持文本、图像、音频、视频、向量等多模态数据 2.内置多种索引格式，支持低延时随机访问 3.针对AI数据集设计元数据布局，减少元数据开销 Iceberg向量表与LSH索引核心向量查询 Search(df,v,k) 从数据集df中匹配和向量v距离最近的top–k个向量。暴力搜索复杂度：O(size(df)*dim) SimJoin(dfa,dfb,d) 数据集dfa和数据集dfb连接，找出小于距离d的所用向量。暴力搜索复杂度：O(size(dfa)*size(dfb)*dim) Iceberg向量表与LSH索引 LSH索引原理普通Hash：最小化碰撞 LSH：最大化碰撞利用localitysensitivehashingfunction完成向量的聚类 Iceberg向量表与LSH索引 LSH向量索引构建步骤： 1.计算LSH：将相似的向量赋予相同的LSHkey 2.计算bucket：将相同LSHkey的向量映射到相同的 bucket中优势： 1.支持实时更新：增量构建索引，避免浪费计算资源索引和数据有相同的可见性 2.向量之间的LSH没有依赖性，支持并发写入和查询 3.索引与Iceberg数据布局结合，支持跨引擎使用 Lance向量表与向量存储优化当前数据湖在向量存储上遇到的问题难以选择合适的行组大小，过小会导致元数据极度膨胀，过大会增加不必要的内存占用。只需要加载少量的列，也需要加载所有的元数据信息。在拥有数千列的场景中导致高延迟和高开销。整个文件的编码格式是固定的，无法针对列添加新的编码格式。向量索引需要单独建立和管理。向量索引的创建和维护需要大量的内存资源。 Lance向量表与向量存储优化数据格式的优化去除行组等复杂的分层，将数据按列直接拆分成数据页。每个数据页可以独立的编码和管理元数据和索引与数据一起集中存放管理整体目标：简单、高效、便于并行处理 Lance向量表与向量存储优化向量索引优化使用DiskANN优化策略，减少磁盘访问与内存访问之间的性能差距（支持缓存，预获取，数据布局优化）。 IVF_HNSW_PQ磁盘向量索引。综合利用聚类分区->多层级导航->向量压缩等技术，在磁盘上直接构建紧凑高效的向量索引。核心目标：构建基于磁盘的索引，支持超大规模数据集，以及跨引擎的索引使用。多模态数据：AI时代数据湖的核心多模态数据管理架构业界探索：LanceDB 业界探索：DeepLake 业界探索：StarRocks3.4 优点： 1.支持远超常规向量数据库的容量的数据，拥有丰富的周边生态支持 2.支持使用SQL进行复杂查询 3.统一的系统同时支持数据分析和向量查询能力不足： 1.目前版本只支持内表建立向量索引 2.一张表只支持一种向量索引 3.不支持在单个查询中使用多种向量索引业界探索：Gravitino 总结 Thanks 感谢您的聆听

点击免费查看完整报告

云原生湖仓一体演进

你可能感兴趣

移动云（陶捷）：海山数仓：移动云云原生OLAP数据库的技术演进与实践

基于 IceBerg 湖仓一体架构演进

高性能、云原生湖仓体存储架构探秘

1 镜舟科技&阿里云-StarRocks云原生湖仓分析技术揭秘

阿里巴巴云原生混部技术演进-曾凡松

小红书云原生架构的演进 - 贺晋如

云原生数据库的架构演进-章颖强

中国移动网络云原生演进技术白皮书

高德-福辰-高德云原生架构变革与演进

云上增长实战指南第二卷:SaaS架构从云托管到云原生的深度演进

云原生湖仓一体演进

你可能感兴趣

移动云（陶捷）：海山数仓：移动云云原生OLAP数据库的技术演进与实践

基于 IceBerg 湖仓一体架构演进

高性能、云原生湖仓体存储架构探秘

1 镜舟科技&阿里云-StarRocks云原生湖仓分析技术揭秘

阿里巴巴云原生混部技术演进-曾凡松

小红书云原生架构的演进 - 贺晋如

云原生数据库的架构演进-章颖强

中国移动网络云原生演进技术白皮书

高德-福辰-高德云原生架构变革与演进

云上增长实战指南 第二卷:SaaS架构 从云托管到云原生的深度演进

云上增长实战指南第二卷:SaaS架构从云托管到云原生的深度演进