AI智能总结
讲师简介 Zilliz开发者关系及市场运营负责人,Linux FoundationAPAC Evangelist。曾任开源中国社区 负 责人 ,L inuxFoundation开源软件学园运营负责人。多年来从事开源项目和社区的组织、管理工作,有着丰富的市场和运营经验,策划及参与执行多个国内外顶级基金会在国内的落地和生态拓展工作。 Jerry LiZilliz市场运营及生态发展负责人 目录 AI时代的对向量数据管理的挑战 01 Milvus:全球最受欢迎的开源向量数据库 02 03ZillizCloud企业级解决方案 AI时代对向量数据管理的挑战 AI时代数据特征一:数据大爆炸 据IDC预测,至2025年,全球每年产生的数据量将达到175ZB,其中超过80%为非结构化数据 场景2: 搜索系统 •数据体量巨大,未来超过80%的数据属于非结构化数据,AIGC时代多模态数据的生成速度远远超过结构化数据,系统扩展性性能至关重要 •非结构化数据理解困难,虽然LLM已经大幅降低了非结构化数据理解的成本,但由于数据质量、多模态,成本性能等问题,单一大模型并不能完全解决非结构化数据理解的问题,很多场景下依然需要多模型组合,搜索与生成结合等方法 算力的要求巨大,推理、向量数据库存储检索等都是算力密集型应用。算力的需求和成本往往成为挖掘非结构化数据的一大阻碍。 缺乏工具,虽然传统的结构化数据处理并不简单,但由于ETL、数据库、数据仓库等工具在过去30年的发展,已经变得相对成熟。然而,非结构化数据处理的工具链刚刚开始构建,这就使得非结构化数据的处理相比结构化数据更具挑战性。 www.top100summit.com 向量数据管理的主要挑战 •有效存储 •扩展性 向量数据多为浮点或者二进制数据;数据压缩率低,存储成本高 非结构化数据的快速增长对系统的扩展性要求越来越高 •高效计算 •低延迟 向量数据计算复杂度高,往往需要异构计算的能力 在线业务对检索功能的毫秒级响应需求 •索引繁多 •混合查询 有树、图、哈希和倒排等多种向量索引,索引管理和使用成本高 标量和向量混合存储查询的需求 Zilliz:构建开源+云的非结构化数据处理方案 02 Milvus:全球最受欢迎的开源向量数据库 Milvus:全球最受欢迎的开源向量数据库 与超过5000家企业用户共同打磨5年,是全球范围内最成熟的分布式向量数据库 Milvus2.0:云原生分布式向量数据库 云原生分布式 超高性能 Cloud Native •百亿规模向量扩展性•存储计算分离•离在线一体化•基于K8s实现高可用容灾 •查询速度高于ES 10倍,高于主流竞品2倍•毫秒级延迟响应•查询性能根据物理资源线性扩展 •向量与标量混合查询•提供标量倒排索引支持•集成了FAISS、HNSW、DISKANN等SOTA向量索引 合作伙伴 Milvus用户生态 0 3 Zilliz Cloud企业级解决方案 Zilliz Cloud:助力全球企业构建云上全托管向量检索服务 使用门槛低 安全放心 维护成本低 丰富的企业级特性 Low threshold for use Enterprise-level features Data Security low maintenance cost •RBAC权限管理•TLS,白名单•PrivateLink•审计日志•ISO 20071&SOC2合规认证 •7*24服务支持•99.9 SLA保障•数据备份,订阅•组织架构管理•Dedicated Cloud •免费试用实例•可视化界面•多语言SDK•丰富的生态支持•数据迁移 •一键创建实例资源•动态扩缩容•无感升级迭代•完善的监控报警•多云支持 Zilliz Cloud带来用户综合成本下降 开发成本Development Cost 维护成本Maintenance Cost 硬件成本 Hardware Cost 用户成本= 用户关注于开发业务本身 Zilliz自研引擎,磁盘索引,池化技术大幅降低用户成本 用户无需关心维护,业务可靠性大幅增强 •扩缩容•性能调优•发现,诊断,排查,解决•版本升级 •索引构建•插入/查询性能•为应对业务峰值造成的资源浪费 •调研,选型•部署安装•功能/性能测试•多云适配 商业版引擎与开源版引擎的性能差异 ZillizCloud相比Milvus,平均QPS1.67x,最高2.64x 全球市场主流VectorDB产品 一图看懂向量数据库之间的区别 Vs ZillizCloudMilvus •细分领域专业能力和经验•重人员投入、灵活性略差•升级需要考虑更多因素•更高的TCO •零运维成本、低使用门槛•秒速随需伸缩•与时俱进的性能、智能化•更专注主营业务 VectorDB性能实测 在某大型客户进行的各主流品牌向量数据库性能PoC实测中,采用了开源的评测工具VectorDBBench进行评测,其结果显示: •ZillizCloud8cu-perf配置QPS遥遥领先•第二名同样为Zilliz公司开源版本Milvus16c64g-HNSW配置•前10名中,Zilliz公司产品各配置占据6席•相似配置的情况下,ZillizCloud产品的性能明显优于开源版本Milvus 开源标准接口+灵活迁移部署 •ZillizCloud遵循Milvus开源接口•Milvus与ZillizCloud无缝迁移•私有环境Milvus与ZillizCloud双写•开源方案+多云方案,避免单一云服务商绑定 Zilliz专家服务 •安全可靠,99.9 SLA保证 •大量生产验证的部署方式和运行参数,大幅提升性能和故障恢复速度•7*24支持,重大问题快速响应兜底 全球服务覆盖 ZillizCloud适用业务场景 向量数据库场景探索 典型案例——某综合性AI企业 面临的挑战 需求明细 问题背景 大型AI企业内部技术中心建设向量数据库底座,为各前台各业务线提供向量检索服务,因为业务线较多,所以租户数量庞大。客户也尝试了众多开源向量数据库产品,包括Qdrant、Weaviate和Milvus,最后锁定开源Milvus,使用了将近一年的时间。 在Milvus的使用过程中,遇到的一些问题:1.超过50个节点、超过200C的大集群运维困难,对于 1.数据总量4亿条,70个Collection,最大的Collection约3亿条,最小的约25万,大部分为千万量级,向量维度256、768、1024、2560不等2.查询Latency<500ms,查询QPS平均约2003.数据频繁写入与删除,写入QPS约500,峰值4000 Milvus不够熟悉导致生产事故频发2.对于向量索引的使用没有足够的经验,索引性能调优和测试花费较大精力3.偶发性能问题,延迟达到平时的10倍以上,难以快速诊断瓶颈所在并迅速恢复 解决方案 全面迁移ZillizCloud云托管向量数据库,采用Zilliz数据迁移工具将所有向量数据迁移上云。 业务价值 在性能提升和SLA保障的情况下,降低运维投入约3人·年,释放更多的研发和运维力量在上层业务系统的开发和保障之上。 感谢观看 微 信 官 方 公众 号: 壹 佰 案 例关注 查 看 更 多 年 度实 践案 例