AI智能总结
陈文光 清华大学/蚂蚁技术研究院 大数据:数据量,数据生成的速度和多模态 物联网、边缘设备和用户行为产生大量数据 •数据量(Volume)和数据生成速度(Velocity) 多模态数据(Variety) •图片,文档,图,时序,交易 •Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2025© Statista 2021https://www.statista.com/statistics/871513/worldwide-data-created/ 数据处理的深度也在增加 大模型崛起引领大数据新需求 高质量训练数据是进一步提升基础模型性能的关键 向量数据库是提升模型服务能力的核心技术 80%Data 吴恩达的“二八定律”: 深度学习应当从Model-centric向Data-centric转变 吴恩达(AndrewNg.) •大模型需要大数据•如何获得更多数据?如何提升数据质量?如何高效处理海量数据? 大模型崛起引领大数据新趋势 趋势一:在线离线一体化 2-in-1 Architecture: TP & AP一体化 OceanBase:分布式HTAP数据库 实时数据分析和决策对于企业来说非常重要:OceanBase采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP) 混合负载 图风控方案中的在线离线一体化:问题 TuGraphDB •分布式图数据库,支持自定义图查询语言GQuery TuGraphDataflow •流图计算系统,支持Gremlin 图风控方案中的在线离线一体化:解决方案 保证在线近线数据一致 •以在线数据库内容为准,同步到近线系统 在线近线系统使用同样的查询语言 •避免不同语言语义的不一致性•很多细节,比如Nodelimit TuGraphDB :分布式图数据库,支持国际标准图查询语言ISO-GQLTuGraphDataflow:流图计算系统,支持国际标准图查询语言ISO-GQL 趋势二:向量数据库与关系数据库一体化 指将向量数据处理能力和关系型数据管理能力结合在一起的技术策略 应用场景 一体化的优点 蚂蚁VSAG VSAG是面向蚂蚁的通用向量索引库 包含目前主流的向量索引实现 针对场景的优化 •提供最佳实现的HNSW•生产可用的DiskANN•支持INT8类型向量检索(非SQ/PQ)•PQ(进行中) •提供通用向量检索和构建接口(与Faiss形式类似)-Add / Build:增量/批量构建向量索引-KnnSearch/RangeSearch:向量检索(返回行号和距离)-Serialize / Deserialize:向量索引序列化/反序列化 •自适应指令集加速(SIMD指令集加速)•索引分区•Top1/TopK召回优化•向量间距离计算优化 在OceanBase中集成VSAG 趋势三:数据处理与AI计算一体化 大模型训练数据处理——Data+AI典型场景 •Common Crawl是一个海量的、非结构化的、多语言的网页数据集,包含近10年的随机网络数据,PB级规模,可从Amazon S3上免费获取。GPT-3训练数据的60%来自Common Crawl。•CCNet是Facebook发布的数据清洗流程,希望从Common Crawl中能够提取出高质量的文本数据集。 分布式大数据处理主要是Java生态 “小数据”处理主要是Python生态 数据与AI独立生态的问题 一种尝试:BigDL*深度学习的Java化 问题 •只支持CPU,不支持GPU和异构加速器•重新开发深度学习模块,不能复用TF中的功能•Spark本身性能有缺陷 另一种尝试:Spark的Python化 Koalas Evolution •PySpark支持Dataframe和SQL•Koalas是Pandas的Spark封装,现在已经被合并进入Spark3.2•PySpark在Spark用户中的使用已经接近一半•Python由于无静态类型,编译优化方面有难度,在常见查询中与Java性能有约50%的落后 一次编写,到处执行 谢谢 谢谢 谢谢