大数据与AI融合的基础设施发展展望
大数据发展趋势
- 数据量与生成速度:全球数据量从2010年到2025年持续增长,预计将达到73 ZB,主要由物联网、边缘设备和用户行为产生。
- 数据特征:数据呈现Volume(数据量)、Velocity(数据生成速度)和Variety(多模态)三大特点,包括图片、文档、图、时序数据、交易数据等。
典型数据处理链路
- 数据处理链路:分为实时链路(如Flink、Spark)和离线链路(如Hadoop、Spark),涉及数据库(MySQL)、消息队列(Kafka)、数据湖(HDFS)、分析系统(Presto、CK)等组件。
- 数据+AI处理链路:在典型数据处理链路基础上增加在线模型更新(PyTorch、TensorFlow)和模型服务(PyTorch、TensorFlow)环节。
主要挑战
- 在线离线一致性:在线模型表现与离线不一致,主要源于数据不一致和模型效果不一致。
- 解决方案:蚂蚁集团图计算通过TuGraph DB和TuGraph Dataflow实现一致性,确保在线近线数据同步,并使用相同查询语言避免语义不一致。
- 基于JVM的数据处理系统性能问题:
- 问题:Spark处理性能较差,内存占用高,图计算迭代算法内存需求是原始数据集的20倍。
- 解决方案:新型大数据处理内核“诸葛弩”采用C++缓解运行时开销,设计紧凑数据表示和编译优化,提高批处理效率。
- 大数据处理与AI融合问题:
- 问题:AI计算(Python生态)与大数据处理(Java生态)在硬件和编程框架上存在差异,导致开发、调试和维护复杂,数据传输开销高。
- 解决方案:
- BigDL:深度学习的Java化,实现端到端数据分析与深度学习一体化,支持生产大数据系统。
- PySpark/Koalas:Spark的Python化,支持Dataframe和SQL,但性能较Java版本落后约50%。
融合大数据和AI生态的愿景
- 目标:AI成为主要计算形式,数据处理生态围绕AI建设。
- 方向:研究编译优化技术提升PySpark性能,加速器支持与弹性任务调度,实现一次编写到处执行。