行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI 与数据融合的基础设施技术展望-陈文光

信息技术 2023-06-06 ArchSummit北京2023|全球架构师峰会董亚琴

大数据与AI融合的基础设施发展展望

大数据发展趋势

数据量与生成速度：全球数据量从2010年到2025年持续增长，预计将达到73 ZB，主要由物联网、边缘设备和用户行为产生。
数据特征：数据呈现Volume（数据量）、Velocity（数据生成速度）和Variety（多模态）三大特点，包括图片、文档、图、时序数据、交易数据等。

典型数据处理链路

数据处理链路：分为实时链路（如Flink、Spark）和离线链路（如Hadoop、Spark），涉及数据库（MySQL）、消息队列（Kafka）、数据湖（HDFS）、分析系统（Presto、CK）等组件。
数据+AI处理链路：在典型数据处理链路基础上增加在线模型更新（PyTorch、TensorFlow）和模型服务（PyTorch、TensorFlow）环节。

主要挑战

在线离线一致性：在线模型表现与离线不一致，主要源于数据不一致和模型效果不一致。
- 解决方案：蚂蚁集团图计算通过TuGraph DB和TuGraph Dataflow实现一致性，确保在线近线数据同步，并使用相同查询语言避免语义不一致。
基于JVM的数据处理系统性能问题：
- 问题：Spark处理性能较差，内存占用高，图计算迭代算法内存需求是原始数据集的20倍。
- 解决方案：新型大数据处理内核“诸葛弩”采用C++缓解运行时开销，设计紧凑数据表示和编译优化，提高批处理效率。
大数据处理与AI融合问题：
- 问题：AI计算（Python生态）与大数据处理（Java生态）在硬件和编程框架上存在差异，导致开发、调试和维护复杂，数据传输开销高。
- 解决方案：
  - BigDL：深度学习的Java化，实现端到端数据分析与深度学习一体化，支持生产大数据系统。
  - PySpark/Koalas：Spark的Python化，支持Dataframe和SQL，但性能较Java版本落后约50%。

融合大数据和AI生态的愿景

目标：AI成为主要计算形式，数据处理生态围绕AI建设。
方向：研究编译优化技术提升PySpark性能，加速器支持与弹性任务调度，实现一次编写到处执行。

报告封面

点击免费查看完整报告

你可能感兴趣

数据技术嘉年华：智能·云原生·一体化——DB与AI协同创新，模型与架构融合发展

中国数据库联盟&墨天轮2024-04-12

数据技术嘉年华：智能·云原生·一体化——DB与AI协同创新，模型与架构融合发展

中国数据库联盟2024-04-12

【盘中宝】研究再迎新进展！该技术可与AI融合，或为未来科技竞争中抢占的制高点，产业正从应用萌芽期迈入普及期，这家公司首款技术产品已落地在该细分领域

未知机构2024-01-14

【财联社早知道】我国已完成第一阶段6G技术试验，机构预计2030年全球6G市场规模将达149.4亿美元，这家公司推动6G与AI的深度融合，开展了超维度天线等17项6G关键技术研究

财联社2025-11-13

【盘中宝】苹果首款自动驾驶汽车即将问世！L3级标准加速落地，这家公司正推动AI技术与汽车产业的融合

未知机构2023-07-04

电子行业周报：Rokid灵伴科技引领国产智能眼镜迎来上新潮，受益于AI大模型与增强现实技术的深度融合

电子设备华安证券2025-06-15

戴尔Dell最新财报中明确提及AI带来的业绩增益；全球首部AI长篇电影即将首映，模态大模型快速更迭加速AI应用落地，该公司在动画电影《雄狮少年》制作中已开始尝试与相关AI技术的融合-20240304

财联社2024-03-04

【盘中宝】机器人竞争下半场应用场景和数据为先，该细分产业正迎来技术融合与场景落地的爆发期，这家公司已构建了覆盖相关领域的产品矩阵

未知机构2025-06-10

2025年AI融合另类数据带来的新机遇与挑战调研报告

信息技术Lowenstein Sandler & OvationMR2026-05-13

深度学习在城市计算中跨域数据融合的应用：分类、进展与展望

信息技术华南理工大学&香港大学&香港城市大学2025-04-02