登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
海南封关
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
AI 与数据融合的基础设施技术展望-陈文光
信息技术
2023-06-06
ArchSummit北京2023|全球架构师峰会
董***
AI智能总结
查看更多
大数据与AI融合的基础设施发展展望
大数据发展趋势
数据量与生成速度
:全球数据量从2010年到2025年持续增长,预计将达到73 ZB,主要由物联网、边缘设备和用户行为产生。
数据特征
:数据呈现Volume(数据量)、Velocity(数据生成速度)和Variety(多模态)三大特点,包括图片、文档、图、时序数据、交易数据等。
典型数据处理链路
数据处理链路
:分为实时链路(如Flink、Spark)和离线链路(如Hadoop、Spark),涉及数据库(MySQL)、消息队列(Kafka)、数据湖(HDFS)、分析系统(Presto、CK)等组件。
数据+AI处理链路
:在典型数据处理链路基础上增加在线模型更新(PyTorch、TensorFlow)和模型服务(PyTorch、TensorFlow)环节。
主要挑战
在线离线一致性
:在线模型表现与离线不一致,主要源于数据不一致和模型效果不一致。
解决方案
:蚂蚁集团图计算通过TuGraph DB和TuGraph Dataflow实现一致性,确保在线近线数据同步,并使用相同查询语言避免语义不一致。
基于JVM的数据处理系统性能问题
:
问题
:Spark处理性能较差,内存占用高,图计算迭代算法内存需求是原始数据集的20倍。
解决方案
:新型大数据处理内核“诸葛弩”采用C++缓解运行时开销,设计紧凑数据表示和编译优化,提高批处理效率。
大数据处理与AI融合问题
:
问题
:AI计算(Python生态)与大数据处理(Java生态)在硬件和编程框架上存在差异,导致开发、调试和维护复杂,数据传输开销高。
解决方案
:
BigDL
:深度学习的Java化,实现端到端数据分析与深度学习一体化,支持生产大数据系统。
PySpark/Koalas
:Spark的Python化,支持Dataframe和SQL,但性能较Java版本落后约50%。
融合大数据和AI生态的愿景
目标
:AI成为主要计算形式,数据处理生态围绕AI建设。
方向
:研究编译优化技术提升PySpark性能,加速器支持与弹性任务调度,实现一次编写到处执行。
你可能感兴趣
数据技术嘉年华:智能·云原生·一体化——DB与AI协同创新,模型与架构融合发展
中国数据库联盟&墨天轮
2024-04-12
数据技术嘉年华:智能·云原生·一体化——DB与AI协同创新,模型与架构融合发展
中国数据库联盟
2024-04-12
【盘中宝】研究再迎新进展!该技术可与AI融合,或为未来科技竞争中抢占的制高点,产业正从应用萌芽期迈入普及期,这家公司首款技术产品已落地在该细分领域
未知机构
2024-01-14
【财联社早知道】我国已完成第一阶段6G技术试验,机构预计2030年全球6G市场规模将达149.4亿美元,这家公司推动6G与AI的深度融合,开展了超维度天线等17项6G关键技术研究
财联社
2025-11-13
【盘中宝】苹果首款自动驾驶汽车即将问世!L3级标准加速落地,这家公司正推动AI技术与汽车产业的融合
未知机构
2023-07-04