登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稀土
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
周强- GeaFlow:蚂蚁集团自研流式图计算引擎及其应用
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
陈***
AI智能总结
查看更多
GeaFlow:蚂蚁集团流式图计算引擎及其应用
GeaFlow简介
图的定义与优势
:图是由顶点集和边集构成的数据结构(G=(V,E)),能够清晰揭示复杂模式,尤其在社交、物流、金融风控等领域效果显著。图的优势包括维度提升、高效查询分析、方便自然的数据建模。
图的场景应用
:社交网络(关系查询)、协同推荐、相似度算法推荐、知识图谱(关系挖掘、最短路径分析)、金融风控(用户行为检测、异常群体发现)。
传统与实时图计算对比
:传统图计算基于离线图数据库,适用于静态数据大规模计算;实时图计算则处理实时关系数据,进行时序增量图计算。
传统实时计算与实时图计算对比
:传统实时计算处理关系数据流,实时分析图数据流则进行图计算实时分析,数据结构升维。
发展历程
:GeaFlow从2017年研发起,历经流图融合计算(支持双11实时反套现)、仿真能力(基于流图的回溯)、图探索能力(研判、血缘分析)、动态时序图能力(增量时序实时计算、风控团伙挖掘)。
GeaFlow技术架构
GeaFlow概述
:蚂蚁自研实时图计算系统,核心特性包括简洁DSL化研发能力、融合一体化执行、多模支持(流、图)、动态分布式图计算。
整体架构
:基于GraphView的核心API,HybridDSL(SQL+Gremlin)统一执行计划,以图为中心融合多种计算模态,云化状态管理,Ray分布式执行引擎,GraphStore统一图存储。
核心特性
:
动态计算
:结合数据流和控制流,从静态DAG走向动态DAG,优势在于按需计算、弹性扩缩、扩宽算力。
融合计算
:流图融合计算打破传统计算边界,优势在于一体化开发、降低运维成本。
分布式Gremlin
:基于GeaFlow构建Gremlin分布式执行语义,支持子图查询、多度遍历和子图匹配,创新于GremlinServer方案。
一体化DSL
:SQLPlus(Gremlin)优势在于一体化编程、降低数据开发门槛。
离线实时一体化
:图特征定义、上线下线观察、持续运行,针对图仿真进行合理抽象,基于图数据和历史请求进行流式回放,性能大幅提升。
应用实践
金融风控:实时团伙挖掘
:
场景
:账户风险识别、反作弊,通过黑产的聚集性使用社区划分、社区搜索等算法进行群组挖掘。
特点
:构建金融级账号网络,流式增量构图和计算,秒级时效性,流+图打造实时图计算,低延迟高吞吐,实时仿真一体化可验证。
对比
:基于SparkGraphX全量群组挖掘(亿级点边,小时级时效性) vs. GeaFlow增量实时群组挖掘(百/千亿级点边,秒级时效性)。
效果
:秒级实时团伙挖掘支持6+深度扩展挖掘,离线实时一体化效能提升7X,支持百/千亿级规模时序图计算。
增量时序图计算
:通过IncrementalProcessSource、Source、GraphProcessSink等组件实现流式处理和迭代计算。
总结和展望
实时图计算能力
:DSL化研发能力、分布式Gremlin执行、流图融合能力、多种实时图计算能力(流图计算、图探索、时序图计算、图仿真)。
业务覆盖
:金融场景风控、社交营销等300+业务场景。
未来思考
:实时图+AI发挥更大价值,包括知识图谱、实时知识推理、图学习、流式GraphEmbedding。
你可能感兴趣
7-5 ByteGraph:字节跳动自研万亿级图数据库及其应用与挑战
信息技术
DataFunSummit2022:大数据存储架构峰会
2022-07-19
图计算及其应用
信息技术
阿里巴巴
2022-12-25
5-1 超大规模图计算引擎在在线零售的应用_opt
信息技术
DataFunSummit2022:图机器学习峰会
2022-07-18
陈昊 蚂蚁集团 - 通用分布式计算引擎 Ray
信息技术
DataFunSummit2022:大数据计算架构峰会
2022-05-19
营收稳定,自研大模型有望成为增长新引擎
信息技术
华创证券
2024-05-01