登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
周强- GeaFlow:蚂蚁集团自研流式图计算引擎及其应用
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
陈宫泽凡
GeaFlow:蚂蚁集团流式图计算引擎及其应用
GeaFlow简介
图的定义与优势
:图是由顶点集和边集构成的数据结构(G=(V,E)),能够清晰揭示复杂模式,尤其在社交、物流、金融风控等领域效果显著。图的优势包括维度提升、高效查询分析、方便自然的数据建模。
图的场景应用
:社交网络(关系查询)、协同推荐、相似度算法推荐、知识图谱(关系挖掘、最短路径分析)、金融风控(用户行为检测、异常群体发现)。
传统与实时图计算对比
:传统图计算基于离线图数据库,适用于静态数据大规模计算;实时图计算则处理实时关系数据,进行时序增量图计算。
传统实时计算与实时图计算对比
:传统实时计算处理关系数据流,实时分析图数据流则进行图计算实时分析,数据结构升维。
发展历程
:GeaFlow从2017年研发起,历经流图融合计算(支持双11实时反套现)、仿真能力(基于流图的回溯)、图探索能力(研判、血缘分析)、动态时序图能力(增量时序实时计算、风控团伙挖掘)。
GeaFlow技术架构
GeaFlow概述
:蚂蚁自研实时图计算系统,核心特性包括简洁DSL化研发能力、融合一体化执行、多模支持(流、图)、动态分布式图计算。
整体架构
:基于GraphView的核心API,HybridDSL(SQL+Gremlin)统一执行计划,以图为中心融合多种计算模态,云化状态管理,Ray分布式执行引擎,GraphStore统一图存储。
核心特性
:
动态计算
:结合数据流和控制流,从静态DAG走向动态DAG,优势在于按需计算、弹性扩缩、扩宽算力。
融合计算
:流图融合计算打破传统计算边界,优势在于一体化开发、降低运维成本。
分布式Gremlin
:基于GeaFlow构建Gremlin分布式执行语义,支持子图查询、多度遍历和子图匹配,创新于GremlinServer方案。
一体化DSL
:SQLPlus(Gremlin)优势在于一体化编程、降低数据开发门槛。
离线实时一体化
:图特征定义、上线下线观察、持续运行,针对图仿真进行合理抽象,基于图数据和历史请求进行流式回放,性能大幅提升。
应用实践
金融风控:实时团伙挖掘
:
场景
:账户风险识别、反作弊,通过黑产的聚集性使用社区划分、社区搜索等算法进行群组挖掘。
特点
:构建金融级账号网络,流式增量构图和计算,秒级时效性,流+图打造实时图计算,低延迟高吞吐,实时仿真一体化可验证。
对比
:基于SparkGraphX全量群组挖掘(亿级点边,小时级时效性) vs. GeaFlow增量实时群组挖掘(百/千亿级点边,秒级时效性)。
效果
:秒级实时团伙挖掘支持6+深度扩展挖掘,离线实时一体化效能提升7X,支持百/千亿级规模时序图计算。
增量时序图计算
:通过IncrementalProcessSource、Source、GraphProcessSink等组件实现流式处理和迭代计算。
总结和展望
实时图计算能力
:DSL化研发能力、分布式Gremlin执行、流图融合能力、多种实时图计算能力(流图计算、图探索、时序图计算、图仿真)。
业务覆盖
:金融场景风控、社交营销等300+业务场景。
未来思考
:实时图+AI发挥更大价值,包括知识图谱、实时知识推理、图学习、流式GraphEmbedding。
你可能感兴趣
7-5 ByteGraph:字节跳动自研万亿级图数据库及其应用与挑战
商贸零售
DataFunSummit2022:大数据存储架构峰会
2022-07-19
图计算及其应用
商贸零售
阿里巴巴
2022-12-25
5-1 超大规模图计算引擎在在线零售的应用_opt
商贸零售
DataFunSummit2022:图机器学习峰会
2022-07-18
陈昊 蚂蚁集团 - 通用分布式计算引擎 Ray
商贸零售
DataFunSummit2022:大数据计算架构峰会
2022-05-19
营收稳定,自研大模型有望成为增长新引擎
商贸零售
华创证券
2024-05-01