登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
seedance2.0
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
陈一舰-openLooKeng 基于高速协议的 MPP 数据库 Connector 方案实践
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
见风
背景介绍
openLooKeng引擎介绍
:支持跨不同数据源、不同集群的联邦查询,基于内存计算提供快速交互式即席查询,支持多种数据源连接器,可通过标准接口实现自定义连接器。
金融场景痛点
:金融行业存在Hadoop体系仓库(Hive/HBase/Kudu)、传统MPP仓库(GaussDB/Greenplum/Teradata)以及数据搬家、贴源数据、数仓建模等问题,数据科学家和分析师在数据探查和建模过程中面临提工单、评审、投产等流程瓶颈。
社区方案
基础方案
:openLooKeng的openGauss Connector基于jdbc协议,数据读取时通过GaussDB CN节点,存在单节点出、单节点进的问题,效率低下。
多jdbc连接方案
:通过数据切片划分创建多个jdbc连接,解决引擎端并发问题,但数据仍从GaussDB单CN节点出,未根本解决问题。
谓词下推方案
:实现部分Filter下推,可进一步下推更多算子,但对全量或过滤后数据集仍大的情况无效。
优化方案
postgreSQL特性FDW机制
:介绍connector(如file_fdw、mysql_fdw、mongo_fdw)作为外部数据源支持方式。
基于GDS协议的方案
:利用GDS服务并行读取HDFS DN节点数据,通过创建GaussDB外表挂载外部目录,触发GDS服务将数据并行导出,再通过Fuse机制进入Alluxio分布式缓存,最后由openLooKeng并行读取Alluxio内存数据。
Alluxio的Fuse机制
:兼容Posix接口,GDS将数据落到Alluxio Fuse挂载的本地目录,实现快速数据访问。
性能测试
TPC-H Benchmark初步测试结果
:最高提升4-5倍,复用可提升20倍。
Mpp Connector方案通用性
支持GaussDB、Greenplum、Teradata、mysql等数据库,利用各数据库的FDW机制(如Greenplum的gpfdist协议)实现并行数据访问。
下一步计划
贡献到社区,欢迎交流讨论,联系方式:Email : chengyijian@cebbank.com。
你可能感兴趣
亚信安慧(北陌):基于AntDB的CRM系统全域数据库替换实践
商贸零售
-
2024-08-26
陈翔老师基于数据驱动的招行数字化应用实践
商贸零售
招商银行
2023-07-13
HR SaaS Zabbix 高可用方案实践-陈俊达
商贸零售
2022第7届Zabbix中国峰会
2022-12-14
数据库国产建设方案实践
商贸零售
腾讯
2024-08-19
大模型在知乎舰桥平台的应用和实践
商贸零售
DataFunSummit2023:大模型与AIGC峰会
2023-08-08