登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
海南封关
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
陈一舰-openLooKeng 基于高速协议的 MPP 数据库 Connector 方案实践
信息技术
2022-05-19
DataFunSummit2022:大数据计算架构峰会
见***
AI智能总结
查看更多
背景介绍
openLooKeng引擎介绍
:支持跨不同数据源、不同集群的联邦查询,基于内存计算提供快速交互式即席查询,支持多种数据源连接器,可通过标准接口实现自定义连接器。
金融场景痛点
:金融行业存在Hadoop体系仓库(Hive/HBase/Kudu)、传统MPP仓库(GaussDB/Greenplum/Teradata)以及数据搬家、贴源数据、数仓建模等问题,数据科学家和分析师在数据探查和建模过程中面临提工单、评审、投产等流程瓶颈。
社区方案
基础方案
:openLooKeng的openGauss Connector基于jdbc协议,数据读取时通过GaussDB CN节点,存在单节点出、单节点进的问题,效率低下。
多jdbc连接方案
:通过数据切片划分创建多个jdbc连接,解决引擎端并发问题,但数据仍从GaussDB单CN节点出,未根本解决问题。
谓词下推方案
:实现部分Filter下推,可进一步下推更多算子,但对全量或过滤后数据集仍大的情况无效。
优化方案
postgreSQL特性FDW机制
:介绍connector(如file_fdw、mysql_fdw、mongo_fdw)作为外部数据源支持方式。
基于GDS协议的方案
:利用GDS服务并行读取HDFS DN节点数据,通过创建GaussDB外表挂载外部目录,触发GDS服务将数据并行导出,再通过Fuse机制进入Alluxio分布式缓存,最后由openLooKeng并行读取Alluxio内存数据。
Alluxio的Fuse机制
:兼容Posix接口,GDS将数据落到Alluxio Fuse挂载的本地目录,实现快速数据访问。
性能测试
TPC-H Benchmark初步测试结果
:最高提升4-5倍,复用可提升20倍。
Mpp Connector方案通用性
支持GaussDB、Greenplum、Teradata、mysql等数据库,利用各数据库的FDW机制(如Greenplum的gpfdist协议)实现并行数据访问。
下一步计划
贡献到社区,欢迎交流讨论,联系方式:Email : chengyijian@cebbank.com。
你可能感兴趣
陈翔老师基于数据驱动的招行数字化应用实践
招商银行
2023-07-13
亚信安慧(北陌):基于AntDB的CRM系统全域数据库替换实践
信息技术
-
2024-08-26
HR SaaS Zabbix 高可用方案实践-陈俊达
信息技术
2022第7届Zabbix中国峰会
2022-12-14
数据库国产建设方案实践
腾讯
2024-08-19
大模型在知乎舰桥平台的应用和实践
国防军工
DataFunSummit2023:大模型与AIGC峰会
2023-08-08