您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:云上数据集成的产品及相关实践 - 发现报告
当前位置:首页/其他报告/报告详情/

云上数据集成的产品及相关实践

2022-09-18-腾讯北***
云上数据集成的产品及相关实践

云上数据集成的挑战和实践腾讯云高级工程师| 01云上数据集成的挑战企业核心诉求梳理02云上数据集成平台设计方案和平台分析03云上数据集成产品落地DataInlong产品简介04云上数据集成的实践客户经典案例介绍目录CONTENT| |01云上数据集成的挑战企业核心诉求梳理 数据集成业务概述|交易数据CRM数据...日志数据...行为数据...结构化数据非结构化数据半结构化数据数据开发平台流计算云数仓数据湖EMRESBIMYSQL...数据源数据传输数据端集成组件集成产品计算组件DataxSqoopKettleFlinkSparkMRDPDWDI... 数据集成常用方案介绍|引擎数据源种类吞吐稳定性开源社区场景Sparkl基于API扩展l高l资源依赖复杂,环境适应性差l顶级社区l大批量l实时同步l数据转换Flinkl社区有部分,支持行扩展l高l环境适应性、数据源亲和性差,跨集群访问配置复杂l顶级社区l大批量l实时同步l数据转换Sqoopl支持的数据源种类偏少l高l基于MR框架,运行在hadoop集群,比较稳定l顶级社区l大批量l实时同步l数据转换Flink:部分场景吞吐优势,时延低,周期性数仓等场景下灵活性不足、资源利用率低。Sqoop:支持数据源种类少,基于MR框架,稳定性高。Spark:吞吐极高,参数配置复杂,稳定性差。 企业对数据集成的诉求|企业诉求多样化数据源种类多单个链路的数据源多数据源的数据格式多快速搭建开箱即用插件灵活扩展无缝衔接生态海量化TB级每小时百万条每分钟天级别持续运行运维简单屏蔽底层资源可拖拽配置数据传输可视化场景化大数据上云湖/仓搭建线上服务系统服务稳定容错性强准确率高故障自动恢复 云上数据集成面临的挑战|技术支撑场景全面开箱即用生态一体 |02云上数据集成平台设计方案和平台实现 全场景数据集成解决方案设计|关键设计u多Agent支持u批流一体,配置统一u读写端解耦业界类似的解决方案:AWS:kinesis+firehouse(多产品配合)华为:DIS(配套解决方案)阿里:DataHub(配套解决方案) 高性能低延迟队列方案分析|Øinlong在数据采集和消息队列间增加DataProxy ,用于连接收敛、路由、数据压缩和协议转换Ø消息队列异常出现发送失败时,DataProxy会将消息缓存到本地磁盘进行容灾转发Ø毫秒级时延:基于毫秒级低时延消息队列,端到端数据同步秒级时延Ø高性能:支持切换不同的缓存队列,基于存算分离架构的MQ在海量吞吐场景下具备更好的性能和稳定性ComparisonTubeMQKafkaPulsarLatencyVery low,10msLow,250msVery low,10msTPSHigh,14W+/sNormal,10W+/sHigh,14W+/s Filter consumeSupports client filter or server filterSupports client filterSupports client filterData No copiesMultiple copiesMultiple copiesReliabilityRelies on RAID 10LowHigh, autorecoveryStabilityHigh, running in Tencent for almost 8 years with 33 trillions of message per dayUnstable when topics growsHIghClient languagesupports Java or C++1 client (Official support)7 kinds of clientCAP ModelAPAP or CPCP or AP 数据集成弹性平台实现|任务底层抽象loadermanagerloadertaskloadertaskdeploymentpodpod容器CLSCDB云监控云生态产品......1.每个pod只属于一个任务2.一个任务可以使用多个pod3.manager主备高可用4.manager和task在不同的pod设计原则jobmanagerresourcemanager队列队列proxyproxyck_sinkhive_sink原始日志原始数据库log_agentdb_agentmanager:协调任务管理与资源调度task:执行资源,可分布式并行扩展KAFKA............TTHIVEHBASEES数据源数据端...... 数据集成平台高可用设计|Manager故障恢复流程Leader选举方案1.第一个创建出ConfigMap的成为Leader2.Leader定期续租3.Follower检查租约时间,过期则重新选举PodTaskPodTaskManagerDeploymentmanager(standby)manager(dead)manager(Active)12345leaderrpcaddresstimestamp...ConfigMapETCD容器1.Manager发生故障2.选举Leader3.发布Leader信息,并开始服务4.Task感知Leader变化,重新汇报信息5.Leader正式服务 |03云上数据集成产品落地DataInlong产品简介 数据集成DataInLong:整体架构图|CONSOLEAPI...SDK数据源审计对账DataProxy-1...DataProxy-N汇聚层realtimeSDKofflinesort分拣层TubeMQPulsarkafka缓存层SDKFILEDBHTTP采集层轻量链路关系型数据库:大数据:更多:NoSQL:存储层指标告警状态监控资源管理OpenAPI统一调度统一安全统一元数据审批管理服务接入数据链路标准服务运维服务 数据集成DataInLong:全场景海量数据集成服务|帮助企业建设全业务场景的海量数据传输通道海量集成框架一站式敏捷体验一体化云生态融合无门槛、免运维、低成本平滑适配、全链路解决方案稳定、安全、高性能【自研技术增强+内部业务孵化】【云原生算力融合+安全增强】【插件化灵活扩展】【无代码可视化配置】【开箱即用】【链路融合】【产品融合】【资源全托管】【组件融合】产品要素业务价值 数据集成DataInLong:全链路数据开发与治理平台搭建|数据集成(DataInLong)独立DataInLong数据汇聚数据中台数据建模(DataModel)数据集成(DataInLong)数据开发(DataStudio)数据服务(DataService)数据地图数据洞察数据共享数据质量(DQ)成本优化(CO)DataOps生产流程:需求规划开发发布运维DataOps运营流程:采集治理服务应用元数据管理(MetaData)数据安全(SecurityCenter)统一调度(US)数据运营(DataOpeartion)敏捷数据生产一体化运营多租户管理项目管理用户管理数据源管理审批管理多环境管理平台开放基础数据支撑服务管理体系场景化解决方案数据湖数据仓库数据开发治理平台WeData无缝切换DataInLong提供了开放的技术能力,可与统一调度、统一元数据、统一安全等技术/产品服务快速深度融合。同时,支持平滑无缝升级至腾讯云数据开发与治理平台WeData,帮助企业更好应对快速变化、日益增长的业务数据需求。 数据集成DataInLong:全场景生态融合|稳定、高效、安全的海量数据传输通道,覆盖数据集成全业务场景,无缝融合数据生态实时报表展示离线/实时数据入仓入湖分析数据拉取/主动上报异构数据同步实时/离线数据传输产品融合异构数据总线构建全链路数据开发与治理平台/数据中台搭建... |04云上数据集成的实践客户经典案例分析 DataInLong:云上海量数据集成实践|稳定、安全•多集群部署百万亿级数据量•实时高性能消息队列同步•全链路数据指标监控为支持商户/个人两大微信支付业务场景,InLong内部部署交付两套系统,每套系统支持集群三副本容灾,支持三地多活保障支付业务平稳、稳定、安全运行。为了解决广告部门数据来源广泛、采集点众多的难题,InLong为腾讯广告提供包括MQ在内的多种类型消息通道和接入方式,支持近百万亿级数据接入和处理,最终实现广告业务统一监控、告警和核心指标运营实时呈现。 DataInLong:云上海量数据集成实践|全链路数据平台•离线数仓与数据同步•离线数据开发与调度•元数据、数据资产管理与治理企业云原生数据湖构建•多种同步方式,多种数据源快速搭建云数据湖•实时数据秒级同步iceberg,完成冷热数据计算某电商平台:DataInLongin WeData个性化推荐用户洞察商品/订单/库存数仓数据开发应用场景方案架构某传统企业:DataInLong+DLC信息采集日志分析实时数据入湖业务预测应用场景方案架构 DataInLong:云上海量数据集成实践|某商业银行客户数据能力中心建设统一开发:18000+个数据任务统一落标:1000个标准项统一管控:19000+张数据表•统一对接MYSQL/ORACLE/DB2/文件等多种数据源•统一开发HIVE/SPARK/Shell/Python等多种任务•基于事件和时间的统一任务调度及运维•数据标准平台建表5000个标准项•通过数据开发建模平台事前落标1000个•数据资产平台展示完整字段级数据血缘•统一数据权限的申请、授权、审批等管控•精确到人到表的行列权限与动态脱敏控制客户痛点•数据的开发、调度分工分散情况严重•数据质量低、数据落标困难•大数据组件运维复杂、缺乏集中统一的有效运维中心业务数据核心账务、对公信贷、个人贷款、在线贷款、代发代扣、外汇资金、人民币资金、理财、基金、网银、信用卡、柜面、支付清算等方案架构应用场景•2021金融业新技术应用创新突出贡献奖•2021年度农村中小金融机构科技创新优秀案例零售和网金业务的指标标签营销集市反欺诈智能决策数据探索 感谢观看|官网:https://inlong.apache.org代码:https://github.com/apache/inlongApache InLong 公众号