您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[PingCAP]:金融行业实时HTAP场景实践白皮书 - 发现报告

金融行业实时HTAP场景实践白皮书

金融2023-12-13PingCAPF***
AI智能总结
查看更多
金融行业实时HTAP场景实践白皮书

实时数据服务平台金融行业实时HTAP场景实践 趋势洞察 趋势一;数字化场景爆发需要开源技术体系和云原生基础设施的融合支撑01趋势二:数据服务消费化催生统一实时数据平台02 面向未来的数据服务 HTAP的定义和应用场景90TIDB实时数据服务平台08TIDBHTAP架构设计08不同场景下的数据消费三维需求10TIDBHTAP差异化优势:四性合一12用户价值13 金融行业HTAP场景实践 内外部监管批量(反洗钱)18 导读 数字化进入场景大爆发时代,开源技术体系和云原生基础设施为致字化场景提供融合支撑,致据服务消费化的趋势催生了统一实时数据平台。基于HTAP(Hybrid Transaction and Analytical Processing, 混合事务和分析处理)架构的一栈式数据服务平台脱颖而出,广泛应用于数据密集型应用和以“用"为核的实时数据服务平台。 本白皮书以企业级开源分布式数据库TIDB为例,简要介绍HTAP平台的定义、架构特点,剖析HTAP作为一栈式数据服务平台在金融行业实时风控、反欺诈、用户中心以及实时数据中台(实时数仓)等场景中的应用实践,解读HTAP在提升业务敏捷性、降低数据栈复杂性和实时洞察等领域的独特价值。 趋势洞察 趋势一:数字化场景爆发需要开源技术体系和云原生基础设施的融合支撑 在未来十年的发展过程中,最重要的一个变化就是数字化加速。分析机构预测到2025年全球的创新数字化场景应用数量会是过去40年的总和,数字化进入场景大爆发时代,因此会对IT底层的通用技术产生巨大的需求。数字化创新三角指的是在未来数字化场景中,数字化、开源技术体系和云基础设施成为最重要的三大支撑。 在数字化创新三角中,开源成为新技术的创新引擎,通过源头创新的方式不断地把通用技术以全球社区的协作方式生产出来,避免闭门造车、重复造轮子的现象;对于企业级用户来说需要一个相对稳定云原生基础设施,包括云原生技术、多云等,为上层应用的多维组合、交付集成、运维和即时服务提供支撑。 开源和云原生的组合成为满足数字化场景大爆发的王牌组合。如何通过开源和云原生基础设施,包括多云的模式去服务于未来数字化??不少>科技公司交出了完美的答卷,开源数据库MongoDB以及大数据独角兽Databricks充分证明了“云计算+开源"取得了全球范围的商业成功,下一代的数据分析和处理一定发生在云端,并且以开源的模式不断进行选代和演进,这样才能够满足数字化场景大爆发的需求。 开源和云基础设施的结合可以更好地服务企业数字化,云、数、端自下而上构建形成了企业数字化的三层架构。实时交易、实时风控、个性化的营销都在端上完成,是场景,是体验,也是一种服务。数字化时代强调数据驱动和数据治理,所有实时性的数字化需求与信息化时代的最大差异是需要统一的数据服务架构,业界流行的很多名词,比如HTAP(HybridTransactionandAnalytical Processing;混合事务和分析处理),它实现了业务的在线交易和在线分析一体化,包括湖仓一体”、“流批一体"等这些都代表用户追求“简化、融合"的技术栈方面的需求。云计算作为底层的基础设施提供多样化的算力,实现了资源的全面弹性,越来越多的企业采用云原生技术和跨云战略奠定数字化的基石。 趋势二:数据服务消费化催生统一实时数据平台 云计算、大数据、人工智能等接术的应用推动着传统金融行业的业务变革,金融科技对传统金融进行着全业务流程的重塑,为用户带来全新的业务体验。以银行为例,以往用户办理各项业务都需要去银行网点,各类服务之间有着清晰的边界。随着数字化转型的推进,越来越多的业务转为线上化办理,银行逐步将金融服务嵌入到衣、食、住、行等生活场景,在多个领域满足客户多元化场景的需求。 基于对相关业务数据的分析,金融机构会进一步决策后续为客户提供邸些服务支持。如果把开放银行多元化的场景比作放风筝,金胜服务渗透到生活场景的方方面面,就相当于同时起飞了多个场录风等,“数据因子”就是风筝的引线,实时的数据服务就成为了多个风等协同管控的必备平台。 用户使用数据进入“任意门”时代即数据消费的实时化成为刚需。在数字化转型的过程中,金融企业对“海量、实时、在我”的款数据需求要得史加追,企业中的年意人、金融交易、征证三、风险确好等数请准识别出其风险特征和投资偏好,测,根据用户需求的变化实时调整提升转化效率;通过场景服务的不断选代创景,在高频场景中植入金融服务,触达更多用户。 金融企业全场景的数字化呈现出数据服务变革的两大方向,一是从需求侧的数据服务消费化,数据服务要能够支持任何地点的任何人,二是供给侧的统一实时数据平台,可以在任意时间,以任意形式提供数据服务。数据服务消费化的趋势就是要为增强型消费者和企业内部每一个员工提供个访间数据的“任意门”,让他们可以实时获得个性化的数据服务。数字化时代的刚需将催生统一的实时数据平台,以完成“实时汇聚,实时反馈,实时洞察,实时决策”。 1方向一:数据服务消费化 分析机构Gartner在《DataandAnalyticsTrends2021》报告中指出:数据和分析已经成为企业的一项核心业务资产。数据分析的增强型消费者开始兴起,企业的业务决策从业务分析师向数据消费者聚焦,把先进的分析能力转移给企业中更多的信息消费者。预定义仪表盘将逐渐被自动化、对话式、移动式和动态生成的洞见所取代,而且这些洞见均根据用户需求定制并可以实时交付至用户需要消费这些数据的时候。 例如,一个快消品的调研员,会通过手持终端设备随时随地了解产品销售情况和预测销售趋势,进而根据数据做出相应决策;一个基金经理往往需要随时根据客户资产净值、交易频次变化、金融产品销售情况等一系列数据服务,来有针对性进行营销决策,而这些决定常常需要几分钟甚至几秒钟内完成。 欧据服务消费化的趋势就是要为增强型消费者和企业内部每一个员工提供一个访问数据的“任意门”,让他们可以实时获得个性化的数据服务,这个数字化时代的刚需将催生统一实时数据平台。 】方向二:统一实时数据平台解决四个“实时”需求 随着金融企业的场景和业务创新,越来越多B端和C端上层的应用对数据服务提出新要求。在海量数据规模下,如何提升数据的服务效率,从而不断提升用户体验,成为金融企业在数字化转型新阶段面临的关键任务,金融企业的数据服务形态正在向统一实时数据平台聚焦。 金融企业借助统一实时数据平台实现数据打通(包括场景信息、业务信息、数据信息等),使产品服务更智能、场景结合更紧密、数据价值变现更快,不断继生新产品、新业态、新模式,为产业发展注入创新活力。此外,统一实时数据平台简化了金融企业的数据栈,大幅降低IT投资、人力和运维成本。 统一实时数据平台先借海量、实时、数捷的能力承担企业级数据中枢的角色。一方面,统一实时数据平台可以整合多个数据栈,实现多源数据的实时汇聚,为上层各类业务应用提供数据源和实时反馈,便于进行业务的实时决策;另一方面,统一实时数据平台可以提取、处理和分析上层的应用数据,获取实时洞察。 面向未来的数据服务 HTAP的定义和应用场景 HTAP的定义(Hybrid Transaction and Analytical Processing,混合事务和分析处理)最早由Gartner提出,被视为是未来数据技术发展的重要趋势之一。HTAP致据库能够同时兼具处理交易以及分析两种作业的能力,这使得交易数据能够被实时分析,大大缩短决策的周期,同时大幅筒简化平台架构。 HTAP作为一种新兴技术架构与能力,不仅可以带来某单一系统的功能与性能提升,更重要的是会驱动企业IT架构面向现代业务目标的整体转型升级。Gartner在(HyperCyclefor Data Management,2021》报告中预测Augumentd Transaction(HTAP)将在未来2-5年内发展到技术成熟期,迎来主流市场的大规模应用。 HTAP既然成为一种新的标准与规范,需有尽量明确界定。最基本原则就是HTAP在技术上必须有不同于传统经典数据库的能力(不应该只是分布式),而且必须对数字化进程带来创新与升级,包括业务架构、应用架构、数据架构与技术架构等层面的升级。面向这一原则,对于HTAP的界定主要从以下几个方面进行衡量: 全新架构 HTAP在技术架构与设计目标上不应该等同于经典Oracle与MySQL或分布式后的类Oracle与MySQL,这类经典的数据库本质上无法同时承载交易与分析SQLHTAP需要全新的技术架构,并能自然的支持云原生。 水平扩展 现代HTAP数据库应该是基于分布式架构的设计,面向海量数据的水平扩展成为其必须的基础能力。 HTAP数据库的在线交易与分析任务的执行要能做到对用户透明,且彼此之间互不影响,不应该是OLAP多了大幅影响OLTP,OLTP多了大幅影响OLAP,这是真正的Real-Time HTAP所必备的重要特点。 负载隔离 HTAP不应该仅仅面向数仓类纯OLAP的需求,HTAP支持的实时数据平台既可以应对OLTP/OLAP的混合负载,也能够成为实时数仓的实时数据服务层,还可以通过与Flink等技术的融合完成流批一体的架构支持。HTAP不是简单的OLTP+OLAP,它需要面向开源的大数据技术保持开放性,从而可以持续丰富,成为一个可延伸的数据服务平台。 开放生态与选代能力 终上所述,HTAP不仅仅局限于对原有数据库的替换或者是交易和分析处理性能的提升,HTAP应该是一个开放的生态体系,承担支持数据服务消费化和构建统一实时数据平台的角色,带来的是业务与架构的创新与提升。由此出发HTAP的应用场景主要集中在两个方面: 数据密集型应用Data Intensive Applications 有了HTAP能力,未来的数据密集型应用,都应该在业务交易侧就天生拥有分析的能力,并且不影响交易的性能与数据的一致性。如风控、营销或者其它原来需要在后台数据平台端通过数据迁移与同步才能完成的能力,相当一部分可以迁移到应用侧实时完成,成为应用内生的功能,使其本身就能完成实时的业务闭环,这必然是技术驱动全场景数字化能力发展的重要方向。未来的业务应用都逐渐朝着这个方向来设计,这对现代交易系统的业务能力改造与升级具备重大的意义。 以“用”为核的实时数据服务平台Real-TimeDataService 大多数的数据仓库(DataWarehouse)体系都是为“管"而生的,应用很难享受到数据的红利。绝大多数的企业在花大量精力建立了数据仓库体系后,业务系统人员大多只能通过“请求技术人员协助完成”及“把数据导入到业务系统”两种方式来使用数据这种应用与数据分副的现象是大多数企业在过去很长一段时间到今天都非常关注的痛点。 基的实时数据服务平台(也称为实时数据中台),已经成为企业规划与实施的重点创新与升级。不同于数据仓库是为了“存”与“管”,实时数据服务平台是为了企业中的各种增强型消费者能将数据(准确讲是面向业务整理后的数据资产)当作超市的商品一样自由选择与消费,从而让整个企业享受到数据实时变现的红利。 面向数据消费的实时数据服务平台,即要承载来自全企业的大量、高并发的服务型查询需求(QPS的OLTP型),也要承载大量探索型的统计分析需求(OLAP型),这种要求显然不是纯OLAP数据库,也不是纯OLTP数据库能满定的,显然又必须是弹性分布式的,因此HTAP数据库就是这个场景的最佳选择。 TiDB实时数据服务平台 TiDBHTAP架构设计 PingCAP团队的论文《TiDB:ARaft-basedHTAPDatabase》探讨了 TiDB HTAP架构设计与实现,是业界首篇Real-TimeHTAP分布式数据库工业实现的论文,被VLDB 2020 收录 (VLDB 即 International Conference on Very Large Databases, 是全球数据库领域顶尖的三大学术会议之一)。TIDB作为一款领先的HTAP数据库应用于