AI智能总结
高可用技术白皮书 版权声明 本文档著作权归腾讯云计算(北京)有限责任公司(以下简称“腾讯云”)单独所有,未经腾讯云事先书面许可,任何主体不得以任何方式或理由使用本文档,包括但不限于复制、修改、传播、公开、剽窃全部或部分本文档内容。 商标声明 “腾讯”、“腾讯云”及其它腾讯云服务相关的商标、标识等均为腾讯云及其关联公司各自所有。若本文档涉及第三方主体的商标,则应依法由其权利人所有。 免责声明 本文档旨在向客户介绍本文档撰写时,腾讯云相关产品、服务的当时的整体概况,部分产品或服务在后续可能因技术调整或项目设计等任何原因,导致其服务内容、标准等有所调整。因此,本文档仅供参考,腾讯云不对其准确性、适用性或完整性等做任何保证。您所购买、使用的腾讯云产品、服务的种类、内容、服务标准等,应以您和腾讯云之间签署的合同约定为准,除非双方另有约定,否则,腾讯云对本文档内容不做任何明示或默示的承诺或保证。 IaaS层高可用设计14 4.1 | 基础网络高可用4.2 | 网络外连高可用4.3 | 负载均衡和VPCGW高可用4.4 | 计算高可用4.5 | 存储高可用4.6 | IaaS层高可用小结141517192124 前言 PaaS层高可用设计25 5.1 | 消息队列与流式数据引擎高可用5.2 | 缓存高可用5.3 | 关系型数据库高可用5.4 | 微服务框架高可用5.5 | PaaS层高可用小结2527283030 1 业务高可用的定义与需求 管控平面与支撑组件高可用31 6.1 | 管控平面高可用6.2 | 底层支撑组件高可用3132 基础概念建设目标需求与要素分解010304 切换场景 单AZ互联网出口故障34 解决方案 CVM主动热迁移/被动疏散35 2.1 | 双AZ部署2.2 | 双AZ+仲裁区部署2.3 | 三AZ部署2.4 | 双Region部署2.5 | 同城双活+异地灾备部署0809101112总体架构介绍标准模型0508总体设计13 计算与存储区域整机柜故障37 网络整机柜故障39 双AZ部署时单AZ整体故障41 双AZ+仲裁区部署时单AZ整体故障42 地域级故障,跨地域切换接管43 地域级数据备份容灾44 实战案例 前言 1.1 | 5G新媒体平台客户需求与挑战1.2 | 5G新媒体行业云高可用方案1.3 | 客户价值464647 双活AZ+仲裁案例:某头部农商银行48 2.1 | 金融云客户需求与挑战2.2 | 金融云高可用方案2.3 | 客户价值484950 文档目的 本文档用于帮助用户掌握云产品的操作方法与注意事项。 双Region案例:某国有大型保险集团51 3.1 | 金融云客户需求与挑战3.2 | 金融云高可用方案3.3 | 客户价值515152 三AZ案例:某头部股份制商业银行52 4.1 | 金融云客户需求与挑战4.2 | 金融云高可用方案4.3 | 客户价值525253 符号约定 本文档中可能采用的符号约定如下: 小结 附录 专有云TCE各常见产品高可用能力总览术语与缩写表传统FC-SAN存储复制的问题与风险及解决方案555658 WORKLOAD HIGH AVAILABILITYDEFINITION AND REQUIREMENTS 腾讯专有云企业版(TCE)是一个服务分层分级、架构多地多活、资源分布部署、管控逻辑统一的全栈智能云解决方案。从逻辑上云平台组件和云产品均有全局(Global)、地域(Region)、可用区(AZ)三个级别的层次划分,它们最终都需要部署在实际的DC,也就是物理数据中心内。 业务高可用的定义与需求 基础概念1.1 在运营级与企业级应用中,一个重要的概念是服务级别协议SLA(Service Level Agreement)。SLA的关键指标有可用性(Availability)、业务恢复时间RTO (Recovery Time Objective),数据恢复目标RPO(Recovery Point Objective)。 衡量可用性的指标,一般为可用性百分比。以电信运营商(ISP)提供的企业专线服务为例,如ISP向客户承诺,可用性指标为99.99%(一般称为4个9),每年计划外停止服务的时间在全年服务时间中的占比,就不应当高于0.01%,也就是365(天)×24(小时)×0.01%=0.876(小时),合52.56分钟。一些较为重要的业务有可能对可用性提出更高的要求,如99.999%(5个9)或99.9999%(6个9),对应的计划外停止服务时间就不应该多于5.256分钟或0.5256分钟(约合31.5秒)。 业务恢复时间RTO指的是从灾难状态恢复到可运行状态所需的时间,用来衡量系统的业务恢复能力,也就是所谓的业务连续性。通过对系统RTO的优化,可以使得灾难发生时,能够迅速恢复业务。 数据恢复目标RPO指的是在灾难过程中的数据丢失量,用来衡量系统的数据冗余备份能力,也就是所谓的数据可靠性。通过对系统RPO的优化,可以使得在灾难发生时尽量少丢失数据。 [RecoveryTimeObjective] [RecoveryPointObjective] 在灾难过程中的数据丢失量,用来衡量系统的数据冗余备份能力,即数据可靠性,目的是将数据丢失量控制在可接受范围内 从灾难状态恢复到可运行状态所需的时间,用来衡量系统的业务恢复能力,即业务连续性,目的是灾难发生后,能迅速恢复业务 需求与要素分解1.3 建设目标 一般地,业界认为,数据中心业务的高可用建设,可以总结为七个要素,如下图所示:非技术部分 如高可用相关的基础概念章节中所述,高可用领域的建设目标可以从RTO和RPO两个维度进行衡量。 我们将RTO作为X轴,RPO作为Y轴,二者交叉可以得到四个象限,如下图所示: RTO≠0, RPO=0 RTO≈0, RPO=0 业务级别分布式双活/多活数据中心任意单点故障,对业务连续性和数据无影响高可用建设的最高目标,需要极高IT管理能力 同步容灾数据中心核心数据同步复制,灾难发生时,在另一AZ拉起业务最常见的业务高可用建设方式 RTO≠0, RPO≠0 RTO≈0, RPO≠0 异地灾备(冷备/温备)数据中心数据异步备份,地域级别灾难发生时异地拉起业务高可用建设的兜底手段 互联网弱状态业务多活数据中心数据最终一致性适用于非关键业务,如直播与社交等 图1-2 高可用建设目标四象限 在图1-2中,我们通过数据中心业务的RTO和RPO是否为0,将数据中心高可用建设的目标划分为四个象限。 图1-3中展示的七个要素,可以分为两个大类:技术部分和非技术部分。 前者包括基础设施高可用、网络连接高可用、数据存储高可用和应用高可用 相对右上象限而言,是退而求其次的场景,RTO≠0,RPO=0。这代表业务在两个或多个数据中心上以同步容灾的方式运行,核心数据在两个或多个数据中心之间严格同步,也就是所谓的实现强一致性。当单一AZ整体故障时,业务可以切换到另一AZ运行。这种方式是最常见的业务高可用建设方式,需要实现核心数据库等存储组件的强一致性同步,为此有可能在核心存储组件的写性能方面做一定的妥协;左上象限 是要求最高的场景,RTO和RPO均为0。这代表着业务在两个或多个数据中心上,实现分布式双活或多活部署,任一节点/链路/机柜故障,甚至单数据中心整体故障,都不影响业务连续性,用户可以无感知地继续使用数据中心承载的业务。实现这一象限的建设目标,不仅需要经过严格设计测试的技术架构,还需要极高的IT业务管理能力,是数据中心高可用的最高目标,相应地,成本也是最高的;右上象限 基础设施高可用,指的是数据中心的供配电系统、散热系统、综合布线和硬件设备的高可用冗余,如业界最高标准的Tier-IV级别数据中心,就要求供电是来自两家不同的电网企业,后备供电系统至少具备 2N UPS系统以及N+1柴油发电机,空调与机柜PDU均为双电源,以保证整数据中心基础设施的可用性达到99.995%,每年计划外停止服务的时间不应当高于0.4小时。各级别数据中心的标准可参见ANSI-TIA-942-2005; 网络连接高可用,指的是数据中心内外部的网络节点和链路均具备高可用的基本条件,包括数据中心内部网络高可用,数据中心到互联网的连接高可用,数据中心到企业Intranet的高可用,以及数据中心之间互联链路的高可用。以利用裸光纤链路(DarkOptical Fibre Link)实现数据中心互联(DCI, Data Center Interconnection)为例,一般建议租用两家不同供应商的线路,并且两条线路在地理层面也经过不同的路径。由于运营商能够保证单链路的可用性达到4个9,采用冗余的运营商线路,可以将单数据中心的外联网络可用性提升到8个9; 是高可用建设的一种兜底手段。当数据中心建设方在机房、网络线路及技术架构等方面不具备前三种建设方式的前置条件时,可以采用此种方式,使用较为节约的技术方案,建设温备或冷备数据中心,主数据中心的核心数据通过异步方式定期复制到备份数据中心。当主数据中心因故无法运行业务时,可以在备份数据中心拉起业务,并保证核心关键数据的丢失量在可控范围内。显然,这种建设方式的RTO和RTO均不为0;左下象限 是右上象限在另一方面的妥协。一些海量用户使用的业务,在状态与数据方面没有强一致性要求,而在性能与扩展性方面有较高要求。对于这些业务,我们可以使用部分数据的最终一致性,来代替强一致性的方法,通过在一致性方面的妥协,来实现系统性能更好的扩展性。在业务部署与运营时,可以依据一定的策略,把用户请求分发到两个或多个数据中心,而业务产生的数据并非实时强一致同步。这种建设方式的RTO=0,RPO≠0,可以适用于音视频、社交平台及门户网站等非关键业务;右下象限 数据存储高可用,指的是在数据中心内部,数据以一定的冗余方式存储(常见的有RAID、纠删码和多副本),以保证一定数量范围内的磁盘或存储节点故障时,整系统的数据存储服务依然可用,数据无丢失;同时,将数据跨数据中心进行同步或异步复制,以保证在单一数据中心整体故障时,备份数据中心能够继续提供数据存储服务,且数据丢失量在可接受的范围(RTO)以内; 应用高可用,指的是通过在数据中心内部,以及跨数据中心之间,部署多个应用实例,并通过负载均衡/负载分担机制将用户请求分发到不同的应用实例。当数据中心内部分实例故障,甚至单个数据中心内实例全部故障时,用户仍然可以正常访问数据中心内的应用; 后者包括专业技术支持能力,运行维护管理能力和灾难恢复预案 专业技术支持能力是指对灾难恢复过程提供技术与非技术各方面综合保障的能力,以使得灾备系统能够真正起到作用; 运行维护管理能力指的是运行环境管理、系统管理、安全管理和变更管理等内容,以保证对于数据中心所运行的业务相关的操作,都是在流程控制下执行的;灾难恢复预案是保障关键业务功能在高可用数据中心的恢复,主系统的灾后重建和回退工作,以及突发事件应急响应的组织流程和预案,甚至进行沙盘推演及实际应急演练。 在实践中,我们可以根据实际业务需求,结合成本考量,进行数据中心高可用方面的规划与建设。 解决方案TCE HA SOLUTION 如前文所述,对于业务的高可用而言,技术层面的决定因素是基础设施高可用,网络连接高可用,数据存储高可用和应用高可用这四点。TCE在基础设施高可用的前提下,通过充分考虑高可用的架构设计,融合网络连接高可用和数据存储高可用,实现了应用层面的高可用。 总体架构介绍 TCE的高可用部署,是一个具有完整体系的高可用方案,如下图所示: TCE提供的中间件服务和数据库服务能够具备跨AZ的高可用性,无论是部分中间件服务节点故障,还是单AZ内所有中间件服务节点故障,云平台都能够保证中间件服务的可用,数据的丢失在可接受范围内,高可用部署对中间件和数据库服务的性能影响也在可接受范围内;