⚡➃皍➝ 㩍 㮴 㮴 侨 䰘 ⚥ 䗱䚪 絑 椚 ⸔ 椚 劍➢✲ꆄ輑遤⚌崵霚ծ鵘絶盗椚䊨⡲鵛10䎃涸霆ⵚ遤⚌崵霚ծ鵘絶䊨⡲絑낉餏餓崵霚餘ꆀ⥂ꥻ⡤禹䒊霃⿺鵘絶⡤禹䒊霃կ㖈兰腊崵霚ծ兰腊鵘絶곭㚖䭆剣⚪㺢涸㹊騨絑낉կ㛇✵㣐垷㘗涸兰腊⻊欰䧭崵霚欽⢾䎾欽㹊騨고湡虽蜦帿❜䨾2023䎃䏞靃곿♧瘝㤙䎇鄄ISSTA2024鲱⟝崵霚涸㕂꣢곝紩⠔雳䔶欽կ 䒸鎊-㕂岲ば㸝霆ⵚ⥌䜂⻊傞➿Ⱆ雩涸遤⚌叻勍 IT餴彂盗椚⚰涸䮋䧶 㺂ꆀ盗椚涸Ⰼ欰ㄐワ劍 湡䔶 㺂ꆀ盗椚涸衅㖑㹊騨 FINOPS㾝劅♸禹絡珘㹁䚍⥂ꥻ IT餴彂盗椚⚰涸䮋䧶 IT餴彂盗椚銳㔐瘷涸곿 各部门是否能对IT资源管理的重要性达成一致共识? IT餴彂盗椚⚰涸䮋䧶 •各项IT资源持续投入,如何平衡IT资源投入与成效之间的问题日渐凸显。 1、金融行业的数据敏感性导致无法上公有云,应对突发行情时扩容难度大。2、监管要求重要系统满足三倍容量冗余,生产、灾备具备同等处理能力,导致资源利用率提升难度增大。 •通 过 以 全 生 命 周 期 容 量 管 理 为 核 心 的FinOps管理体系,细粒度管控资源分配,可实现业务连续性和成本效率的智慧融合。 㺂ꆀ盗椚涸Ⰼ欰ㄐワ劍 02 㺂ꆀ盗椚䅺Ⰶ䎾欽禹絡Ⰼ欰ㄐワ劍ぐ梠蒜 ♳絁❜絶媯涸㺂ꆀ盗椚䊨⡲ 交维阶段,以《国泰君安证券数据中心技术运营标准》为依据对拟交付系统进行全面质检,其中容量管理相关的工作包括: 系统承载能力 容量指标完备性 容量指标采集加工 合理资源配置 容量应急能力演练 运维根据业务承载目标、预期增长量、部署架构规划基础资源需求,在生产环境完成资源配置。 运维完成实时容量指标的运维数据采集、加工,确保运行监控口径与设计目标口径一致。 运维通过混沌工程等方式验证系统的限流、降级、快速扩展等场景,演练结果不符合要求的系统退回整改。 对移交附加的压测证明材料进行审核,确保各容量指标承载上限清晰,不足的退回补充开展压测。 运维对开发拟交付的容量指标清单进行审核,评估无法全面反映系统承载能力的,退回开发补充。 ば䊢兰唬䎂〵 䭯絯鵘絶媯涸㺂ꆀ盗椚䊨⡲ 制定定期容量评估考核项,督促管理员、开发共同关注系统容量变化情况。采用分类分级的方法明确不同重要性等级系统的压测要求。 单技术组件 服务 测试单一服务的容量,包括单系统、全链路等压测方法; 业务 通过全链路混合场景,测试整体业务的容量。 㺂ꆀ盗椚涸衅㖑㹊騨 03 䒊用㺂ꆀ䭷叻⡤禹㣝㹊㺂ꆀ盗椚涸㛇炄 明确“以用促建,围绕运维场景提炼指标体系”这一原则,建立场景化指标体系。 ⡤禹唙椚䒊用 䪮助䩛媯⥂ꥻ 建立统一的、具有证券行业特性的运维指标体系,从而更准确的量化展现系统运行状态及业务价值,为数据分析、智能运维场景等提供基础条件。 通过技术手段实现指标模型管理、质量管理、计算任务管理、血缘管理,保障指标体系的动态更新和持续运营。 ⴔ㽻㺂ꆀ盗椚㹊梡礵絈⻊㺂ꆀ盗椚 借鉴国际国内的相关标准,结合国泰君安自身实践,构建了涵盖业务、服务、组件的分层立体式精细化容量指标体系。 例如:在线用户数峰值(人)、业务总量、交易成交量(笔)、开户数(人)、总线消息处理数(笔)、业务量峰值等。 从技术视角支撑业务场景的开展,关注具体业务接口的承载目标。例如:关键功能号、接口、服务场景的请求量、响应时间。 主要管理落脚于资源分配的具体对象,关注单个具体技术组件的承载能力,向上支撑服务容量。例如:如数据库TPS/QPS、消息队列吞吐率、应用组件TPS/耗时、各技术组件的CPU、内存、IO、磁盘空间利用率等。 Ⰼ崨玐涸㺂ꆀ盗椚禹絡 Ⰼ崨玐涸㺂ꆀ盗椚禹絡 鸑鵂iCapacity䎂〵㹊梡IT㺂ꆀ盗椚Ⰼ崨玐絁♳⻊ 㺂ꆀ盗椚⟟⧩-㺂ꆀ錞ⴢ刿猰㷖 䭽䎃䏞㹁劍錞ⴢワ劍㺂ꆀ 䌢䙖⻊䭽錞ⴢ㺂ꆀ l定期分析业务运行情况,及时响应行情变化带来的增量容量需求,规划调整容量水位较高的服务组件资源配置;l为营销、外部引流等业务需求提供事前容量调节准备。 l数据中心按年度收集业务运行数据,协同业务、开发对业务运行质效进行分析,规划下一年度业务调整方向。 㺂ꆀ盗椚⟟⧩-禹絡㺂ꆀ盗椚歘⫸⤛鵳㺂ꆀ盗椚餘ꆀ䲿⼮ 匬䒊荈⸓⻊ⴼ倗錞ⴭ 絕ざKPI罌呍 通过构建评判规则,容量管理系统实现了,从指标完备性、指标质量、容量水位监控度、容量优化工作及成本合理性,5个方面对系统的容量管理工作进行画像。 •自动化判断容量指标完备性;•对水位过高的容量指标进行重点揭示;•根据资源配置总量、指标水位情况,自动生成成本优化建议,推送管理员进行资源回收。 㺂ꆀ盗椚⟟⧩-㢴絶㺂ꆀ䭷叻ⴔ區⿺傞峯㻋㺂ꆀꥧ䝖 支持以主机、组件维度分析基础资源容量使用情况。发现容量组件内、组件间容量水位不均衡问题,为容量优化提供依据。 㺂ꆀ盗椚⟟⧩-兰腊㺂ꆀ곫崵雮㺂ꆀ盗椚刿➢㺂 㺂ꆀ盗椚⟟⧩-兰腊㺂ꆀ곫崵雮㺂ꆀ盗椚刿➢㺂 㺂ꆀ盗椚⟟⧩-㛇炄餴彂ⵄ欽桧Ⰼ㽷䱍䱽 㺂ꆀ盗椚⟟⧩-剣佪곫险ㄤ⻊鍒㺂ꆀ굥ꤗ 劥䎃䏞稡雦곫险ㄤ⻊鍒39⚡㺂ꆀ굥ꤗ挿 ꅾ挿劼厷ծꅾ挿劼䨻㺂ꆀ錠㕃 剣佪䎾㼆鵛劍瑲〄遤䞔Ȿⴁկ 㺂ꆀ盗椚⟟⧩-ⵄ欽桧紤랱嚸 全量重点系统进行多层级指标覆盖的精细化容量管理,以红黑榜形式推进优化。 FINOPS㾝劅♸禹絡珘㹁䚍⥂ꥻ 04 劢勻㾝劅-⟄腊⸂䧭擿䏞⚹罌嶍⿺刿㢴FinOps곭㚖 倝餻腊涸DevOps䪮助鵘蠒䊨Ⱘˋˋば䊢兰唬䎂〵 君巡智检平台旨在通过建立一套科学、高效的系统稳定性保障能力自动化评估办法,分解影响业务连续性因素节点,量化评估节点的有效性或运作质量,通过可量化指标及工作流程机制驱动组织能力、流程协同机制、工具的完善,提升业务连续性。 数据驱动的系统稳定性保障体系落地实践 标准编制:2023年7月24日推出了《国泰君安证券数据中心技术运营标准》,作为国内首个根据中国信通院DevOps标准自主开发的内部企业标准,已经过中国信通院官方的评审,由国泰君安与专家团队合作制定。该标准包括了数据中心技术运营的多个方面,为稳定性分析打下了坚实的基础。 发展动态:2024年7月24日我司重磅发布君巡智检平台,通过多元化数据整合、可视化调度编排、独创式可量化评估指标体系,将运维标准化与效能度量深度融合,实现了运维管理平台之间的互联互通,促进了运维质量和效能的不断提升。 感谢聆听!Thanks for listening!




