您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:面向一云多芯的智能云网全景可观测系统建设 - 发现报告

面向一云多芯的智能云网全景可观测系统建设

电子设备2024-09-06张亮国泰君安证券邓***
AI智能总结
查看更多
面向一云多芯的智能云网全景可观测系统建设

面向一云多芯的智能云网全景可观测系统建设 国泰君安证券股份有限公司数据中心云技术中心组张亮 云计算平台面临的可观测性挑战 1 融合分析大数据平台 分布式交易数据库 证券新核心业务 IOE技术体系(集中式架构) 集中式平台 业务系统 <应用逻辑>(java/C++) 快速软、硬故障定界定位(一般问题闭环<30min) 中间件 KXCP/KCBP/REDIS/Ngnix 业务系统平滑迁移、应用多活、高性能、超大规模 业务应用重构 业务系统云原生化 云化技术体系(云原生、分布式架构) 云化、分布式架构 分布式云原生架构 中间件(消息、事务、缓存、调用链等)微服务框架 云原生容器 云原生技术体系 SQLserver/Oracle 强一致性(交易+批量计算) 传统数据库分布化 OS、x86硬件平台 分钟级备切换,最低99.99%可靠性 基础设施全面云化 IaaS云底座 DC1DC2DCn 3类云化,6大技术点 基础设施全面云化 IaaS云底座 传统数据库分布化 分布式交易数据库融合分析大数据平台 业务系统云原生化 云原生容器基础设施微服务框架 中间件(消息、事务、缓存、调用链等) 云总体布局 建设开发测试云、生产云、集团协作云、开放生态云四朵云 努力打造全行业领先的自主开发、自主掌控的国泰君安金融全栈云 生产云开发测试云集团协作云开放生态云 承载各类业务系统生产、同城及异地灾备环境 承载各类业务系统开发测试环境 承载资产管理、期货、创投等各子公司的业务系统 承载量化私募、PB等外部客户的业务系统 金融云发展时间轴 2013年2014年2015年2017年2019年2020年 基于CloudStack上线开发测试云,实现计算和分布式存储统一管控 完成国家云平台课题验收,发布CMP1.0,实现IAAS资源自服务 基于Openstack上线开发测试云2.0,发布CMP2.0,实现对异构资源的统一纳管 上线生产云、开发测试容器云平台 上线开发测试信创云,并发布基础资源服务平台1.0 上线生产信创云,托管云,发布基础资源服务平台2.0,实现一云多芯管理 规划路线 2023年加速云原生基础设施建设 加速云原生建设,完成“一云多芯”信创、非信创多元算力,资源统一管理,实现云边协同,资源敏捷交付 2024年云原生应用敏捷开发 夯实数字基础设施升级,扩大云资源规模,推进高效敏捷开发向以应用为中心的架构演进,实现应用敏捷开发,提升应用迭代速度 2025年全栈能力全覆盖 实现两地多中心全栈云原生服务能力全覆盖,完成存量系统整体迁移到全栈云。 聚焦云原生底座资源部署,加速云原生体系与平台建设,完善和提升云原生服务能力,以科技服务云平台为载体,面向集团提供全面、易用、自主可控的云原生服务,提升资源交付质效,高效支撑业务敏捷创新。 智慧中台 作为云平台核心的组件,该应用集权限管理、配额管理、计费和事务管理于一体,通过权限校验与配额分配,确保云资源的合理分配,实现了整个云平台内部统一、协调运转。 一云多芯、多云部署 结合公司基础架构特点,为每个云服务设立独立的业务资源模型,通过该抽象模型,能够实现多区域、异构资源池的统一纳管,从而满足鲲鹏、飞腾、海光等国产信创芯片的云资源,实现了“一云多芯”的统一管理。正是借助此架构的优越性,使用户在无感知的情况下自助申请、创建云资源。 自研云应用,提升云服务质量 云平台通过标准的接入规范和部署规划,最大程度的减少其他云应用开发周期和难度,能够实现快速SaaS应用的上线交付。依托于此,国泰君安云计算团队,自研开发了云监控系统、云网流量分析、弹性文件系统、对象文件系统、文档中心、镜像站等云应用,为用户提供了更加便捷的云资源交付与服务。 随着越来越多的核心业务系统迁移上云,云上业务的稳定直接影响着用户体验与服务质量,从应用服务可视化、应用调用追踪、故障诊断、业务保障、安全、审计、运营分析、调度等维度,针对云资源池业务分析及消费的需求越发突出。 缺少云资源池上的应用服务可视化能力 核心设备南北向的流量镜像采集点无法覆盖资源池内流量采集,缺乏资源池内应用服务流量数据包的全量采集手段,使得业务运行处在黑盒状态,缺少资源池内的应用服务可视化能力 01 现有监控手段不能满足复杂环境中的业务运维排障要求 资源池内业务动态性高,覆盖范围广,业务覆盖的资源范围可能实时动态伸缩,目前监控手段无法动态获知复杂的业务访问调用关系,无 法自动呈现业务的端到端全链路流量拓扑图 02 缺乏零侵扰的全链路分布式追踪 针对关键业务嵌入SDK或者插码打桩的方式,对业务开发语言、框架有着严格的要求,需要消耗大量时间维护嵌入式SDK代码,增加非核心组件的工作任务,使得精准的业务保障成为难题 03 缺乏历史故障问题回溯分析能力 关键业务系统访问出现某一时刻或单次请求故障时,因无法记录单次请求或瞬时的网络及应用请求状态及性能指标,所以不能对故障问题提供责任举证,使得业务网络存在隐患 04 解决云网络的“黑盒 在复杂的云基础设施及云原生环境下保障应用系统可靠稳定运行、减少故障修复时间,实现全链路数据监控、性能分析及故障快速定位,提升系统稳定性与运营效率 在一云多芯环境建立云网络内的流量全景视图和运维、运营、安全管理机制,具备网络性能分析、网络回溯、资源回收、统计报表、网络全景拓扑全链路分析能力 降低可观测运维复杂度 在云原生环境中建设面向云内所有系统的高度自动化的可观测性平台,为云内应用提供量身打造的全栈、全链路、高性能数据 完善公司金融云的管理 为云上应用提供更优质的服务,提供面向业务系统在云内的自助分析能力,保障业务稳定运行,加速故障分析效率,快速定界,提升系统稳定性和运营效率 按功能区部署数据分析层 云原生数据分析节点 分析监控数据 虚流拟量化数数据据 云流原量生数数据据 ...... 云环境数据 eBPF数据 应用观测 系统观测 云网观测 ...... 覆盖数据中心云基础资源层 虚拟化环境 各资源类型宿主机、虚拟机环境 云原生环境 容器环境,包括信创、非信创环境 云原生应用 云原生中间件、云原生数据库等云内应用 运维场景 ...... 云网络数据服务 云网络调用链跟踪 云网络流量拓扑 云网络历史回溯 云网络故障诊断 覆盖虚拟化、云原生、云中间件、云数据库等云内应用,实现对云网络的可观测能力覆盖;结合CMDB等多源数据,实现对海量数据深入挖掘和分析;依托AI中心和多平台联动,提供不同运维场景的数据服务; 从流量引取、流量采集、数据存储等多个细分环节,实现自主掌控的能力,并可以对云网内不同类型的流量进行精细化的采集和管理 精细化数据采集和控制 针对企业内部的个性化需求,如一体化监控等,可以实现灵活的对接,按需将流量分发给不同的数据需求部门以及对应的分析工具,实现云网的统一监控 可作为云网环境大数据平台,经过全网流量的采集,通过标准数据API,企业可以自行对底层数据进行查询、业务逻辑处理、封装,自主开发数据应用 数据PAAS平台 组件灵活扩展 满足云数据中心流量规模日益增长的需求,分析器、采 以租户、业务为核心与公司一云多芯的异构云平台可以进行对接联动,调用不同异构云平台的数据接口,自动感知各环境内租户内的业务,实现以租户为核心的网络流量分析。 运维排障分析统一对外接口 针对精细化采集的数据流量,支持用户对其可以进行离线数据的回溯,对常见网络流量和应用特征类型进行提取,并可以进行直观的展示,完成从物理网络到虚拟网络的端到端全栈调用链追踪和诊断 数据可量化 可以多维度、数据化、可视化展现网络中的不同指标,实现了对异常网络事件的量化功能;同时,结合历史数据,分析不同层次的运行情况 集器软件可灵活横向扩展,支撑云网全景流量数据服务系统稳定运行 云资源自动学习和无侵入采集 节点资源维度 工作负载资源维度 POD资源维度 •实现多云资源池流量无侵入、零干扰地全量采集 下钻 业务指标分析 客户端 客户端宿主机 服务端宿主机 服务端 •针对不同的云资源,自动标记端到端数据标签 多中心云资源池全局视图 •基于云网的流量采集数据,自动生成多中心多资源池的可视化拓扑 •针对某个业务,进行数据下钻,分析业务的调用拓扑关系,并根据业务网络情况,进行具体的性能分析 端到端路径追踪详情 •基于端到端的数据链路情况,结合采集的性能指标,分析链路每一个路径的网络性能情况 云网分析标准化 可用性指标 TCP重传、HTTP异常、DNS异常 容量指标 系统流量吞吐、数据传输包数、 活跃连接数 01健全云网指标体系 时延指标 建连时延、系统时延、应用时延 02标准化排查流程 通过建立不同问题的排障树,标准化分析和排查流程,加速问题排查过程 建立云网的自动化巡检流程,系统性识别网络中潜在风险,从而对环境进行优化配置,减少故障 风险 资源精细化管理 结合资源的使用情况, 建立开发测试环境资源回收的机制,采用留指标数据,判断云主机的使用情况,并结合云网流量分析服务和云备份服务,实现资源回收的 流程 回收周期内流量数据较小的列表 云上应用关联性分析 云监控服务提供了一套基于租户的云网络流量可视化方案 支持对系统内某个业务组件的指标查看 支持对性能指标的关联性分析。通过关联基础资源的指标,加速问题排查效率 基于云门户的云监控分析服务 可以快速了解业务系统的网络状况,通过定制化的视图,结合RED指标,发现访问管理中需要加强关注的部分,降低问题定界的时间 通过对网络流量的细致分析,可视化监控有助于优化网络结构和配置,提升网络性能,保证云服务的高效稳定运行 使用计算能力去复制方法和知识,更高效的完成对可观测数据的处理、加工、分析。 现状 专家经验 问题排查依赖经验的积累,无法快速复制,对初级工程师仍需长时间学习 专业知识广 全栈可观测性涉及到从应用调用到底层基础设施的各个环节,包括应用性能指标、分布式追踪、网络性能指标、资源变更事件、函数性能剖析等。这些数据量庞大且复杂,需要综合多个维度进行分析和关联题排查依赖经验的积累 基于大模型的数据处理与分析 解决思路 利用先进的大模型技术,对云网环境中的海量数据进行高效的处理和分析。通过引入数据特征提取等预处理机制,提升数据处理的效率,从而实现更加实时的可观测性 多源异构数据的整合与融合 高效的数据整合与融合框架,能够关联来自不同来源的观测数据,使得智能体可以基于大模型进行统一的分析。通过异构数据的关联算法,提升数据的分析价值 零侵扰的大模型应用持续剖析能力 利用eBPF等新兴技术,在不修改大模型应用代码、不重启大模型应用进程的情况下,实现零侵扰的大模型训练和推理过程的持续剖析能力 可扩展的系统架构设计 适应云网环境的不断变化。通过引入微服务架构和容器化技术,提升系统的可扩展性和灵活性,确保系统能够随着需求的变化进行平滑扩展和调整 LLM剖析诊断 内核空间执行,更低的开销,降低对LLM训练的影响,更安全、更稳定的运行,避免对系统造成影响 低开销高安全 深入剖析和诊断整个模型训练过程,识别和解决训练过程中的性能瓶颈和资源争用问题,提高训练效率 实时性能监控 大模型LLM应用快速发展,但是缺乏统一的监控标准,从CUDA、开发语言 (Python)等维度进行细粒度跟踪 细粒度跟踪 深入剖析、诊断LLM的预训练过程,是提高大模型训练高效性和可靠性的有效手段。 关联场景数据,包括全栈指标、调用日志、指标数据等,将数据汇总给大模型进行分析和下钻,简化云网层故障异常排查的难度 统一云网数据格式,采用opentelemetry的标准定义,对不同数据源进行合并汇总,提供统一的云网分析智能体 Otel标准化 实时拓扑分析 智能分析 云网分析智能体 04 多个智能体的人机协同是一个趋势,对于单个领域的智能体,更深入的实现智能体的能力,并在上层协同系统下,协同其他智能体共同提供业务支撑,加快运维人员处理运维、运营任务的效率, 解决更复杂的实际业务