行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

基于大模型驱动的云网全景可观测系统建设实践

信息技术2024-09-20高坤国泰君安证券M***

AI智能总结

国泰君安云网全景可观测系统建设实践

建设背景与现状

国泰君安金融云发展历程涵盖CMP1.0至CMP2.0平台，实现IAAS资源自服务和异构资源统一纳管，构建四朵云（开发测试、生产、集团协作、开放生态）的云总体布局。随着核心业务系统迁移上云，云上业务稳定性成为关键，但现有监控手段存在以下问题：

缺少云资源池应用服务可视化能力
现有监控手段无法满足复杂环境中的业务运维排障
缺乏零侵扰的全链路分布式追踪
缺乏历史故障问题回溯分析能力
无法动态获知业务访问调用关系

解决思路与技术架构

国泰君安采用云原生技术体系，覆盖虚拟化、云原生、云中间件、云数据库等环境，建设云网全景可观测系统，核心技术包括：

云原生架构：IaaS底座、分布式交易数据库、云原生容器、基础设施融合分析、大数据平台、微服务框架、中间件等
eBPF技术：实现无侵入式网络流量采集与监控
大模型驱动：利用LLM进行数据处理、分析和智能故障诊断

系统功能与优势

云网分析：
- 覆盖多中心多资源池的全局视图
- 端到端路径追踪与性能分析
- 资源精细化管理与自动化回收
- 云网指标体系标准化与排查流程优化
智能体与AI应用：
- 云网分析智能体：整合多源数据，简化故障排查
- AI云助手：基于LLM提供运维流程指引与智能客服
- 多智能体协同：实现人机协同，提升运维效率
技术特点：
- 多维数据融合与实时性能监控
- 低开销高安全的LLM应用剖析
- 全栈主动检测与业务监控联动

未来规划

加速云原生基础设施建设，实现云边协同与资源敏捷交付
推进应用为中心的架构演进，提升应用敏捷开发能力
实现两地多中心全栈云原生服务能力全覆盖，完成存量系统迁移

核心结论

国泰君安通过大模型驱动的云网全景可观测系统，实现云原生环境下的全链路数据监控与智能故障分析，显著提升系统稳定性与运营效率，为金融云业务提供全面、易用、自主可控的云原生服务。

基系于统大建模设型实驱践动的云网全景可观测高坤国泰君安证券股份有限公司 IOE技术体系(集中式架构) 集中式平台业务系统 <应用逻辑>(java/C++) 快速软、硬故障定界定位（一般问题闭环<30min）中间件 KXCP/KCBP/REDIS/Ngnix 业务系统平滑迁移、应用多活、高性能、超大规模业务应用重构业务系统云原生化云化技术体系(云原生、分布式架构) 云化、分布式架构证券新核心业务分布式云原生架构中间件(消息、事务、缓存、调用链等)微服务框架云原生容器云原生技术体系 3类云化，6大技术点基础设施全面云化 IaaS云底座融合分析大数据平台分布式交易数据库传统数据库分布化分布式交易数据库融合分析大数据平台 SQLserver/Oracle 强一致性（交易+批量计算） OS、x86硬件平台分钟级备切换，最低99.99%可靠性传统数据库分布化基础设施全面云化 IaaS云底座 DC1DC2DCn 业务系统云原生化云原生容器基础设施微服务框架中间件（消息、事务、缓存、调用链等）云总体布局生产云开发测试云集团协作云开放生态云建设开发测试云、生产云、集团协作云、开放生态云四朵云努力打造全行业领先的自主开发、自主掌控的国泰君安金融全栈云承载各类业务系统生产、同城及异地灾备环境承载各类业务系统开发测试环境承载资产管理、期货、创投等各子公司的业务系统承载量化私募、PB等外部客户的业务系统金融云发展时间轴 2013年2014年2015年2017年2019年2020年基于CloudStack上线开发测试云，实现计算和分布式存储统一管控完成国家云平台课题验收，发布CMP1.0，实现IAAS资源自服务基于Openstack上线开发测试云2.0，发布CMP2.0，实现对异构资源的统一纳管上线生产云、开发测试容器云平台上线开发测试信创云，并发布基础资源服务平台1.0 上线生产信创云，托管云，发布基础资源服务平台2.0，实现一云多芯管理规划路线 2023年加速云原生基础设施建设加速云原生建设，完成“一云多芯”信创、非信创多元算力，资源统一管理，实现云边协同，资源敏捷交付 2024年云原生应用敏捷开发夯实数字基础设施升级，扩大云资源规模，推进高效敏捷开发向以应用为中心的架构演进，实现应用敏捷开发，提升应用迭代速度 2025年全栈能力全覆盖实现两地多中心全栈云原生服务能力全覆盖，完成存量系统整体迁移到全栈云。聚焦云原生底座资源部署，加速云原生体系与平台建设，完善和提升云原生服务能力，以科技服务云平台为载体，面向集团提供全面、易用、自主可控的云原生服务，提升资源交付质效，高效支撑业务敏捷创新。智慧中台作为云平台核心的组件，该应用集权限管理、配额管理、计费和事务管理于一体，通过权限校验与配额分配，确保云资源的合理分配，实现了整个云平台内部统一、协调运转。一云多芯、多云部署结合公司基础架构特点，为每个云服务设立独立的业务资源模型，通过该抽象模型，能够实现多区域、异构资源池的统一纳管，从而满足鲲鹏、飞腾、海光等国产信创芯片的云资源，实现了“一云多芯”的统一管理。正是借助此架构的优越性，使用户在无感知的情况下自助申请、创建云资源。自研云应用，提升云服务质量云平台通过标准的接入规范和部署规划，最大程度的减少其他云应用开发周期和难度，能够实现快速SaaS应用的上线交付。依托于此，国泰君安云计算团队，自研开发了云监控系统、云网流量分析、弹性文件系统、对象文件系统、文档中心、镜像站等云应用，为用户提供了更加便捷的云资源交付与服务。缺少云资源池上的应用服务可视化能力核心设备南北向的流量镜像采集点无法覆盖资源池内流量采集，缺乏资源池内应用服务流量数据包的全量采集手段，使得业务运行处在黑盒状态，缺少资源池内的应用服务可视化能力 01 缺乏历史故障问题回溯分析能力关键业务系统访问出现某一时刻或单次请求故障时，因无法记录单次请求或瞬时的网络及应用请求状态及性能指标，所以不能对故障问题提供责任举证，使得业务网络依旧带病运行，存在隐患 04 随着越来越多的核心业务系统迁移上云，云上业务的稳定直接影响着用户体验与服务质量，从应用服务可视化、应用调用追踪、故障诊断、业务保障、安全、审计、运营分析、调度等维度，针对云资源池业务分析及消费的需求越发突出。现有监控手段不能满足复杂环境中的业务运维排障要求资源池内业务动态性高，覆盖范围广，业务覆盖的资源范围可能实时动态伸缩，目前监控手段无法动态获知复杂的业务访问调用关系，无法自动呈现业务的端到端全链路流量拓扑图 02 缺乏零侵扰的全链路分布式追踪针对关键业务嵌入SDK或者插码打桩的方式，对业务开发语言、框架有着严格的要求，需要消耗大量时间维护嵌入式SDK代码，对于边缘组件疲于应对，使得精准的业务保障成为难题。 03 在复杂的云基础设施及云原生环境下保障应用系统可靠稳定运行、减少故障修复时间，实现全链路数据监控、性能分析及故障快速定位，提升系统稳定性与运营效率解决云网络的“黑盒在一云多芯环境建立云网络内的流量全景视图和运维、运营、安全管理机制，具备网络性能分析、网络回溯、资源回收、统计报表、网络全景拓扑全链路分析能力降低可观测运维复杂度在云原生环境中建设面向云内所有系统的高度自动化的可观测性平台，为云内应用提供量身打造的全栈、全链路、高性能数据完善公司金融云的管理为云上应用提供更优质的服务，提供面向业务系统在云内的自助分析能力，保障业务稳定运行，加速故障分析效率，快速定界，提升系统稳定性和运营效率覆盖虚拟化、云原生、云中间件、云数据库等云内应用，实现对云网络的可观测能力覆盖；结合CMDB等多源数据，实现对海量数据深入挖掘和分析；依托AI中心和多平台联动，提供不同运维场景的数据服务；覆盖数据中心云基础资源层虚拟化环境各资源类型宿主机、虚拟机环境云原生环境容器环境，包括信创、非信创环境按功能区部署数据分析层云原生数据分析节点云网观测系统观测应用观测 ...... 云网络数据服务分析监控数据运维场景云网络故障诊断云网络历史回溯云网络流量拓扑云原生应用云原生中间件、云原生数据库等云内应用虚流拟量化数数据据云流原量生数数据据 eBPF数据云环境数据云网络调用链跟踪 ...... ...... 从流量引取、流量采集、数据存储等多个细分环节，实现由用户自主掌控的能力，并可以对云网内不同类型的流量进行精细化的采集和管理精细化数据采集和控制针对企业内部的个性化需求，如一体化监控等，可以实现灵活的对接，按需将流量分发给不同的数据需求部门以及对应的分析工具，实现云网的统一监控可作为云网环境大数据平台，经过全网流量的采集，通过标准数据API，企业可以自行对底层数据进行查询、业务逻辑处理、封装，自主开发数据应用数据PAAS平台组件灵活扩展满足云数据中心流量规模日益增长的需求，分析器、采以租户、业务为核心与公司一云多芯的异构云平台可以进行对接联动，调用不同异构云平台的数据接口，自动感知各环境内租户内的业务，实现以租户为核心的网络流量分析。运维排障分析统一对外接口针对精细化采集的数据流量，支持用户对其可以进行离线数据的回溯，对常见网络流量和应用特征类型进行提取，并可以进行直观的展示，完成从物理网络到虚拟网络的端到端全栈调用链追踪和诊断数据可量化可以多维度、数据化、可视化展现网络中的不同指标，实现了对异常网络事件的量化功能；同时，结合历史数据，分析不同层次的运行情况集器软件可灵活横向扩展，支撑云网全景流量数据服务系统稳定运行云资源自动学习和无侵入采集 •实现多云资源池流量无侵入、零干扰地全量采集 •针对不同的云资源，自动标记端到端数据标签下钻业务指标分析多中心云资源池全局视图 •基于云网的流量采集数据，自动生成多中心多资源池的可视化拓扑 •针对某个业务，进行数据下钻，分析业务的调用拓扑关系，并根据业务网络情况，进行具体的性能分析客户端客户端宿主机服务端宿主机服务端端到端路径追踪详情 •基于端到端的数据链路情况，结合采集的性能指标，分析链路每一个路径的网络性能情况节点资源维度工作负载资源维度 POD资源维度 userid:529794,docid:173903,date:2024-09-15,sgpjbg.com 云网分析标准化容量指标系统流量吞吐、数据传输包数、资源精细化管理结合资源的使用情况，可用性指标 TCP重传、HTTP异常、DNS异常 01健全云网指标体系活跃连接数时延指标建连时延、系统时延、应用时延建立开发测试环境资源回收的机制，采用留指标数据，判断云主机的使用情况，并结合云网流量分析服务和云备份服务，实现资源回收的流程 02标准化排查流程 通过建立不同问题的排障树，标准化分析和排查流程，加速问题排查过程 建立云网的自动化巡检流程，系统性识别网络中潜在风险，从而对环境进行优化配置，减少故障风险回收周期内流量数据较小的列表云监控服务提供了一套基于租户的网络流量可视化方案云上应用关联性分析支持对系统内某个业务组件的指标查看支持对性能指标的关联性分析。通过关联基础资源的指标，加速问题排查效率基于云门户的云监控分析服务可以快速了解业务系统的网络状况，通过定制化的视图，结合RED指标，发现访问管理中需要加强关注的部分，降低问题定界的时间通过对网络流量的细致分析，可视化监控有助于优化网络结构和配置，提升网络性能，保证云服务的高效稳定运行建设背景eBPF技术后续应用接入规划 1无法确定特定服务的上下游依赖服务流量是否正常 2无法回答应用的DNS请求解析是否正常； 3无法回答应用之间的连通性是否正确； 4业务应用具备微服务众多、多语言开发、多通信协议特点，观测工具繁多已完成制定应用故障排查手册,为解决应用故障提供参考和指导。 1.针对生产集群现有应用，积极推广链路排查方案，协助业务系统进行改造。 2.针对测试环境，加快测试环境eBPF系统建设，未来将完善应用上线准则。急需一种立足于容器底座，关联应用性能观测，打通端到端可观测性的解决方案。建设情况黄金指标可视化展示，直观表达系统是否正常对外服务。全局视角的应用拓补，实现系统架构感知、服务依赖分析等能力。支持多种协议Trace方便根因定位。开箱即用的告警功能，支持用户多种配置方式。丰富的上下文关联元信息。 eBPF可实现无侵入式订阅网络流量等各种内核事件告警应用本身下游上游 1.积极采纳业务系统使用过程中的修改建议，提高系统易用性。 2.加快云监控工具的统一入口建设，从而简化监控流程，提高管理效率。使用计算能力去复制方法和知识，更高效的完成对可观测数据的处理、加工、分析。现状专家经验问题排查依赖经验的积累，无法快速复制，对初级工程师仍需长时间学习专业知识广全栈可观测性涉及到从应用调用到底层基础设施的各个环节，包括应用性能指标、分布式追踪、网络性能指标、资源变更事件、函数性能剖析等。这些数据量庞大且复杂，需要综合多个维度进行分析和关联题排查依赖经验的积累解决思路基于大模型的数据处理与分析利用先进的大模型技术，对云网环境中的海量数据进行高效的处理和分析。通过引入数据特征提取等预处理机制，提升数据处理的效率，从而实现更加实时的可观测性多源异构数据的整合与融合高效的数据整合与融合框架，能够关联来自不同来源的观测数据，使得智能体可以基于大模型进行统一的分析。通过异构数据的关联算法，提升数据的分析价值零侵扰的大模型应用持续剖析能力利用eBPF等新兴技术，在不修改大模型应用代码、不重启大模型应用进程的情况下，实现零侵扰的大模型训练和推理过程的持续剖析能力可扩展的系统架构设计适应云网环境的不断变化。通过引入微服务架构和容器化技术，提升系统的可

点击免费查看完整报告