AI智能总结
AI Without Borders: The Global Cloud Network Architecture Evolution Path of Kimi's Trillion-Parameter LLM Kimi全球训推网络用云实践分享 裴丰硕 月之暗面高级工程师 01Kimi业务发展历程 CONTENT目录 Kimi's Business Development History 02AI Infra之网络AI Infra: Networking 03Kimi网络实践Kimi Networking Practices 04未来演进思考Future Evolution and Thinking KIMI业务发展历程 2025 2023 KimiK2:全球领先的开源基础模型 截止7月17号,在斯坦福大学和LMSYS团队组织的大模型公开竞技平台LMArena上,KimiK2位列开源模型的第一位,总体排名第五(前四均为闭源模型)。 Kimi K2取得开源模型中的SOTA成绩,展现出在代码、Agent等任务上的领先能力。第一个agent原生的通用模型。 Kimi「深度研究」:模型即Agent AI业务系统中网络特点 多业务混跑 数据集:TB->PB数据流动:高频、大规模 业务类型多:训练、推理、在线服务;数量流向复杂; CPU通算->GPU智算万卡、10万卡规模 为什么需要注重网络的设计? 网络是连接数据和算力的核心底座,一张好的网络,可以帮助我们更好的提升模型训练的效率 数据传输(公路质量高,车道多)高带宽、低时延的传输数据 流量调度(交通指挥系统)有规则、有优先级、有序 算力整合(四通八达的路网系统)易构、异地算力整合 关键衡量指标:规模、稳定性、即时弹性、路由策略丰富度、流量可视 网络用途分析 AI系统概览 大模型应用 大模型推理 大模型训练 数据准备阶段 公开数据集、互联网内容、三方合作数据获取上传 AI任务调度、训练推理框架、监控系统 依赖EIP、NAT、OSS、专线、PrivateLink 预训练阶段 GPU节点内NVLink互联,节点间RDMA通信,Checkpoint存储搬运 GPU算力、通信、高性能存储 模型部署阶段 镜像传输,模型传输,推理集群分布式推理,模型应用请求推理服务 公有云基础设施 Kimi模型训推视角看网络架构设计 推理场景 训练场景 •基础大模型训练需要的数据是海量的•数据集整合-预处理-训练-强化学习等流量需要在多个算力集群或者地域之间流转 •PD分离推理架构,KV cache在不同节点池之间同步•TTFT和TBT,用户推理请求可以在服务入口与推理模型之间快速流动 •算力集群共享•网络底座共享 规模优先 E2E差分服务 时延优先 质量足够高时延足够低具备RDMA能力 带宽足够大弹性足够高成本足够低 具备端到端QoS能力具备高级路由过滤和隔离能力 SRE视角下的网络规划指南 自建和用云的权衡 Kimi跨地域训推网络建设 多产品融合,完成多语料数据集整合 1.多入口整合数据集:使用BGP、单线、IPv4和IPv6等多种线路类型的EIP,搭配共享带宽,构建高性价比的公网交互出入口;2.高性价比的数据私享通道:引入PrivateLink,构建了云上合作伙伴之间的数据私享通道,保证数据安全的同时,降本成本开支; 算力和数据一张网,支撑训推业务有序混跑 1.算网搭建:基于云企业网CEN、转发路由器TR、高速通道专线搭建异构算力、异地算力、混合云算力一张网,数据按需传输,算力池化调度;2.流量调度:端到端QoS、TR路由策略,保证多业务有序调度和优先级保障;3.链路质量选择:ü训练业务,数据量大,SLA要求较低,选择低成本的铜牌链路;ü推理业务,数据量小,SLA要求高,选择低时延的金牌链路; 资源部署和提效 1.使用CADT(Cloud Application Deployment Tool),完成自动化部署;2.非常适合LLM类型的业务,资源多、规模大、变配频率高,可充分提效; Kimi跨地域训推网络管理 多维度拓扑自动生成:局域网、广域网、Loadbalance拓扑资源拓扑和流量拓扑协同展示 多维流量分析展示:公网、跨地域、跨VPC、混合云指标层层深入:一元组->二元组->五元组TOP流量自动分析展示 全局网络健康度实时评估多维度自动分析:资源、流量、拓扑、性能、quota全局网络巡检:风险告警、优化指导 Kimi跨地域训推网络调优 Kimi主站入口弹性和容灾网络架构设计 kimi主站入口,高弹性设计 1.流量入口: ①主站采用混合云多集群容灾机制;②容器化部署,提升弹性突发能力;③多集群采用阿里云ACKOne平台统一纳管;④应用负载均衡ALB作为核心流量入口,采用多集群网关形式,分别作为多个容器集群的Ingress入口,按比例进行流量分发; 2.公网入口: ①使用共享带宽包,月95计费方式,保证突发弹性;②所有公网ALB的EIP均接入共享带宽包,共享一份公网带宽; 从大模型推理框架的发展趋势看网络架构变化 Mooncake:推理的PD分离架构 网络架构如何更优雅的服务PD分离架构 机头和机尾网络配合,流量隔离 2024年,最早在生产环境大规模使用PD分离架构推理方案,已承载kimi全部流量 业务出海趋势下,网络架构应如何演进 场景1:AI应用入口调度合作共创 场景2:AI模型代理入口合作共创 场景3:AI应用访问加速/tools调用加速 根基AI业务场景的特点超长session会话保持和超长空闲超时时间推理流量分发、身份鉴权、请求body解析、Token限流等 AI应用对外提供服务,探索全球网络加速;AI-Agent调用tools和resources,探索全球网络加速; 在模型入口侧扮演AILLMsproxy角色支持AI模型代理、流量调度API-KEY管理、AI流量观测、Failover重试 谢谢 Thanks