AI智能总结
2前言云计算经历了资源云化(2006年)、云原生化(2013年)、算力泛在化(2020年)等阶段,随着人工智能与算力网络深度融合,已迈入智能化的新阶段,向全栈智能、开放融合的云智算升级。中国移动通过打造云智算技术体系,升级AI IaaS、AI PaaS、MaaS、AISaaS四层架构,推动算网大脑向算网智脑跃迁,构建全链路可控用智安全,筑牢“供给者、汇聚者、运营者”定位。作为“供给者”,融合中国移动算力、数据、算法优势,提供全方位能力支持;作为“汇聚者”,打造AI生态平台,广泛汇聚多类型模型、多领域能力、多场景智能体;作为“运营者”,以算网大脑为核心提供高效运营服务,深化AI赋能。在此基础上,全面激活智能算力与应用普本白皮书详细阐述了云智算的发展背景、内涵,深入介绍云智算的关键技术方向,为云智算的发展奠定基础。云智算的发展成熟需要产学研用各方凝心聚力,实现从基础设施到运营服务的全面升级,中国移动希望同业界合作伙伴一道,共同推动云智算技术、产业、应用和生态成熟,助力千行百业注智赋能。 惠新势能。 3目录云智算技术白皮书...............................................1前言...........................................................21.从云计算到云智算.............................................61.1云计算发展现状及面临挑战...........................61.2云智算的内涵.......................................61.3云智算体系架构.....................................62.云智算关键技术方向...........................................72.1计算技术............................................72.1.1算力芯片......................................72.1.2智算超节点....................................72.1.3算力原生......................................82.2存储技术...........................................82.2.1智算文件存储..................................92.2.2训推多级缓存..................................92.3网络技术..........................................102.3.1卡间互联.....................................102.3.2机间互联.....................................112.4算网一体技术......................................122.4.1算力路由....................................122.4.2在网计算....................................122.5AI开发平台技术....................................132.5.1数据处理.....................................132.5.2训练框架.....................................142.5.2.1训练并行优化..........................142.5.2.2低精度训练............................142.5.2.3故障容错..............................152.5.2.4异构混训..............................152.5.3推理框架.....................................162.5.3.1推理并行效能优化......................16 42.5.3.2推理网关优化..........................162.5.3.3融合算子监控..........................172.5.4智能体生成..................................172.5.4.1检索增强生成..........................172.5.4.2自主规划..............................182.5.5AI开发工具..................................182.5.5.1向量数据库............................182.5.5.2多模数据库............................192.5.5.3低代码模型开发........................192.6模型服务..........................................192.6.1模型汇聚....................................202.6.2模型智能体融合..............................202.7算网大脑..........................................202.7.1资源编排调度................................202.7.2任务式编排调度..............................212.7.3智能体编排调度..............................222.8安全可信..........................................222.8.1计算环境可信................................232.8.2数据安全可用................................232.8.3智算服务可靠................................242.9绿色节能..........................................242.9.1能效管理和提升...............................242.9.2数据中心热管理...............................252.9.3算电协同和余热回收...........................252.10未来技术展望.....................................263.总结倡议....................................................29附录..........................................................30 5缩略语英文全称InfrastructureasaServicePlatformasaServiceModelasaServiceSoftwareasaServiceArtificialIntelligenceDataProcessingUnitComputeOnChipArchitectureOperationSystemRemoteDirectMemoryAccessRDMAoverConvergedEthernetSingleInstructionMultipleThreadsRound-TripTimeComputeExpressLinkSoftwareDevelopmentKitOmni-directionalIntelligentSensingExpressArchitectureGlobalSchedulingEthernetPacketContainerDynamicGlobalSchedulingQueueOpticalCircuitSwitchArtificialIntelligenceGeneratedContentModelFLOPsUtilizationReciprocalRankFusionRetrieval-AugmentedGenerationMonteCarloTreeSearchLargeLanguageModelModelContextProtocolServiceLevelAgreementAgentNetworkProtocolCommonVulnerabilities&ExposuresTrustedPlatformModuleTrustedCryptographyModuleCoolantDistributionUnitCompatibleFluidConnectorComputingAwareTrafficSteeringNetwork-AssistedComputingAccelerationModelDistributionNetwork 1.从云计算到云智算1.1云计算发展现状及面临挑战云计算经过二十年的发展已成为数字经济的主要服务形态,凭借虚拟化、云原生等技术实现了资源池化和弹性扩展能力,有效支撑了各行各业数字化转型。随着千亿参数大模型等AI技术的迅猛发展,传统云服务体系面临严峻挑战,云计算进入深水区:在算力方面,十万卡级超大规模GPU集群的异构算力需求已远超现有资源池化的调度能力;在网络层面,AI训练中TB级参数同步对时延极为敏感,传统网络架构难以满足低时延、高吞吐的传输要求;在服务形态上,单一的IaaS/PaaS服务无法全面覆盖数据处理、模型训练、推理部署等AI开发全链路的需求,迫切需要构建适应智能时代的云计算新范式。1.2云智算的内涵云智算是通过算网基础设施与人工智能核心技术深度融合,提供一体化算网资源、全栈式开发环境、一站式模型服务、多样化场景应用的新型云服务模式。云智算作为云计算的新升级,是以AI为核心驱动力的下一代云计算范式,是未来算网智一体化算力网络的核心载体。1.3云智算体系架构云计算向云和AI深度融合的云智算升级,体系架构从IaaS、PaaS、SaaS三层拓展为AIIaaS、AIPaaS、MaaS、AISaaS四层。一是AIIaaS,即算网一体化供给的基础设施服务,通过泛在网络推动东中西、云边端、通智超量、训练推理等多类型算力“联算成网”,依托算网统一编排的算网大脑,实现算力的灵活调度、即取即用。二是AI PaaS,即面向各类AI开发者的工具平台服务,提供覆盖AI研发、运营、测试等全环节的工具链和开发环境,显著提升全社会AI创新效率。三是MaaS,即加速AI一站式落地的模型服务,汇聚模型、能力、智能体等资源,推动AI在各行业的普及渗透。四是AI SaaS,即覆盖多样化场景的AI应用服务,赋能生产方式、生活方式、社会治理方式的数智化转型,充分释放AI价值潜能。为此,中国移动针对云智算体系架构形成了计算、存储、网络、算网一体、AI开发平台、模型服务、算网大脑等十大关键技术方向。 6 2.云智算关键技术方向2.1计算技术随着模型参数量与复杂度指数级增长,当前智算集群在算力密度、通信效率、能效比方面面临严峻挑战。中国移动充分发挥央企科技创新示范引领作用,聚焦“卡脖子”方向,攻关国产高算力芯片、智算超节点、算力原生等关键技术,突破万亿模型训练与推理性能瓶颈,打造低成本、高能效、自主可控的算力底座,引领云智算基础设施从规模扩张走向效能跃升的