您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中国联通研究院]:算力网络人工智能模型推理算力度量研究报告 - 发现报告

算力网络人工智能模型推理算力度量研究报告

报告封面

研究报告 中国联通研究院中讯邮电咨询设计院联通数字科技有限公司2025年8月 版权声明 本报告版权属于中国联合网络通信有限公司研究院,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中国联通研究院”。违反上述声明者,本院将追究其相关法律责任。 目录 一、研究背景与意义..............................................................................................................2(一)算力网络概念与架构................................................................................................2(二)人工智能模型推理的算力需求加速........................................................................3(三)算力网络为人工智能模型推理提供算力................................................................5二、算力网络人工智能模型推理算力度量..........................................................................7(一)算力度量相关研究进展............................................................................................7(二)算力网络人工智能模型推理算力度量概念............................................................8三、模型推理算力度量方法................................................................................................10(一)算力度量模型..........................................................................................................10(二)算力消耗量度量方法..............................................................................................11(三)算力使用量度量方法..............................................................................................12四、模型推理算力度量指标................................................................................................13(一)模型推理算力度量指标体系..................................................................................13(二)算力消耗量度量指标..............................................................................................13(三)算力使用量度量指标..............................................................................................15五、模型推理算力度量关键技术........................................................................................16(一)模型剖析技术..........................................................................................................16(二)模型推理并行技术..................................................................................................17(三)基本操作数测量技术..............................................................................................18六、模型推理算力度量案例................................................................................................20(一)模型推理算力消耗量度量案例..............................................................................20(二)模型推理算力使用量度量案例..............................................................................22(三)联通云计量计费案例..............................................................................................22七、总结..................................................................................................................................25参考文献..................................................................................................................................26 前言 随着人工智能技术的迅猛发展,模型推理已成为算力需求的核心驱动力。从AI搜索、智能体的兴起到多模态内容生成的广泛应用,模型推理的算力需求呈现出前所未有的加速态势。在此背景下,算力网络作为计算与网络深度融合的新型基础设施,为人工智能模型推理提供了灵活、高效的算力支持。然而,如何精准度量模型推理所需的算力资源,并实现算力的高效调度与优化,是当前行业面临的重要挑战。 本报告深入研究了算力网络人工智能模型推理算力度量的理论框架、方法体系及关键技术,并结合典型应用案例验证其有效性。本报告旨在提出一套科学、系统且可落地的算力度量方案,推动人工智能的规模化、普及化应用。 编写组成员(排名不分先后): 中国联通研究院:曹畅、张岩、刘永生、王施霁、曹云飞、崔煜喆 中讯邮电咨询设计院:刘扬、尼松涛、张奎、裴培、何万县、段谊海、马威、申佳、周旭晖、王迪 联通数字科技有限公司:温源、姜辉、刘点、刘文涛、宋占军 一、研究背景与意义 (一)算力网络概念与架构 算力网络是指在计算能力不断泛在化发展的基础上,通过网络手段将计算、存储等基础资源在云-边-端之间进行有效调配的方式,以此提升业务服务质量和用户的服务体验。 中国联通在探索计算与网络融合思路的基础上,结合业界先进经验,制定了算力网络体系架构,如图1所示。在该算力网络架构图中,主要包含服务提供层、服务编排层、网络控制层、算力管理层和算力资源层/网络转发层等若干功能模块,其中服务提供层主要实现面向用户的服务能力开放;服务编排层负责对虚机、容器等服务资源的纳管、调度、配给和全生命周期管理;网络控制层主要通过网络控制平面实现算网多维度资源在网络中的关联、寻址、调配、优化与确定性服务;算力管理层解决异构算力资源的建模、纳管与交易等问题;算力资源层和网络转发层扁平化融合,并需要结合网络中计算处理能力与网络转发能力的实际情况和应用效能,实现各类计算、存储资源的高质量传递和流动。 算力网络中的计算资源类型包括通用CPU、专用AI芯片(如GPU、FPGA、ASIC等)、以及各类加速卡等。不同类型的计算资源在处理AI模型推理任务时,性能表现各异,如GPU擅长并行计算,适合大规模矩阵运算为主的深度学习模型推理;而FPGA在特定定制化推理任务中具有低功耗、高能效优势。 算力网络被明确定义为提供“整体算力服务”,并强调“按需分配和灵活调度计算资源、存储资源以及网络资源”。这种转变意味着网络的核心价值正从单纯的数据传输演进为集成化的计算能力交付。这不仅是网络技术的升级,更是数字经济中价值创造的新范式,它将网络从被动的传输介质提升为主动的资源编排者,对未来的网络架构、服务模型和商业模式都将产生深远影响。 (二)人工智能模型推理的算力需求加速 2025年被认为是"推理之年",AI模型推理已成为算力需求增长的主要驱动力。根据行业分析,推理算力需求规模"轻松超过去年估 计的100倍"。 1)搜索AI化转型,如谷歌搜索在今年5月21日正式迎来AI模式,并逐步在美国市场推出,考虑到谷歌搜索全球范围内年搜索量为5万亿次+,假设单次回答平均为2000token,则该功能都将带来日均27万亿token消耗,类似案例如抖音搜索、微博AI智搜,搜索功能开始从普通服务器迁移到AI服务器并重塑所有搜索体验; 2)智能体爆发,智能体和深度思考推理的结合,通过两者结合,智能体执行任务准确率大幅提高,智能体执行一次任务平均消耗token达到十万亿的量级,大幅超过AI搜索单次问答token消耗,并且能延伸到更多开放式场景,同时多智能体协作的群体智能也已开始逐步商用化,过去复杂、多步骤的任务可通过智能体实现,智能体的普及将带来推理算力需求的大幅增长; 3)多模态内容生成,随着多模态生成的图片及视频质量今年均显著提升,今年AI营销内容占比提升十分明显,根据《2025中国广告主营销趋势调查报告》显示“超过50%的广告主,已经在生成创意内容时使用AIGC,并且AI营销内容占比超过10%”,而一分钟视频的生成token消耗基本在10万亿token量级,目前多模态模型开始步入快速商业化阶段,如快手可灵四五月连续两月付费金额超过1亿,多模态的加速渗透带来明显的算力需求提升。 4)大模型推理普及,如OpenAIo1、DeepSeekR1等推理模型的广泛应用,国内豆包的token消耗数量从2024年的1200亿增长到 2025年的16万亿,增长大约160倍。 (三)算力网络为人工智能模型推理提供算力 算力网络通过整合和优化网络中的各种算力资源,能够为人工智能模型推理提供强大的算力支持。在算力网络中,人工智能模型推理可以根据任务的特点和需求,灵活地分配到不同的计算节点上。例如,对于大规模的任务,可以利用云计算中心的强大算力进行集中处理;而对于实时性要求较高的推理任务,如智能语音助手、智能驾驶中的实时决策等,可以将推理任务卸载到离用户更近的边缘计算节点上,以降低时延,提高响应速度。 算力网络的广泛覆盖和便捷接入,使得人工智能模型能够更快速地应用到各个领域,如医疗、金融、教育、制造业等,为这些领域的数字化转型和智能化升级提供有力支撑。例如,在医疗领域,算力网络可以支持医学影像分析、疾