您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[弗若斯特沙利文]:中国推理算力市场追踪报告,2025年H1 - 发现报告

中国推理算力市场追踪报告,2025年H1

AI智能总结
查看更多
中国推理算力市场追踪报告,2025年H1

中国推理算力市场追踪报告,2025年H1 2025年8月 关键发现 算力需求重心从训练转向推理,算力基础设施持续扩展与升级AI算力消耗已从集中式训练转向大规模推理,带来前所未有的增量需求。2025年被认为是算力爆发的元年,推理算力的需求将迎来井喷式增长。推理算力的需求将在未来几年内远超训练算力。 2025年H1中国推理算力服务市场中,天翼云以【21.4%】的市场份额领先 中国日均Tokens消耗量从2024年初的1000亿增长到截至今年6月底,日均Token消耗量突破30万亿,1年半时间增长了300多倍,这反映了中国人工智能应用规模快速增长。天翼云息壤一体化智算服务平台率先完成国产算力与DeepSeek-R1/V3系列大模型的深度适配优化,成为国内首家实现DeepSeek模型全栈国产化推理服务落地的运营商级云平台。 未来推理算力长序列与超大模型推理优化成为关键,国产软硬件协同与生态成熟推动推理普及 03 中国算力正朝着“训推一体”融合架构快速发展,以支撑大规模模型与多模态应用的高效低延迟推理。国产AI芯片与推理框架不断优化,结合模型压缩、量化、动态推理等技术,进一步提升能效比和部署灵活性。 研究框架 中国推理算力市场综述 •关键发现 •中国推理算力定义及服务覆盖范围 •算力需求重心从训练转向推理 •中国推理算力市场规模分析 •中国推理算力竞争格局分析 •中国推理算力核心技术分析 •中国推理算力相关政策分析 •中国推理算力发展趋势分析 •中国推理算力未来挑战分析 中国推理算力:定义与服务覆盖范围 关键发现 推理算力主要负责AI模型的推理任务,主要用于处理和执行已经训练好的模型进行实际应用。这包括执行推理任务、处理实时数据和提供预测结果。推理过程通常对计算资源需要快速响应,对实时性要求较高。 随着AI从训练为重走向推理为主,私有化环境及边缘的部署需求都在迎来爆发。 推理是指利用训练好的大模型,使用新数据推理出各种结论。 推理芯片的目标是在已经训练好的模型上执行任务,推理芯片不需要进行复杂的学习过程,其设计重点是在保持高效计算的同时,尽可能减少功耗。 因此,推理芯片比较关注低延时、低功耗。可配置使用优化的推理硬件,高效能的服务器和网络设备如GPU、NPU或FPGA,这些硬件能够高效执行模型推理任务,以确保快速响应时间和稳定的服务。但不一定需要与训练时相同的硬件配置。 推理型智算中心的硬件更注重处理速度和可靠性。 算力需求重心从训练转向推理 关键发现 2025年年初,Deepseek-V3的低成本训练为推理芯片和推理算力市场注入了一剂强心针,市场不再追求简单的算力规模的扩展,而是开始关注AI在特定业务场景下的实际应用表现,各地算力中心的资源利用率呈现出显著提升的良好态势。 中国推理算力产业洞察——市场规模 在AI基础设施中,算力是推动创新与实现突破的核心驱动力。随着AI与云业务的不断发展,算力规模呈现稳定增长态势,截止2023年,通用算力与智能算力分别达到171与59EFLPOS,预计2027年通用与智能算力将分别达到330与240EFLPOS,整体增速达到39%。 2025年 被 认为 是 算 力爆发的元年,推理算力的需求将迎来井喷式增长。推理算力的需求将在未来几年内远超训练算力。 中 国 日 均Tokens消 耗 量从2024年 初 的1000亿 增长到截至今年6月底,日均Token消耗量突破30万亿 ,1年 半 时 间 增 长 了300多倍,这反映了中国人工智能应用规模快速增 长 。2025年 中 国 推理算力市场规模预计将达到438.3亿人民币。 中国推理算力产业洞察——市场份额 中国推理算力市场份额,2025H1 中国推理算力市场份额,2025H1 2025H1,在中国推理算力市场中,天翼云以市场份额21.4%位列第一 天翼云息壤一体化智算服务平台率先完成国产算力与DeepSeek-R1/V3系列大模型的深度适配优化,成为国内首家实现DeepSeek模型全栈国产化推理服务落地的运营商级云平台。此次突破标志着国产AI生态建设迈入新阶段,为行业提供了性能卓越、安全可控的智能算力基座。 作为首家完成DeepSeek大模型国产化适配的运营商,天翼云息壤一体化智算服务平台展现了三大核心优势。 全栈自主可控:从昇腾硬件、推理引擎到模型服务,实现技术链路100%国产化,保障企业数据安全与业务合规。灵活选型模型:支持DeepSeek-R1满血版(671B参数)至轻量化蒸馏模型的灵活部署,覆盖从复杂决策到高并发交互的全场景需求。异构算力融合:同步兼容多元算力,支持企业按需构建混合算力集群,释放资源潜力。 中国推理算力产业洞察——核心技术分析 关键发现 中国推理算力的发展核心聚焦于解决高实时性、低时延与高并发需求。其关键技术突破在于采用P/D分离架构,通过预填充(Prefill)与解码(Decoding)实例分工,并利用高性能RoCE网络实现KVCache同步,从而兼顾首Token低时延与后续Token生成效率。 中国推理算力核心技术分析 1)推理场景的特点与需求 2)海量用户推理的核心挑战 低成本保障用户体验(低时延)。低成本满足亿级日访问量。同时实现首Token低时延和后续Token持续低时延。推理终端与算力中心距离导致时延增加。 实时性要求高:智能客服、实时金融分析、智能驾驶、智慧医疗等场景需快速响应。时延敏感:首Token时延需<1秒,后续Token时延需<50毫秒。物理距离影响:推理终端与算力中心距离越远,时延越长。爆发性增长:AI应用推理需求持续增长,对算力基础设施提出更高要求。 3)关键技术:P/D分离架构(以KVCache为中心) 4)LACE推理指数体系 通过高性能RoCE网络实现预填充与解码实例间KVCache同步每个NPU配备不少于200Gbps的RoCE接口确保数据传输低延迟和高带宽 解码实例Decoding 中国推理算力产业洞察——政策梳理 关键发现 中国算力中心政策呈现体系化、高强度推进特征,核心导向是构建全国一体化算力网与促进绿色低碳发展。 《关于进一步强化“东数西算”工程算力枢纽协同发展的联合倡议》 2025年9月 倡议共建算力监测与调度体系,打破区域壁垒;统一技术标准与安全规范;深化区域协同与产业融合,并创新东西部利益共享与补偿机制。公布发展目标:计划到2025年建成30万个标准机架,数字经济核心产业规模突破千亿元。 《关于打造“算力之都”促进人工智能产业发展的若干政策(试行)》 《关于进一步明确算力奖励资金有关事宜的通知》 明确绿色算力奖励资金申报细则:对购买算力服务达到100万元以上的主体,按实际费用的30%给予最高200万元奖励。 《北京市算力基础设施建设实施方案(2024—2027年)》 公布具体扶持细则:对采购自主可控GPU芯片、进行绿色节能改造的企业按投资额给予比例支持,并提升“人工智能算力券”政策效能。 2024年12月 《国家数据基础设施建设指引》 推进算力资源科学布局,促进各类新增算力向国家枢纽节点集聚;推进算力与绿色电力融合。 《数据中心绿色低碳发展专项行动计划》 2024年7月 设定严格能效目标:到2025年底,新建及改扩建大型数据中心PUE降至1.25以内,国家枢纽节点PUE不得高于1.2;可再生能源利用率年均增长10%。 《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案(2024-2025年)》 2024年3月 提出到2025年,上海智能算力规模超过30EFlops(占比50%以上)。新建智算中心PUE值达到1.25以下;液冷机柜占比超过50%;绿电使用占比超20%。 《关于深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》 提出引导各类算力向国家枢纽节点集聚,节点外原则上不得新建大型及超大型数据中心。设定到2025年国家枢纽节点新建数据中心绿电占比超过80%的目标。 《数字中国建设整体布局规划》 提出系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局。 中国推理算力产业洞察——发展趋势 关键发现 中国智能算力正朝着“训推一体”融合架构快速发展,以支撑大规模模型与多模态应用的高效低延迟推理。 中国推理算力发展趋势分析 在当前国家高度重视人工智能发展的战略背景下,中国推理算力正迎来快速发展阶段。随着AI模型尤其是大模型和多模态模型的广泛应用,对高效、低延迟推理算力的需求持续攀升。从技术发展趋势来看,推理算力正呈现以下几个重要方向: 算力基础设施持续扩展与升级国家政策和市场需求共同推动算力中心规模不断扩大,尤其是智能算力中心正在从“训练为主”向“训推 一体”融合架构演进。这种架构不仅能支持大规模模型训练,还可高效完成模型推理任务,更好地适应多样化的业务场景需求。 长序列与超大模型推理优化成为关键 随着支持长序列(如32K甚至更长)的模型逐步进入商用,推理过程中对内存和计算资源的需求急剧上升。例如,处理超长文本或音视频输入时,KV Cache等缓存机制面临巨大压力。多级缓存技术(如HBM +DRAM +专业存储)通过“以存代算”策略显著减轻计算负担,提升推理效率,支持更长上下文理解和更复杂任务处理。 多机并行推理支撑超大模型与多模态应用 面对千亿级参数模型和百万级长度多模态输入带来的计算与内存挑战,多机并行推理成为必然选择。通过节点内NPU高速互联与节点间RoCE网络协同,实现计算资源的高效调度与通信优化,显著提升推理吞吐并降低延迟。 软硬件协同与生态成熟推动推理普及 国产AI芯片(如昇腾、寒武纪等)与推理框架(如MindSpore、PaddlePaddle)不断优化,结合模型压缩、量化、动态推理等技术,进一步提升能效比和部署灵活性。同时,开放算力生态建设和标准推进也加速了推理算力的普惠化应用。 国产算力正通过技术、生态与产业链的协同效应,为中国推理算力发展奠定坚实基础。 AI芯片实现多技术路线并行发展,训练与推理芯片性能快速提升。华为采取开放策略,公开芯片路线图并授权合作伙伴生产自有品牌服务器,吸引更多企业加入生态,共同提升国产解决方案竞争力。 以华为昇腾为代表的国产芯片迭代速度加快,通过“超级节点”集群架构,以多卡互联实现系统级算力突破,有效弥补单芯片性能差距。 从芯片制造(中芯国际、华虹半导体)、设备材料(中微公司、鼎龙股份),到整机、连接器、光模块、液冷等环节,已形成自主可控的算力基础设施体系,为推理算力发展提供全面保障。 中国推理算力产业洞察——挑战分析 关键发现 中国智能算力发展面临电力资源紧张、高功率机柜供给不足、县域技术适配难及数据安全与协同机制缺失等挑战。应对策略包括推动算力中心西迁、加快高密度绿色基础设施建设、推广“技术-场景”共享模式,并通过“技术+机制”双轮驱动加强数据安全与跨层级协同。 中国推理算力发展挑战分析 算力基础设施面临电力资源瓶颈 电力资源是支撑算力中心行业实现高质量、可持续发展的关键因素。然而,随着算力中心行业的快速发展,在一线及新一线的部分地区已面临能耗指标紧张的态势,进而将导致这些地区算力中心供给资源出现稀缺性。 算力中心耗能持续增长 2022年我国算力中心用电情况:•耗电量:2,700亿kWh。。•能耗占全国总用电量:~3%到2030年,预计算力中心行业用电量将超过4,000亿+kWh电费支出占到算力中心运维成本的七成。 解决路径: 充分利用西部地区电价优势,部分地区算力中心用电成本经政策补贴后降低至0.3元/kWh以下,这成为算力中心服务商"西迁"的原生动力。同时,推动绿色算力中心建设,通过技术创新提升能源利用效率。 高功