
2026年03月04日13:27 关键词 大模型token open router国产模型性价比编程角色扮演用户画像API推理成本毛利率吞吐量显存带宽并发数能源成本硬件折旧数据中心中美数据安全显存 全文摘要 讨论集中于中美大模型推理成本测算,特别指出中国模型在开放路由平台调用量增长及海外市场的竞争力增强。中国大模型展现出的性价比优势,尤其在个人开发者、中小创业公司中的应用,以及其在编程、代理等场景下的出色性能,得到了强调。通过详细的成本收入框架分析,揭示了中国大模型推理成本低于美国模型,这主要归因于架构创新和算法优化,而非单纯的价格优势。 Token出海:如何计算中美大模型推理成本的“经济账”?-20260301_导读 2026年03月04日13:27 关键词 大模型token open router国产模型性价比编程角色扮演用户画像API推理成本毛利率吞吐量显存带宽并发数能源成本硬件折旧数据中心中美数据安全显存 全文摘要 讨论集中于中美大模型推理成本测算,特别指出中国模型在开放路由平台调用量增长及海外市场的竞争力增强。中国大模型展现出的性价比优势,尤其在个人开发者、中小创业公司中的应用,以及其在编程、代理等场景下的出色性能,得到了强调。通过详细的成本收入框架分析,揭示了中国大模型推理成本低于美国模型,这主要归因于架构创新和算法优化,而非单纯的价格优势。此外,讨论涉及中国大模型在海外市场份额的扩大,对国产算力需求的推动,以及对电力需求的潜在影响,凸显了中国大模型技术的先进性和市场潜力,及其对国内外市场格局的重要影响。 章节速览 00:00中美大模型推理成本与海外调用量分析 对话讨论了中美大模型在海外平台OpenRouter上的调用量增长,指出中国模型因性价比高在个人开发者和中小企业中受欢迎,但受数据安全、法规及中美限制影响,大中型企业尤其是美国企业的渗透率极低。 03:24国产模型性价比与性能优势推动市场上涨 2022年后,国产模型因极致性价比和足够好的性能开始崛起,尤其是在coding和agent场景下表现优异。与国际领先模型相比,国产模型在价格上具有显著优势,仅为后者的十分之一,但性能已达到可用阈值。针对编程和agents的专门训练进一步提升了国产模型在特定场景下的竞争力,吸引了大量开发者和角色扮演用户,从而推动了市场的显著增长。 06:41用户画像分析与编程需求增长趋势 用户规模从12月的420万增长至2月底的510万,编程相关请求占比显著提升,个人开发者、独立创业者及AI初创企业为主要用户类型,北美用户占比最高,角色扮演使用量占比第二大,教育、金融等行业用户占比相对较低。 09:02中国模型份额激增与海外应用分析 对话探讨了中国模型在市场中的份额显著提升至61%,以及海外用户使用中国模型的两种可能情况:在中国境内数据中心处理请求或在海外节点直接推理。此外,还提到了智能体应用工具调用率的快速上升,以及中国开源模型在海外部署的API来源多样性。 12:23大模型API价格成本与毛利率分析 讨论了中国大模型API价格低廉的原因,通过测算框架分析了硬件折旧、能源成本等要素对每百万token毛利率的影响,强调了吞吐量在成本计算中的核心作用。 15:35显存带宽与并发量对吞吐量的影响分析 讨论了吞吐量的计算逻辑,指出显存带宽利用率与并发量是决定单卡年处理量的关键因素,进而影响每百万token的折旧和电费成本。理论吞吐量基于显存带宽与生成单词所需数据量的计算,有效吞吐量则考虑了实际MBU利用率,强调了系统开销、通讯延迟等实践因素的影响。 18:48大模型推理成本分析:激活参数量的影响 对话讨论了主流中美AI模型的推理成本,强调了GPU型号、数据中心效率及电价等硬件参数的重要性。特别指出,激活参数量是影响成本的核心变量,国内外模型在激活参数量上存在显著差异,国外模型参数量更大,而国内模型相对较小,这直接影响了整体成本。此外,还提到了折旧年限对成本计算的影响,采用四年作为折中方案。 22:47大模型推理成本与API定价分析 对话深入探讨了大模型推理成本的计算方法,包括吞吐量测算、硬件折旧、能源及人力成本等,对比了国内外模型的成本差异,指出国内模型成本较低。同时,分析了API定价策略,考虑到输入输出比例、官网与平台价格差异及服务费等因素,强调了国内模型的高毛利率,与普遍认知存在较大差异。 26:29大模型毛利率分析与成本优势探讨 对话深入分析了大模型毛利率的计算方式,指出API调用毛利率正向影响收入,成本低是核心竞争力。中国大模型因架构与算法创新,尤其在长文本处理上,有效降低推理成本,展现成本优势。定价与成本关系密切,影响毛利率,不同模型毛利率差异显著。 30:17中国模型能力提升与成本优势分析 对话探讨了中国模型能力提升对成本优势的影响,指出架构创新和工程化能力是关键驱动力。通过分析预激活参数量、服务器成本及电力消耗,发现电力成本在推理中占比低。随着模型能力提升,国产模型发展迅速,日均token消耗量巨大,利好国产算力链条。最终得出,模型厂商直接受益,毛利率正向且较高。 发言总结 发言人1 他讨论了中美大模型推理成本的测算问题,重点分析了中国大模型在海外市场的使用情况、性能优势以及成本构成。他指出,中国大模型在开放平台上的调用量显著增长,特别是在编码和代理任务上表现突出,这得益于国产模型在性价比上的优势和性能的提升。他详细解释了测算框架,包括硬件成本、能源消耗、网络带宽和运维成本等,并强调了架构创新和算法优化对成本降低的关键作用。通过分析,他揭示了中国大模型能够以较低的成本提供高效服务的原因,并预测了未来市场发展的趋势,认为国产模型将继续快速发展,带动相关产业链的持续增长。 问答回顾 发言人1问:在中美大模型推理成本的测算中,为什么需要关注token出海的现象及其起因是什么?2022年中美大模型在open rotor上的调用量明显上涨的原因有哪些? 发言人1答:关注token出海是因为最近三周国产模型在海外第三方平台open rotor上的调用量连续大涨,这反映出国产大模型在全球范围内的份额可能有所上升。而这种现象的起因主要是由于open rotor这个平台上存在五百多个模型,其中中国大模型因其性价比高,在海外个人开发者和中小创业公司群体中得到了广泛应用。主要原因有两个方面:一是性价比极高,主流国产模型价格远低于其他模型,如C的V3.2版本价格几乎为零;二是国产模型性能已经达到了足够好的水平,尤其在coding和agent场景上可用,能够满足日常任务需求,而在处理复杂任务时可调用更先进的模型。 发言人1问:open rotor平台上的用户群体特点是什么?为什么中国大模型在该群体中的渗透率较高? 发言人1答:open rotor平台上的用户主要是个人开发者和中小创业公司,他们对性价比敏感,因此中国大模型由于其价格优势,在这些海外用户中使用范围很广。然而,在海外大中型企业中,由于数据安全、法规限制以及中美双方相互限制等问题,中国开源模型的渗透率相对较低。 发言人1问:open rotor平台上的用户画像具体是怎样的? 发言人1答:open rotor平台的用户规模从12月份的约420万增长到2月份的510万,增长了大约20%。其中,编程相关的请求占比从年初的11%增长到年底的50%以上,再到2月份进一步增长至55%。此外,角色扮演在开源模型使用量中的占比高达52%,而具备编程能力的用户占到了85%。从用户类型来看,个人开发者占比40%,独立创业者30%,AI初创企业20%;从地域分布看,北美地区(主要是美国)占据了最多的份额,约47%。 发言人1问:在二月份相比去年年底,中国模型厂商的市场份额有何显著变化? 发言人1答:在二月份,中国模型厂商的份额快速升到了61%,这是最突出的变化。同时,美国模型厂商的份额则减少到了29%。 发言人1问:二月份最快速增长的细分产品是什么? 发言人1答:二月份最增长最快的细分产品是agent智能体应用,其工具调用产率达到了84%。 发言人1问:目前中国模型在海外使用的状况如何? 发言人1答:海外用户可以通过多种API来源使用中国模型,如通过模型厂商官网或第三方云厂商部署的国产开源模型。当美国用户调用这些模型时,请求可能会在中国国内数据中心处理,也可能在海外节点完成推理并返回。 发言人1问:对于中国大模型API价格远低于海外模型的问题,大家的关注点是什么?如何测算大模型推理的成本收入及毛利率? 发言人1答:大家关注的问题主要是中国模型厂商为何提供较低的API价格,以及背后的成本构成、收入与毛利率如何计算。我们建立了一个推理成本收入测算框架,计算每百万token的推理成本、API价格及其毛利率。其中,总成本包括硬件折旧、能源、网络带宽、数据中心运维等费用,尤其强调了年可处理的token量(吞吐量)在这个计算中的核心地位。 发言人1问:如何计算单卡GPU的吞吐量? 发言人1答:首先计算理论吞吐量,即显存带宽乘以并发量除以生成一个token所需的数据量再乘以并发数得到理论TPS。然后,有效吞吐量利用显存带宽利用率来衡量,因为对于agent和coding等典型场景,显存读取速度成为瓶颈,而非算力,所以采用显存带宽利用率计算有效TPS。 发言人1问:在系统性能评估中,有哪些关键影响因素? 发言人1答:系统性能评估中的关键影响因素包括系统开销、通讯延迟以及多卡并行处理时的效率。例如,在腾讯的计算cash等场景中,不同框架和模型厂商的MBU形成利率会影响整体效能,而最终有效TPS(每秒事务处理量)会乘以365来计算一年的处理量。 发言人1问:吞吐量计算的核心逻辑是什么? 发言人1答:吞吐量计算的核心逻辑在于显存带宽和并发量,显存带宽越高、并发量越大,单卡每年能处理的投资量就越多,从而分摊到每百万token上的折旧和电费就越低。 发言人1问:如何计算毛利率并选取了哪些模型进行测算? 发言人1答:毛利率是通过API成本对比推理的固定成本和变动成本来计算得出的。我们选取了目前主流的美国模型和中国的最新模型,并收集了GPU型号、机身体型号、显存数据、带宽数据、工号以及NBO等相关参数,以及国内外数据中心的UE数据和电价数据进行测算。 发言人1问:激活参数在成本计算中扮演怎样的角色? 发言人1答:激活参数是一个对成本影响非常敏感的核心变量。不同模型的激活参数规模差异较大,如GPT-5等国外模型的激活参数量通常较大,而国内模型相对较小,大约是国外模型的10分之1左右。激活参数量对整体成本有显著的影响。 发言人1问:对于硬件成本的折旧年限和其他成本如何处理? 发言人1答:在硬件成本计算中,我们采用了四年作为折旧年限的假设,参考了海外云厂实际可能更长的折旧年限。同时,还考虑了硬件能源成本、人力运维成本和网络成本等各项硬件成本项,并通过理论计算和实际应用(如有效TPS)来评估成本表现。 发言人1问:API定价和最终得出的毛利率情况如何? 发言人1答:API定价根据产品特性设定,并考虑到open API价格一般比官网价格高约65%,并加上5%左右的服务费。经过计算,所有毛利率均为正,且国内的毛利率并不低,可能超出大家的预期认知。最终得出的表格展示了不同模型在百万token推理成本上的表现及其对应的毛利率情况。 发言人1问:在计算模型的毛利率时,需要注意什么?为什么T5和3.1 pro等模型的毛利率相对较低? 发言人1答:计算的毛利率是每百万token通过API调用获得的毛利润,这个指标主要针对像质朴这样的模型,它们的收入主要来自API调用。而对于理想大模型厂商,虽然训练成本很高,但推理测试可以带来正向且不低的毛利率,意味着用户越多使用其模型API调用,厂商的收入和利润就越高。这些模型的毛利率较低是因为它们的激活参数相对较大,导致成本比其他模型更高。而像cloud office点6这样的模型,由于定价