您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中泰证券]:在“卡瓦格博之心”持续瞭望顶峰——解析Token经济 - 发现报告

在“卡瓦格博之心”持续瞭望顶峰——解析Token经济

信息技术 2026-06-12 中泰证券 🦄黄斌
报告封面

分析师:苏仪执业证书编号:S0740520060001 分析师:刘一哲执业证书编号:S0740525030001 注:”卡瓦格博”系梅里雪山主峰、藏区八大神山之首,至今无人登顶;”卡瓦格博之心”为环绕该主峰东南坡、可正面仰望峰顶的徒步环线名称。本报告以此为题,喻指对token的探讨是人工智能研究中最核心、最值得抵达却尚未被完全征服的腹地。 摘要 ◼Token经济本质上是一场关于性价比的全产业链优化运动。这场优化可以用一个公式统一表达:每元Token创造的任务价值=任务价值量÷(Token消耗量×Token单价)。Token作为智能时代的基本度量单位,其供需的非同质化属性催生运营层。Token可类比电力时代的kWh,但并非同质商品;其供给侧按Input/Output/Cache分层定价,需求侧按任务价值与复杂度匹配不同智能的模型,供给端“按量计价”与下游交付端“按结果/项目/订阅付费”之间存在错配。正是这一缺口,催生了以套餐化、路由聚合、效果打包等方式承接用量不确定性的Token运营层。 ◼杰文斯悖论下Token需求爆发,新应用场景持续解锁。单位Token成本的快速下降非但没有压缩总开支,反而随着模型能力提升解锁更多应用场景、把总消耗推向更高量级。下游需求放量沿场景梯次展开:Coding率先爆发,Agent因上下文重读与多轮工具调用产生大量“隐形词元”,子Agent、Agent集群进一步放大消耗,叠加多模态物理AI数字孪生、智能驾驶、具身机器人等全新场景,共同构成Token需求的长期增长曲线,应用层价值量占比有望逐步提升。 ◼算力是核心受益环节,数据中心正变为“Token工厂”。当Token成为可计量、边际成本递减的标准化产出,数据中心便以类似制造业的逻辑运转为“Token工厂”,竞争最终落到单位Token成本与算力约束上。随着互联网厂商资本开支持续攀升,训练转向推理利好国产芯片渗透,政策加码国产数据中心建设,Token供给持续爆发;算力租赁则有望盘活存量资源,并向算力调度、一体化算力网与整体AI解决方案等高附加值运营服务升级。 ◼投资建议:建议关注基础模型层智谱、MiniMax、商汤、科大讯飞等;算力层浪潮信息、紫光股份、首都在线、东方国信等;应用层彩讯股份、万兴科技等。 ◼风险提示:存在AI等底层技术变革不及预期,下游客户IT支出意愿与力度不及预期,政策落地不及预期,行业竞争加剧,第三方数据失真,市场规模测算偏差,研报信息更新不及时等风险。 Token经济学可以理解为全产业链优化Token性价比的活动 ◼Token经济本质上是一场关于性价比的全产业链优化运动。这场优化可以用一个公式统一表达:每元Token创造的任务价值=任务价值量÷(Token消耗量×Token单价)。 ◼公式中的分子和分母分别由产业链不同的参与者进行优化。应用层是唯一同时触达分子和分母的角色,他们定义场景(决定分子大小),也选择工作流架构和模型档位(决定分母中的消耗量);基模厂商主要关注分母中的Token单价(通过MoE、蒸馏、推理加速等技术路径降本)和消耗量(通过提升模型能力减少用户重试);云厂商主攻分母最底层的物理成本(硬件代际、协同设计、利用率管理)。三方各有侧重,但分母优化的红利往往会通过价格竞争流向应用层。 图表:Token经济学的优化目标与参与方 拆解Token产业:从价值创造与分配的角度理解token Token:智能时代的基本度量单位,可类比电力时代的kWh ◼Token是AI时代对“智能”的基本度量单位。类比此前的技术革命浪潮,正如kWh衡量电能、Mbps衡量带宽,Token正在成为AI智能产出的通用计量标准。Token与电力、带宽、云计算有类似的商品属性:短期供给弹性低(大型数据中心建设周期往往在1年以上,类似电厂扩容)、底层依赖重资产基础设施等。这些共性意味着Token经济的演进可能与电力、互联网与云计算的历史节奏相似。但同时,Token的定价由服务商单方设定,且需求弹性随使用场景有较大变化,这种异质需求结构使得Token的价值分配远比kWh复杂。 Token分类:供给侧,基础模型厂商为Input / Output / Cached给予不同定价 ◼基模厂商往往按照Token类别计费。以OpenAI为代表,API层面将Token分为四类计量:输入Token(用户输入的提示)、输出Token(模型生成的回复)、缓存Token(复用的上下文,按低费率计费)、以及推理Token(推理CoT,不单独计费)。其中Output Token中很大部分来自推理过程。将其定义为“隐藏的思考Token,计入output但不返回给用户”。Cache命中率、Input/Output比、上下文长度等指标往往影响最终的Token成本。 ◼厂商也可对批量处理(Batch Processing)提供折扣,定价策略丰富。批量处理即用户将大量请求打包提交,由平台在算力负载较低的时段异步执行,等待时间可能稍长。这种逻辑类似电力市场的峰谷电价机制,实时调用占用即时算力(峰时),Batch请求填充闲置产能(谷时),厂商通过平滑负载曲线、提升GPU利用率来覆盖折扣成本。 Token分类:需求侧,基于任务价值量和复杂度需要不同“价值”的token ◼Token并非同质化的商品。一方面不同技术路径和工程化手段决定了token产出的不同成本,另一方面简单任务、中等任务、复杂任务对应不同智能程度的模型,单位Token的价值差距很大。因此为不同的任务分配合适的、更具性价比的模型也就非常重要。即使是模型自身,也很难精确预测任务的token消耗量。特别是,针对Agent场景中的多轮、复杂任务,反而出现“越贵的Token越省钱”的现象。 资料来源:arXiv:2604.22750,ExponentialViewAnalysis,中泰证券研究所 下游决策时,任务ROI依旧是最终决策标准 ◼我们认为下游企业的AI投入决策方式往往不同,但ROI才是最终标准。硬件采购时往往考虑GPU租赁价和Flops单价进行选型,完全不反映Token产出,多数企业仍采用这种方式进行决策;穿透到Token运营视角,需要逐步建立调用级可观测性、按团队的成本归因和AI预算管控能力;但最终,还是业务部门对投入ROI进行测算。三层穿透构成一条AI成本管理的成熟度阶梯,企业沿阶梯的攀升速度,将直接决定AI支出从成本中心转向利润中心的节奏。 资料来源:中泰证券研究所 供给“按量计价”与交付“按结果/项目/订阅付费”错配催生Token运营需求 ◼我们认为Token运营并非凭空出现的环节,而是由于成本端按量计价,交付端按结果/项目付费引发的错配所致。具体而言:1)B端:用户端AI应用的ROI难以测算,终端客户往往需要承担不确定性;特别是国内SaaS付费基础不深,因此往往采用项目制/场景交付,对于任务场景的token消耗难以预估和明确测算。2)C端:付费模式以订阅制为主(包月/包年)或免费增值,成本端依旧按token消耗结算,高价值用户订阅需求难以满足。 资料来源:中泰证券研究所 Token运营的几类模式 ◼Token运营本质是在转移不确定性:谁吸收Token用量波动的风险,谁就可以分配价值。按量计价可能面临用户暴露问题,按结果付费可能面临服务商暴露问题。这种矛盾创造空白,吸引部分运营层入场。基模厂商的API定价从按量后付费到企业定制方法,运营层玩家通过套餐化、路由聚合、效果打包和行业封装,以各自的方式承接用量不确定性并将其转化为定价权。 Token的含义逐渐丰富:成本、研发费用还是资产? ◼围绕Token消耗产生的支出,在会计上正在出现多重身份并存的现象。不同使用场景下,同样一笔Token支出可能进入完全不同的会计科目。用于推理交付可能是COGS,用于训练微调可能是R&D,用于客户获取可能是SGA。对基模厂商而言,API按Token计费使其成为营业收入的计量基础,而训练、微调、评测消耗的Token则构成研发投入;对云厂商和运营商而言,Token是算力服务收入的载体,对应GPU、电力、网络等基础设施成本与折旧;对应用层和企业用户而言,调用产生的Token支出计入直接成本或获客费用,预购的Token额度类似原材料库存形成预付资产,而KV Cache、知识库、Agent记忆等沉淀甚至可确认为可摊销的无形资产。Token正从单纯的成本项,演变为贯穿收入、费用与资产的核算单元。 资料来源:中泰证券研究所 Token作为隐形资产:上下文图&决策痕迹可能是被低估的价值 ◼我们认为,最值得注意的是,Token正在从纯流量概念向存量资产沉淀演进,即企业内的上下文图谱和决策痕迹(Decision Traces)。智能体每执行一次任务,都会在消耗Token的同时留下一条决策痕迹——调用了哪些系统、适用了哪条政策、由谁批准了哪项例外,这些痕迹随时间累积成一张可查询的组织决策图谱。 ◼Token消耗与存量资产由此形成飞轮。每一次Token消耗都在向图谱写入新的先例,可检索的先例又让后续每单位Token完成任务时更准确、所需的背景重述更少,对应公式中分子扩张与分母压缩的同步改善。模型能力趋于同质化,而组织独有的决策图谱无法事后重建、难以复制,其价值随使用时间复合增长。更关键的是这类隐形资产的归属权。如Palantir的本体层与处于编排路径的智能体公司,正在将下游客户消耗Token产生的决策痕迹沉淀为自身平台的复利资产。Token的支出方与存量资产的占有方出现分离,归属权之争将成为价值分配的核心战场。 资料来源:JessicaTalisman,中泰证券研究所 资料来源:Palantir,中泰证券研究所 CCONTEToken的杰文斯悖论:新应用场景解锁提升token需求 Token经济学中的杰文斯悖论 ◼杰文斯悖论(Jevons Paradox)指效率提升降低了每单位服务的有效成本,从而刺激了更多需求、解锁了更多应用场景、带动了更大规模的经济活动;最终总消耗量不减反增,甚至远远超过效率提升所节省的部分。 ◼Token经济同样呈现了杰文斯悖论。随着技术优化Token单价正在持续降低,但消耗总量快速提升,总支出持续扩大。从定义公式的角度拆解,当分母中的Token单价下降(基模降价、硬件代际跃迁、MoE架构优化);新的场景一旦被解锁,就会产生新的Token消耗。特别是,新解锁的场景更复杂,往往会比已有场景消耗更多Token(如Coding之于Chatbot)。 资料来源:中泰证券研究所 资料来源:a16z,中泰证券研究所 Token经济学中的杰文斯悖论 ◼总量来看,OpenRouter平台的周度Token吞吐量从2025年6月的约2T快速提升至2026年6月约36T,一年内增长约16倍,且增速仍在加快。单价来看,Token单价的持续下降。a16z的数据将模型按智能指数分层追踪发布价格,每一条阶梯线都在向右下方移动:同等智能水平的模型,每隔12–18个月价格下降一个数量级。 资料来源:OpenRouter,中泰证券研究所 Token量爆发,依旧是基模“能力提升+成本下降”解锁更多场景的结果 ◼应用层的渗透依旧遵循我们此前观察到的规律:随着性能提升和成本下降,越来越多的应用场景正在被解锁。◼Token调用量的攀升还是来自下游需求场景的爆发。以Coding场景为例,在编程能力显著增强的Claude 3.5模型发布后,Coding应用如Cursor、Lovable的ARR开始有了显著增长。 资料来源:EthanDing,中泰证券研究所 资料来源:中泰证券研究所 复盘Coding场景:早期开发者优先考虑性能,即使前沿模型更贵 ◼在Coding场景中,模型性能决定开发者的购买决策。开发者始终选择前沿模型,而非更便宜、更快速的替代方案。他们优先考虑性能并为性能付费。(始终聚焦开发前沿模型也是Anthropic一直坚持的策略)例如,在Claude 4发布后的一个月内,