您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:TokenHub:面向Agent时代的企业级Token生产与调度平台 - 发现报告

TokenHub:面向Agent时代的企业级Token生产与调度平台

2026-06-09 腾讯 棋落
报告封面

高航腾讯云总经理、TokenHub负责人 MaaS的用户痛点:模型选型困难、接入运维复杂、成本压力大、治理难度高 模型种类繁多,用户选型困难 供给参差不齐,供应商选择难 •热门模型市场价格鱼龙混杂,有的平台价格刚性,有的折扣过深。•企业用户面临以次充好、账单不透明、数据安全岌岌可危等问题。 •模型数量爆发式增长,HuggingFace托管模型超270万+。•模型快速迭代进化,迭代周期从年级压缩至周级。 Agent场景消耗量大,容量供给不足 业务渗透越深入,治理难度越大 •Agent Token消耗量是chatbot的5-30倍,中国26年3月日均Token消耗量超140万亿。•爆发式增长击穿高峰期容量供给,应用稳定性和业务连续性面临系统性风险。 •随着调用量增加,企业应用更加深入,权限管控、预算管理、支出管理、审计追溯的复杂度大幅提升,缺乏统一管控手段。 TokenHub极致成本,量大管饱 解决MLA L2 KV Kache重复存储问题,降低重复计算与显存浪费 大模型推理秒级启动,训推一体灵活调度,降本40% 基于GDR实现GPU显存直接复制,实现灵活调度