高航腾讯云总经理、TokenHub负责人
MaaS的用户痛点:模型选型困难、接入运维复杂、成本压力大、治理难度高
模型种类繁多,用户选型困难
供给参差不齐,供应商选择难
•热门模型市场价格鱼龙混杂,有的平台价格刚性,有的折扣过深。•企业用户面临以次充好、账单不透明、数据安全岌岌可危等问题。
•模型数量爆发式增长,HuggingFace托管模型超270万+。•模型快速迭代进化,迭代周期从年级压缩至周级。
Agent场景消耗量大,容量供给不足
业务渗透越深入,治理难度越大
•Agent Token消耗量是chatbot的5-30倍,中国26年3月日均Token消耗量超140万亿。•爆发式增长击穿高峰期容量供给,应用稳定性和业务连续性面临系统性风险。
•随着调用量增加,企业应用更加深入,权限管控、预算管理、支出管理、审计追溯的复杂度大幅提升,缺乏统一管控手段。
TokenHub极致成本,量大管饱
解决MLA L2 KV Kache重复存储问题,降低重复计算与显存浪费
大模型推理秒级启动,训推一体灵活调度,降本40%
基于GDR实现GPU显存直接复制,实现灵活调度
高航腾讯云总经理、TokenHub负责人
MaaS的用户痛点:模型选型困难、接入运维复杂、成本压力大、治理难度高
模型种类繁多,用户选型困难
供给参差不齐,供应商选择难
•热门模型市场价格鱼龙混杂,有的平台价格刚性,有的折扣过深。•企业用户面临以次充好、账单不透明、数据安全岌岌可危等问题。
•模型数量爆发式增长,HuggingFace托管模型超270万+。•模型快速迭代进化,迭代周期从年级压缩至周级。
Agent场景消耗量大,容量供给不足
业务渗透越深入,治理难度越大
•Agent Token消耗量是chatbot的5-30倍,中国26年3月日均Token消耗量超140万亿。•爆发式增长击穿高峰期容量供给,应用稳定性和业务连续性面临系统性风险。
•随着调用量增加,企业应用更加深入,权限管控、预算管理、支出管理、审计追溯的复杂度大幅提升,缺乏统一管控手段。
TokenHub极致成本,量大管饱
解决MLA L2 KV Kache重复存储问题,降低重复计算与显存浪费
大模型推理秒级启动,训推一体灵活调度,降本40%
基于GDR实现GPU显存直接复制,实现灵活调度