China Internet: The strategic implications of AI model建筑 一场关于中国顶尖人工智能实验室模型设计选择的低术语讨论,以及它们揭露战略定位及市场进入策略。战略选择驱动人工智能模型架构。人工智能的发展和成本持续在覆盖中国互联网的投资者讨论中占据主导地位。本报告旨在 人工智能模型架构入门,KV缓存的使用,强化学习。近年来,全球AI模型开发者越来越多地采用MoE架构,在这种架构下,大模型中的参数只有一小部分会在每个标记激活——这取决于对不同垂直领域、语言或技能的专注度。同时,键值缓存(KV cache)是AI模型的一个重要特征,它支持降低内存消耗。 +852 2123 2644康敏珠 使用和快速推断。强化学习在推断性能和认为更优的响应类型中起着关键作用。沿着成本与性能谱系的选项。在中国顶尖的AI实验室中,Minimax因其提供小型模型而脱颖而出,该模型针对每个标记的低活性参数规模进行了优化,强化学习框架优先考虑代理工具的使用,而公司的定价策略则激励了高KV缓存使用。智谱的GLM5模型更大,在通用推理、编码能力和幻觉基准测试方面表现更优。 控制...但伴随着更高的代币成本。Qwen的战略是提供一系列面向最大程度满足人工智能计算需求的模型。关于采纳曲线的思考截至本年度,M2.5型号对低成本代理使用的优化使其成为支持Ope nClaw最受欢迎的型号之一。Z.ai公司对领先推理能力和可靠性的关注与其更学术的背景和重点关注可靠性关键的商业用例非常吻合。从早期采用者和增长S曲线的角度思考,大量的 在高级用户和企业中应用,我们认为比病毒式消费者OpenClaw采用更不容易陷入“幻灭低谷”的时刻。比赛,以及模式化商品化。在长期的时间范围内,我们倾向于认为,围绕一般推理能力 和可靠性构建的市场地位以及专业任务完成能力将更加持久,而“低成本代理后端”的市场角落将因来自中国开发者(包括独立的人工智能实验室以及寻求开发消费者使用的互联网平台)的竞争而变得越来越拥挤。 案例),以及来自全球领军企业的闪存式模型。Minimax转向M3的尖端推理能力给我们留下了深刻的印象,并且我们认为这是必要的。20-30% 的培训成本增长是否足够?阿里巴巴、腾讯和百度均宣布了各自AI云业务的提 价,而独立计算供应商的AI服务器租赁报价也指向了同一方向。阿里巴巴管理层暗示,当前市场的紧缩可能会支持今年的进一步提价。相比之下,我们预期AI实验室在很大程度上是价格的接受者……并预计计算资源价格会更高…… BERNSTEIN TICKER TABLE 投资影响人工智能发展与成本继续主导着我们中国互联网覆盖范围内投资者的讨论。在本份报告中,我们分析了以下内容: 概述了一些关于中国领先AI实验室在AI模型架构选择上的差异观察。 发布版已优化以适用于低成本代理工具,Z.ai的GLM5模型在通用推理方面更为专注这些选择说明了开发者市场定位和竞争策略,而Minimax最近推出的(M2+)型号 能力,以及幻觉控制。与此同时,阿里巴巴针对其Qwen系列模型的策略是提供跨越模型尺寸和模式的大范围模型……以尽可能广泛地捕捉计算用例,旨在推动对MaaS和更广泛的计算需求的增长。在长时间范围内,我们预计领先边缘通用推理和专项任务完成能力将代表比低成本、“足够好”的代理人工智能骨干更具有防御性的竞争位置……除非后者被嵌入在一个大型面向消费者的生态系统中。对于后者,我们坚持认为,大多数消费者更关心高效且低成本地“完成任务”而不是必然区分底层推理能力。 截至目前,顶级中国AI实验室在保持与全球SOTA同步方面做得很好,尽管有蒸馏等开发技术的帮助。随着代理工作流程变得更加复杂,任务完成的时限延长,后者变得不那么有效的可能性值得关注。从短期来看,我们预计计算成本的增加(例如,参见阿里云和腾讯的价格上涨)将支持超大规模增长,但也将成为训练和推理成本压力的来源。 对于Minimax和Z.ai等人工智能实验室,投资者似乎对这些股票预计的25-30%培训成本增长我们认为在计算成本上升的环境下过低。 VALUATION COMPS TABLE 《模型人工智能架构入门……及战略影响》 截止到目前为止,我们对人工智能发展的研究占据了我们的研究带宽。我们与投资者的讨论主要围绕以下方面:继续高度关注OpenClaw采用对我们大盘股覆盖(例如腾讯、阿里巴巴)的战略影响。 然而,这些对话中一个共同的主题是投资者倾向于将“AI模型”视为单一的产品……并且几乎像对待Sensor Tower一样对待OpenRouter数据…… 顶尖吸金能力的仲裁者。本文旨在作为一份基本的、非技术性的人工智能模型入门指南,关注驱动推理性能的关键方面——同时反映其开发者所做出的战略选择,并影响其倾向于吸引的用户类型和工作流程。更大的通常更好……但是有得有失 在更高层次上,前沿人工智能模型是训练在大规模训练数据集上的下一标记预测器,它们试图预测下一个标记。 最优化对用户提示的响应。Frontier AI模型主要通过以下方式随着时间的推移进行扩展:(1)增加参数数量;(2)在稀疏混合专家(MoE)架构中增加专家;(3)通过诸如监督微调之类的技术进行后训练。 调校(SFT)和特别是强化学习(RL)。在过去几年里,领先的边缘模型越来越 倾向于稀疏的专家混合(MoE)架构(参见展示2)。这些模型往往具有非常高的参数数量,但路由器一次只激活参数子集(专家),这基于对不同垂直领域、语言或技能集的专门化。与所有参数对所有标记都激活的密集模型相比,MoE模型提供了更便宜的推理(推理成本与激活的参数呈正相关,可以在不激活每个标记的情况下添加专家)和更高的专业化。展示3显示了自2024年初以来发布的Qwen、Minimax和Z.ai模型的参数数量,而展示3显示了每个模型的每个标记的激活参数数量。比较这三组模型,可以立即明显看出,Minimax一直拥有最小的模型,但也具有每个标记的活跃参数计数更低。很多例如,最新的M2.5型号拥有2300亿个参数,但任何给定时间只有100亿个处于活跃状态。Z.ai拥有最大的前沿模型。 在这一刻,拥有约7440亿个总参数和400亿个活跃参数……这意味着每个参数节点大约经过了四倍的处理,这导致了更高的计算成本。从高层次来看,Minimax的小型模型优先考虑效率和较低的运行成本……同时保持有竞争力的推理能力。Z.ai的更高活跃参数数量有助于更出色的通用推理、更长的代理任务完成范围和更低的幻觉率……然而,每个参数的推理成本也相应提高。 KV缓存,以及价格策略告诉我们什么关键值(KV)缓存是人工智能模型内部的一种短期记忆形式,用于存储标记和指令,以便在推理过程中重复使用。通常存储的数 据包括附加在每个用户开始处的隐藏指令。 一条新的提示被输入,它将被检查与现有的KV段落的匹配情况,以便可以重复使用。实际上,对于提示(例如前缀缓存),以及基于先前的输入上下文构建的向量(例如线程中的聊天历史)。当 示例,当用户在对话线程中提出后续问题时,KV 缓存允许重用之前的对话而不需要重新计算,同时在上方添加的新令牌将被处理。示例4展示了KV缓存在实际工作中的基本原理图。我们更感兴趣的是突出Minimax的定价策略——对于提示缓存读取,每百万令牌(MTok)收费0.03美元,比每百万令牌(MTok)0.30美元的输入令牌和每百万令牌(MTok)1.2美元的输出令牌便宜90%(见示例5)。除了降低推理成本外,利用缓存还有助于提高首次生成令牌的时间(TTFT), 一个衡量响应延迟的重要指标。相比之下,Z.ai的GLM5模型按标准输入令牌价格人民币4/MTok(约0.60/MTok)收费。提供Minimax M2.5和Z.ai GLM5的服务商。忽略报告为零的异常值,前者目前的平均缓存命中率约为70%,而后者约为40%。简化起见,Minimax的M2.5模型是一个参数总数和每层活跃参数更少的较小模型。 展品6和展品7展示了OpenRouter在不同令牌上的缓存命中率数据。同时,存在对缓存读取令牌的明确折扣以及使用针对代理任务完成优化的Forge RL框架,突显了Minimax将其前沿模型定位为支持低成本代理AI推理……同时提供有竞争力的推理。与此同时,Z.ai的更大型的GLM5模型则优化了更高级(至少 domestically) general reasoning performance and reliability. Implications for AI adoption and competitive positioning 这些设计选择对Minimax和Z.ai将吸引的客户类型和工作负载具有重要影响,并且…… 作为开放爪子实例的低成本推动者,例如,Z.ai的目标是成为一流的国内推理模型与其管理团队的更学术背景(例如清华大学的)以及表达的追随Anthropic的愿望相一致。 脚步声。事实上,Z.ai 拥有一个规模更大的团队,并且在 2023-2025 年期间可能投入了大约 80-90% 的研发费用,这同样反映了这两家公司的战略偏好。在近期内,尽管代理型人工智能解锁了新的应用场景,人工智能服务的采用曲线持续攀升,我们预计“世界很大”这个假设依然成立。两家公司都告诉我们,它们面临着计算资源约束,需求远远超过了供应。从相对角度来看,我们预计 Minimax 作为低价、适度复杂代理工作负载的首选模型,将继续在持续爆发的兴趣中保持有利的位置。 在基于OpenClaw的代理中。GLM5对通用推理的更大关注反映了公司对大型企业客户的关注……以及对OpenRouter的较低重视,OpenRouter往往倾向于小型开发者。我们预计代理人工智能的采用将继续由病毒式消费者成功(例如OpenClaw)、强大用户(例如投资者)的广泛使用以及有竞争 性需求的企业如何利用新技术的工作方法等多种因素驱动。另一方面,对OpenClaw的兴趣激增可能已经显示出放缓的迹象。我们确实担心,能够被说服尝试新技术的消费者数量远远多于愿意花费微不足道的金额购买代币的消费者数量…… 知识工作者群体,其产出能够带来实际回报的token成本。下一个前沿:安全与可靠性、协作代理、代理思维? 整个AI领域正在迅速发展,我们假设前沿的进展意味着这份笔记中的一些细节相对较快就会过时(尽管一些高级模式和框架应该会 持续存在)。智能代理AI编排 已经主导了与保险公司和行业联系人的讨论。另一方面,我们发现,像Doubao和Qwen这样的AI应用的日常使用,每天每DAU的激活率仍然保持在个位数的中位数。 向下倾斜,可能反映了春节后低参与度用户涌入的影响)。一位字节跳动的高管最近对我们说,有趣的是,他承认多宝不仅仅是一个尝试颠覆互联网流量入口的多模态工具。我们听到的一些关于应用侧“下一步是什么”的潜在答案包括一对一的代理集群,其中人工用户组织一组代理的工作;多对多的代理网络,帮助企业环境中不同组的人工工作者协调工作流程和信息检索;以及跨领域的编排。多个应用平台和信息层。安全和权限管理始终是关注的重点议题。 应有助于解决关于OpenClaw型技术的常见担忧,进而有助于推广使用(超越在功能手机上进行实验的早期使用者)。在模型层,不久前离任的Qwen负责人Justin Lin最近对代理式思维这一概念发表了评论,即模型从针对长链条思维优化或可靠的长周期任务完成,转变为(引用Lin的话)“模型是否能够以维持有效行动的方式进行思考”。追求这一目标将对训练基础设施环境和RL框架产生重要影响……我们希望在未来的研究中详细阐述。 有趣的商品化争议数据点在与我们最近交谈的一位行业资深高管谈到模型专业化与商品化之争时,他强调了针对特定领域任务的专业化模型比通用型模型的 重要性。更广泛地说,我们的倾向是,市场 机会获得尖端代理能力将仍具有重要意义。“第二名即是死亡”的概念变得越来越重要。 增加的权重,