您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:智谱专家问答20260518 - 发现报告

智谱专家问答20260518

2026-05-18 未知机构 张彦男 Tim
报告封面

1.智谱智谱AI在在GLM-5发布后,其发布后,其Agent和和Coding能力显著进步的原因是什么?能力显著进步的原因是什么?智谱公司的Agent和Coding能力从GLM-4.5开始就一直很强,至少是业界最强的之一。公司能确保模型在发布时达到业界领先水平,尽管后续可能会被其他新发布的模型追赶。关于技术演进,可以参考GLM-4.5和GLM-5的两份技术报告。 智谱专家问答智谱专家问答20260518 1.智谱智谱AI在在GLM-5发布后,其发布后,其Agent和和Coding能力显著进步的原因是什么?能力显著进步的原因是什么?智谱公司的Agent和Coding能力从GLM-4.5开始就一直很强,至少是业界最强的之一。公司能确保模型在发布时达到业界领先水平,尽管后续可能会被其他新发布的模型追赶。关于技术演进,可以参考GLM-4.5和GLM-5的两份技术报告。在GLM-4.5阶段,公司确立了ARC战略,即Agentic、Reasoning和Coding三个方向。当时公司对这三个方向的未来重要性并不完全确定,因此同时进行了投入。随着发展,公司发现Reasoning的直接经济价值有限,而Agentic在很长一段时间内未能找到合适的应用场景,因此逐渐与Coding融合。在2025年下半年,公司的主要方向是Agentic Coding,并与Claude code等产品结合。公司在GLM-4.5期间,具体于2025年9月1日,率先推出了Coding plan,这一技术在GLM-4.6版本中得到进一步发展,并在GLM-4.7版本中发挥到极致。因此,公司在业界的口碑在GLM-4.7发布时已达到一个高峰,但这也基本耗尽了当时的算力资源,为2026年的发展埋下了伏笔。进入2026年,GLM-5和GLM-5.1等4.x系列的模型尺寸较大,其相对实力也更强。 2.从从GLM-4.5到到5.x系列,模型迭代速度很快,这主要得益于哪些因素,例如推理系列,模型迭代速度很快,这主要得益于哪些因素,例如推理能力的提升、训练范式能力的提升、训练范式的优化,还是专家系统的改进?的优化,还是专家系统的改进? 模型的迭代速度并没有必然加快。许多被外界视为迭代的发布,实际上是多条研发线路并行推进的结果,并非在一个模型完成后再开始下一个。例如,GLM-5的训练在GLM-4.7尚未退役时就已经开始。因此,一个月或一个多月发布一代模型,不代表训练周期就是一个月。模型团队花费最长的时间是在”观察”上。公司的强项在于抓住市场机会的能力,通过深入观察市场风向、评测结果,判断哪些模型表现稳固、哪个技 术方向代表未来趋势,从而在研发上少走弯路。 当前智谱最先进的模型水平比较接近Claude的4.6版本,但存在明显短板,例如缺乏多模态能力。因此,可以将其视为一个稍弱化的Sonnet4.6版本。如果从benchmark评测分数来看,差距大约是4个月;但如果从底层技术的扎实程度来看,差距可能在6个月左右。 首先,蒸馏在模型整体能力中的占比正在持续降低。蒸馏的关键作用并非赋予模型当前的核心能力,而更多是使其在Code或Coding Agent等场景下的表现风格与Claude等顶尖模型相似。当前业界模型能力的提升,如DeepSeek等,主要还是依靠其自身的架构创新、预训练以及强化学习。例如,公司发布的SFT-Bench Pro能取得SOTA成绩,主要归功于强化学习。其次,应对监管方面,这取决于产业链中是否有合作方愿意提供帮助。这类操作通常不是由模型公司直接进行,而是通过第三方执 行,这背后存在利益驱动。 与与2025年相比,公司当前的算力分配策略有何变化?训练和推理的算力占比分年相比,公司当前的算力分配策略有何变化?训练和推理的算力占比分别是多少?别是多少? 算力的分配比例变动非常剧烈,没有固定的比例。例如,像DeepSeek那样的新架构出现,可以将FLOPs降低至原先的十分之一,这将显著减轻推理端的算力压力,从而可以将更多资源重新分配给训练。在没有技术架构创新的情况下,只能依靠增加资源来满足用户需求;而技术突破后,则可以回收资源。公司长期处于供不应求的状态,因此算力分配更多是按比例划分给不同的大客户,核心在于保证对大客户的资源承诺。 5.考虑到模型能力是公司的核心竞争力,未来用于训练的算力比重是否会下降?考虑到模型能力是公司的核心竞争力,未来用于训练的算力比重是否会下降?预计不会下降,反而可能会投入更多资源,因为市场和资本对AI公司的估值主要基于其产品能力和技术领先性,而非短期财务指标。持续推出领先的大模型是根本,这需要遵循Scaling Law,即通过扩大规模来训练更大、更多的模型。因此,用于训练的算力是公司的生命线,其投入是刚性的,不太可能削减。 6.公司目前训练和推理算力的分配模式是怎样的?如何管理训练任务对稳定算力资公司目前训练和推理算力的分配模式是怎样的?如何管理训练任务对稳定算力资源的需求与推理任务的源的需求与推理任务的潮汐波动之间的矛盾?潮汐波动之间的矛盾? 训练和推理的算力很难完全拆分。公司采用潮汐调度等技术,将算力资源池化管理。推理负载并非每时每刻都处于峰值,在凌晨等低谷期,空闲的算力会被调度给训练任务。虽然训练任务需要长期稳定的算力,但目前的集群挂起和启动技术已经比较成熟,一个集群的启停过程大约只需要半小时。夜间的闲时算力窗口通常有8到10个小时,足以被高效利用。这种模式优先保障线上服务,服务空闲的资源则全部投入训练,从而提升了整体架构的运行效率。 7.对于未来的算力规划,是倾向于第三方租赁,还是自行采购国产推理芯片?对于未来的算力规划,是倾向于第三方租赁,还是自行采购国产推理芯片?算力的规划和储备策略本质上是一种多方博弈,很难进行精确预测。这与厂商选择开源还是闭源路线的博弈相似,都取决于对未来的判断和赌 注。具体到算力,核心的博弈在于选择相信技术创新的动能还是遵循现有技术路径。如果更相信技术创新,那么资源会更多地投入到人才储备,例如在Training Team和Infra Team之间进行调配,更偏向于通过Infra Team的努力来提升训练效率,从而弥补算力不足。反之,如果判断技术不会有重大突破,大家都会沿用现有方式,那么最理性的选择就是囤积计算卡。作为一家初创公司,智谱更倾向于相信技术的力量,因为与资金雄厚的大厂相比,智谱无法在囤积算力上进行竞争。 8.在保持低成本运营的同时,如何确保模型智能水平的持续提升?从国内竞争格局在保持低成本运营的同时,如何确保模型智能水平的持续提升?从国内竞争格局来看,来看,DeepSeek、、Kimi、智谱、智谱AI等几家主要厂商在模型能力,特别是在等几家主要厂商在模型能力,特别是在Coding和和Agent技术实力上,应如何排序和评价?技术实力上,应如何排序和评价? 在模型能力上,DeepSeek、Kimi和智谱AI可以算作第一梯队,各有特色。通常模型参数量越大,其世界知识就越强,在这一点上DeepSeek和Kimi的模型优于智谱AI。然而,智谱AI的传统优势在于其模型与Coding及Agent能力的深度结合,在代码相关的应用场景中表现最强。而在前端体验和审美方面,DeepSeek和Kimi可能稍 好一些。第四名是小米的MiMo,但它与前三者存在一个档次的差距,可以看作是第二梯队的领头羊。千问、混元等模型则处于其后。 然而,单纯的模型表现与团队的技术实力并非完全等同,尤其是在Coding领域。如果抛开模型大小的因素,仅从对特定场景的钻研深度和数据储备来看,智谱AI在Coding技术上是独一档的。此外,MiniMax也应被归入第二梯队,其模型绝对能力不佳主要是因为模型尺寸过小,但这并不完全反映其技术团队的实力。当评估团队实力时,需要对模型尺寸进行加权考量,能够以小模型实现与大模型相近性能的团队,其技术实力应得到更多认可,因为他们后续推出更大尺寸、表现更优异的模型的可能性也更高。 9.中国大模型厂商在出海方面面临哪些挑战?中国大模型厂商在出海方面面临哪些挑战? 中国大模型厂商出海面临规模化的巨大困难。当收入规模达到10亿以上时,会直接面对持有美国许可证的供应商,这些供应商拥有充足的算力资源(如B卡)和政府关系优势。大模型作为一项涉及政治敏感性的技术,使得海外大型机构客户在采用时非常谨慎。例如,阿里云的海外总部设在新加坡,其公有云服务可以覆盖散户,但服务大型机构时仍会遇到障碍。这与一些海外云服务在中国难以被机构采用的情况类似。对于开源模型,海外大客户可能会使用其进行评估(know-how),但不会将其用于核心业务,这使得模型提供商难以获得大规模的商业收入。 10.如何评价如何评价DeepSeek近期的低价策略及其商业模式的可持续性?其他厂商为何难近期的低价策略及其商业模式的可持续性?其他厂商为何难以复制?以复制? DeepSeek的低价策略源于其独特的商业模式和路径,其他厂商已无法模仿。DeepSeek是一家纯粹的to C企业,其商业模式有几个特点:首先,它不维护旧版本模型,例如会直接淘汰V3.1、V3.2等旧版本,这极大地提升了资源管理效率。其次,它不提供面向to B业务的SLA(服务等级协议)和稳定性保障。相比之下,智谱AI等作为商业服务机构,无法瞬间关停上一代模型以迁移用户,必须为企业客户保留旧版本模型。因此,尽管其他厂商可能认同DeepSeek模式在毛利上的潜力,但由于自身商业定位的不同而无法采纳。 11.从商业模式角度看,从商业模式角度看,to B和和to C哪条路径更优?哪条路径更优?DeepSeek是否在追求盈利?是否在追求盈利?DeepSeek正在以一个独立商业主体的身份非常深入地思考其发展路径,其所有商业行为均以自身盈利为目标,与其他商业主体无关,并非一个不计成本的”玩具”。其选择的to C路径,如果能成功走通,长期来看理论收入可能会更高,因为它无需依赖渠道或合作伙伴,也不必提供大量折扣,只需管理好自身资源池。然而,这种模式的抗风险能力较低,容易受到其他更具性价比的竞争对手的冲击。目前海外市场短期内to B模式表现更顺畅,商业化自动化程度高,客单价也高。相比之下,OpenAI的to C业务虽然用户基数大,但月度订阅费(如20美元)增长缓慢,爆发力稍显不足。 12.豆包在豆包在to C市场的用户规模是否意味着阶段性战役已经结束?市场的用户规模是否意味着阶段性战役已经结束?AI行业的行业的to C模模式与传统互联网有何不式与传统互联网有何不同?同? 尽管豆包在2026年春节后的第一季度用户数增长显著,呈现一边倒的态势,但这并 不意味着to C市场的战役已经结束,甚至可以说战争尚未开始。当前所有厂商都未进入收费阶段,尚未形成经济正循环,仍处于准备阶段的”军备竞赛”。豆包凭借字节跳动在to C领域的深刻理解,产品黏性做得很好。然而,AI行业与传统互联网存在根本不同,它没有规模效应。用户越多,单位服务成本反而可能越高,因为集群规模变大导致网络通信更复杂,GPU优化也更困难。因此,在”军备竞赛”中领先的赢家,在战争真正打响(即开始收费)时,也可能因为高昂的成本而亏损最快。 目前字节跳动内部可能还未进入到不同业务单元为争夺AI资源而激烈竞争的阶段,或者说尚未到迫使高层必须立即做出决策的时刻。字节跳动倾向于一种去中心化的组织模式,相信各业务区块的自身优化能带来全局提升。但随着业务发展,资源分配问题将变得现实。 在面对强大的竞争对手时,应采取何种策略?如何看待当前在面对强大的竞争对手时,应采取何种策略?如何看待当前AI行业的竞争格局行业的竞争格局和未来发展?和未来发展? 在当前竞争格局下,应采取差异化路线。行业内的领先地位是交替变化的,例如在国外,最初各家方向发散,但 在coding领域实现闭环后,其他竞争者也迅速跟进。谷歌等巨头仍有强大的追赶潜力。当前AI行业正处在一个激动人心的大时代,但各家厂商的优缺点都非常明显,制约点也很多,即便是业内人士也难以预测”5月1