您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:智谱GLM5信息速评可能是第一个类似于ClaudeOpus级别的开源架构模 - 发现报告

智谱GLM5信息速评可能是第一个类似于ClaudeOpus级别的开源架构模

2026-02-13 未知机构 Yàng
报告封面

水平:外网测评称相当于ClaudeOpus4.6的水平(此前的ponyalpha被认为逼近Opus4.5 ),当前榜单数据未出,海外博主AICodeKing给出一个评测数值,代理编程分值589分,全球榜首,超过ClaudeOpus4.6的585分。 编程能力:有很大提升,agent展现出 【智谱GLM5】信息速评:可能是第一个类似于ClaudeOpus级别的开源架构模型 水平:外网测评称相当于ClaudeOpus4.6的水平(此前的ponyalpha被认为逼近Opus4.5),当前榜单数据未出,海外博主AICodeKing给出一个评测数值,代理编程分值589分,全球榜首,超过ClaudeOpus4.6的585分。 有很大提升,agent展现出自主规划意识、解决了前代模型在长程任务中容易忘记细节或缺乏全局规划的问题。 它能够进行文件检查、系统架构校验并提出完整方案;参数: 根据reddit泄露及YouTube内侧博主测评,采用DeepSeek同款的稀疏注意力机制+tokens预测MTP,GLM-5参数可能达到7440亿,激活参数400亿,激活率5%(GLM4.7是3550亿,激活参数320亿,激活率9%),上下文200K。 智能交互:当提示词模糊或模型感到困惑时,它会主动询问用户以明确需求,而不再像旧版本那样盲目执行(与claude 类似)。 上下文召回:博主测评各个长度上下文召回均在98% 以上,可能置信度有差异,但是也是不错的水平了。 同组任务成本(海外博主数据):GLM-5:0.14美元Opus-4.6:6.39美元Gemini-3-Pro:0.85美元总结:参照之前的ponyalpha,能力提升反馈集中在“长程任务、复杂工程、工具调用”,多次出现“逼近Opus4.5”的说法,而最新的一些针对GLM5的测评甚至提出了beatOpus4.6的说法,同时在coding能力大幅提升的前提下,成本优势显著。