您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中邮证券]:AI动态汇总20250804:智谱发布GLM-4.5,蚂蚁数科发布金融推理大模型Agentar-Fin-R1 - 发现报告

AI动态汇总20250804:智谱发布GLM-4.5,蚂蚁数科发布金融推理大模型Agentar-Fin-R1

2025-08-06肖承志、冯昱文中邮证券胡***
AI智能总结
查看更多
AI动态汇总20250804:智谱发布GLM-4.5,蚂蚁数科发布金融推理大模型Agentar-Fin-R1

发布时间:2025-08-06 研究所 金工周报 分析师:肖承志SAC登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC登记编号:S1340124100011Email:fengyuwen@cnpsec.com 智谱发布GLM-4.5,蚂蚁数科发布金融推理大模型Agentar-Fin-R1——AI动态汇总20250804 ⚫智谱发布GLM-4.5 智谱于2025年7月28日正式发布的GLM-4.5系列大模型,标志着国产大模型技术从参数规模竞赛转向能力整合与智能体应用落地的关键转折。该模型以原生融合智能体能力为核心突破点,通过混合专家架构、高参数效率及开源生态策略,重新定义了通用人工智能的实践路径。 近期研究报告 《基本面因子表现不佳,小盘风格明显— —中 邮 因 子 周 报20250803》-2025.08.04 ⚫蚂蚁数科发布金融推理大模型Agentar-Fin-R1 《小市值占优,低波反转显著——中邮因子周报20250727》-2025.07.28 蚂蚁数科于2025年7月28日在世界人工智能大会上发布的金融推理大模型Agentar-Fin-R1,标志着金融垂直领域大模型技术从通用能力向专业化、场景化能力的重大跨越。该模型基于Qwen3架构研发,以“可靠、可控、可优化”为核心设计理念,通过金融知识体系重构、动态训练算法创新与开源生态建设,为金融机构提供覆盖全场景的智能中枢解决方案。 《微盘股的流动性风险在哪?——微盘 股 指 数 周 报20250720》-2025.07.21 《大金融表现居前助指数突破,GRU行业轮动调入非银行金融——行业轮动周报20250713》-2025.07.14 ⚫商汤发布“悟能”具身智能平台 商汤科技于2025年7月27日在世界人工智能大会(WAIC)上发布的“悟能”具身智能平台,标志着AI技术从数字世界向物理世界交互的关键跃迁。该平台以“开悟”世界模型为核心引擎,通过多模态感知、空间计算与硬件生态协同,重新定义了具身智能的实践范式。 《低估值高盈利,基本面表现占优——中 邮 因 子 周 报20250706》-2025.07.07 《基于宏观经济状态划分的BL模型与ETF实践》-2025.07.01 ⚫京东推出附身智能品牌JoyInside 京东于2025年7月27日在世界人工智能大会(WAIC)上发布的附身智能品牌JoyInside,标志着人机交互从功能化向情感化跃迁的关键突破。该平台以京东JoyAI大模型为核心引擎,通过多模态技术融合与开放生态战略,重构了智能硬件产业的底层交互逻辑。 《反转风格显著,小市值回撤——中邮因子周报20250622》-2025.06.23 《关注基本面支撑,高波风格占优——中邮因子周报20250615》-2025.06.16 ⚫风险提示: 以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。 《结合基本面和量价特征的GRU模型》-2025.06.05 《Claude 4系列发布,谷歌上线编程智能体Jules——AI动态汇总20250526》-2025.05.27 《谷歌发布智能体白皮书,Manus全面开放注册——AI动态汇总20250519》-2025.05.20 目录 1 AI重点要闻..............................................................................41.1智谱发布GLM-4.5.....................................................................41.2蚂蚁数科发布金融推理大模型Agentar-Fin-R1............................................71.3商汤发布“悟能”具身智能平台.........................................................91.4京东推出附身智能品牌JoyInside......................................................112企业动态................................................................................132.1字节Seed团队推出Seed Diffusion Preview模型........................................132.2通义千问更新Qwen3-30B-A3B..........................................................163 AI行业洞察.............................................................................183.1腾讯Robotics X实验室与福田实验室发布具身智能开放平台Tairos.........................184技术前沿................................................................................204.1 Goedel-Prover-V2:8B参数击败671B的DeepSeek-Prover..................................205风险提示................................................................................23 图表目录 图表1:GLM-4.5常见基准评测...........................................................4图表2:GLM-4.5智能体任务基准测评.....................................................5图表3:SWE-bench下帕累托前沿分析,GLM-4.5表现更优....................................6图表4:Agentar-Fin-R1架构............................................................7图表5:商汤展示机器人进行PPT汇报.....................................................9图表6:商汤”开悟”世界模型生成逼真的七路摄像头视角模拟数据.............................10图表7:京东JoyInside解决方案全景图..................................................12图表8:Seed Diffusion在代码基准上的表现..............................................14图表9:Seed Diffusion在不同任务上表现优异............................................15图表10:Qwen3-30B-A3B-Instruct-2507跑分..............................................16图表11:Goedel-Prover-V2在多个IMO级别的基准上通过Pass@32性能测试...................21图表12:不同样本预算下MiniF2F测试集上的表现........................................22 1AI重点要闻 1.1智谱发布GLM-4.5 智谱于2025年7月28日正式发布的GLM-4.5系列大模型,标志着国产大模型技术从参数规模竞赛转向能力整合与智能体应用落地的关键转折。该模型以原生融合智能体能力为核心突破点,通过混合专家架构、高参数效率及开源生态策略,重新定义了通用人工智能的实践路径。 资料来源:z.ai,中邮证券研究所 GLM-4.5首次在单一模型中实现推理、编码与智能体能力的原生融合,其设计哲学源于对AGI第一性原理的重新诠释——即在保留通用能力的前提下整合专项技能。模型采用混合专家架构,包含两个版本:GLM-4.5总参数量3550亿,单次推理激活参数320亿;GLM-4.5-Air总参数量1060亿,激活参数120亿。这种架构通过动态路由机制仅激活任务相关专家网络,显著提升计算效率。训练流程分为三阶段:先在15万亿通用文本上预训练建立通识基础,再以8万亿代 码、推理及智能体专项数据精调,最终通过强化学习对齐多任务能力。值得注意的是,模型采用“深度优先”设计,减少网络宽度而增加层数至96层,配合部分旋转位置编码与分组查询注意力机制,使复杂推理任务的性能提升37%。 资料来源:z.ai,中邮证券研究所 在涵盖AGI核心能力的12项评测中,GLM-4.5以63.2综合分位列全球第三,超越DeepSeek-R1与Kimi-K2,成为国产与开源模型双料冠军。其智能体能力尤为突出:在网页交互基准BrowseComp中准确率达26.4%,超越Claude-4-Opus的18.8%;代码修复任务SWE-bench Verified得分64.2,工具调用成功率超90%。对比测试显示,GLM-4.5在52个真实编程任务中,对Qwen3-Coder的胜率达80.8%,虽略逊于Claude-4-Sonnet的50%败率,但已实现多数场景平替。这种高效能得益于参数效率优化——其参数量仅为DeepSeek-R1的1/2,却在同等测试中表现更优,形成性能/参数比的帕累托前沿。 GLM-4.5被定位为“能执行、能调度、能构建系统”的智能地基。实际案例显示其可独立完成全栈开发:用户通过自然语言指令生成功能完整的“谷歌搜索”网页、支持弹幕交互的“B站”模拟器及HTML5游戏《Flappy Bird》。在自动化办公场景中,模型能根据关键词自动生成图文混排PPT,串联文案创作、数据检索与多模态调度。这种能力源于128K长上下文支持与原生函数调用设计,使模型可直接调度浏览器、数据库等外部工具,而非依赖后期插件集成。工程部署方面,模型提供双模式运行——思考模式用于复杂任务规划,非思考模式实现100+tokens/秒的即时响应,兼顾深度与效率。 资料来源:z.ai,中邮证券研究所 GLM-4.5通过全面开源与低价API策略冲击市场:模型权重在Hugging Face与ModelScope采用MIT协议开源,允许商业二次开发;API定价低至输入0.8元/百万tokens,不足Claude-4-Sonnet的1/10。这种策略迅速引发生态效应,发布12小时内登顶Hugging Face榜单全球第二,被彭博社评价为“中国AI易获取趋势的典范”。智谱CEO张鹏强调,AGI发展需打破能力割裂,而GLM-4.5的实践证明,通过架构创新可将分散的专项能力整合为“全优生”型智能体。尽管在编程任务中仍存在10%的可靠性差距,但其开源属性与真实场景表现,已推动国产模型进入国际竞争核心圈层。 从技术史视角看,GLM-4.5的发布不仅是版本迭代,更是AI发展范式的重构。它以原生智能体能力为锚点,将高参数效率、低成本部署与开源生态结合,为工业级应用提供了新地基。随着其生态扩展,这种“能力整合优先于规模扩张”的路径,或将成为全球AGI研发的重要参照系。 1.2蚂蚁数科发布金融推理大模型Agentar-Fin-R1 蚂蚁数科于2025年7