您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [中邮证券]:AI动态汇总:openAI发布GPT-5,Claude Opus 4.1上线 - 发现报告

AI动态汇总:openAI发布GPT-5,Claude Opus 4.1上线

2025-08-12 肖承志,冯昱文 中邮证券 罗鑫涛Robin
报告封面

研究所 金工周报 证券研究报告:金融工程报告 发布时间:2025-08-12 分析师:肖承志 SAC登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com OpenAI发布GPT-5,ClaudeOpus4.1上线——AI动态汇总20250811 研究助理:冯昱文 SAC登记编号:S1340124100011 近期研究报告 Email:fengyuwen@cnpsec.com 《融资余额新高,创新药光通信调整,指数预期仍将震荡上行挑战前高——行业轮动周报20250810》-2025.08.11 《基本面因子表现不佳,小盘风格明显 ——中邮因子周报20250803》-2025.08.04 《小市值占优,低波反转显著——中邮因子周报20250727》-2025.07.28 《微盘股的流动性风险在哪?——微盘股指数周报20250720》-2025.07.21 《大金融表现居前助指数突破,GRU行业轮动调入非银行金融——行业轮动周报20250713》-2025.07.14 《低估值高盈利,基本面表现占优——中邮因子周报20250706》-2025.07.07 《基于宏观经济状态划分的BL模型与 ETF实践》-2025.07.01 《反转风格显著,小市值回撤——中邮因子周报20250622》-2025.06.23 《关注基本面支撑,高波风格占优— —中邮因子周报20250615》-2025.06.16 《结合基本面和量价特征的GRU模型》-2025.06.05 《Claude4系列发布,谷歌上线编程智能体Jules——AI动态汇总20250526》-2025.05.27 OpenAI发布GPT-5 OpenAI于2025年8月8日正式发布了其新一代人工智能模型GPT-5,标志着该公司在通用人工智能发展道路上迈出了重要一步。这一模型被OpenAI首席执行官山姆·奥尔特曼称为“世界上最好的模型”,其核心理念是实用性与普及性,而非单纯追求技术炫技。GPT-5采用了“Allinone”策略,首次将GPT系列的语言生成能力与o系列的深度推理能力整合为统一的多模态架构,通过智能路由系统自动判断问题复杂度并调用相应子模型处理,从而实现了从快速响应到专家级解答的全覆盖。这种设计使得用户无需手动切换模型,系统会根据对话类型、工具需求和意图自动选择最优处理方式,显著提升了用户体验的流畅度。 ClaudeOpus4.1上线,代码能力惊人 。Anthropic于2025年8月6日发布的ClaudeOpus4.1标志着AI代码能力的又一次重大突破,其核心升级聚焦于智能体任务、真实世界编程和深度推理三大领域。该模型在权威的SWE-benchVerified基准测试中取得74.5%的准确率,不仅超越前代Opus4的72.5%,更领先OpenAIo系列模型约5个百分点,成为当前公开报告中编程性能最强的AI模型。这一成绩源自其多文件代码重构能力的显著提升,GitHub技术团队证实其能协调修改复杂代码库中的多个关联文件,而日本乐天集团则发现其可精准定位大型代码库的缺陷且避免引入新错误,这种精确性使其成为日常调试的首选工具。 Jules正式上线 谷歌于2025年8月7日正式推出的异步AI编程智能体工具Jules,标志着AI辅助编程从代码补全工具向全流程自主代理的范式升级。这款基于Gemini2.5Pro多模态模型构建的产品,通过深度集成GitHub工作流和云端虚拟机技术,实现了开发者分配任务后即可关闭电脑的异步操作模式,彻底重构了人机协作的编程范式。 腾讯AILab开源智能体框架CognitiveKernel-Pro 腾讯AILab于2025年8月推出的CognitiveKernel-Pro智能体框架,代表了开源深度研究智能体领域的一次范式革新。该框架通过全开源架构与创新性设计,解决了当前智能体系统普遍依赖付费工具的核心痛点,其技术突破主要体现在模块化架构、训练数据构建和推理优化三大维度。 风险提示: 以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。 目录 1AI重点要闻4 1.1OpenAI发布GPT-54 1.2ClaudeOpus4.1上线,代码能力惊人7 1.3谷歌Jules正式上线9 1.4腾讯AILab开源智能体框架CognitiveKernel-Pro10 2企业动态13 2.1腾讯混元0.5B、1.8B、4B、7B模型开源发布13 2.2小红书开源首个多模态大模型dots.vlm116 3AI行业洞察18 3.1谷歌GeminiAI推出“引导式学习”功能18 4技术前沿19 4.1业界首个核心认知基准发布19 5风险提示22 图表目录 图表1:GPT-5代码能力提升明显4 图表2:GPT-5更低的幻觉率5 图表3:GPT-5推理更加高效6 图表4:Opus4.1评测7 图表5:Opus4.1代码能力持续提升8 图表6:GAIA跑分11 图表7:CognitiveKernel-Pro架构11 图表8:Hunyuan7B在主流基准上的得分14 图表9:Hunyuan0.5B、1.8B、4B在主流基准上的得分15 图表10:dots.vlm1在不同基准上跑分16 图表11:多模态大语言模型中的核心知识缺失19 图表12:控制vs.操纵精度21 1AI重点要闻 1.1OpenAI发布GPT-5 OpenAI于2025年8月8日正式发布了其新一代人工智能模型GPT-5,标志着该公司在通用人工智能发展道路上迈出了重要一步。这一模型被OpenAI首席执行官山姆·奥尔特曼称为“世界上最好的模型”,其核心理念是实用性与普及性,而非单纯追求技术炫技。GPT-5采用了“Allinone”策略,首次将GPT系列的语言生成能力与o系列的深度推理能力整合为统一的多模态架构,通过智能路由系统自动判断问题复杂度并调用相应子模型处理,从而实现了从快速响应到专家级解答的全覆盖。这种设计使得用户无需手动切换模型,系统会根据对话类型、工具需求和意图自动选择最优处理方式,显著提升了用户体验的流畅度。 图表1:GPT-5代码能力提升明显 资料来源:OpenAI,中邮证券研究所 在技术性能上,GPT-5宣称在编程、数学、写作、健康咨询和视觉感知等领域达到业界领先水平。其编程能力尤为突出,能够根据简单提示生成完整的网页、应用程序甚至游戏,在SWE-bench测试中以74.9%的成绩超越竞争对手Anthropic的ClaudeOpus4.1。健康领域则通过减少幻觉和错误生成提升了可靠性,据称 在紧急医疗情况下的错误率比GPT-4o降低50倍以上。然而第三方测评机构Vectara的数据显示,GPT-5的幻觉率为1.3%,排名第十一位,反而落后于前代模型OpenAIo3的第三名成绩,其缩减版mini和nano模型的幻觉问题更为明显。 图表2:GPT-5更低的幻觉率 资料来源:OpenAI,中邮证券研究所 商业化策略是GPT-5的显著特征。OpenAI首次大幅降低API价格,标准版定价仅为Claude4Opus的十二分之一,同时推出GPT-5-mini和GPT-5-nano等不同规格版本以适应多样化需求。免费用户可有限体验基础功能,付费用户则享有更高额度或无限使用权,Pro版本还提供扩展推理能力的GPT-5-pro。这种分层模式配合微软等合作伙伴的快速接入,显露出OpenAI从技术导向转向市场占领的战略意图。值得注意的是,GPT-5训练成本高达5亿美元,但智能提升未能与成本增长形成等比,这印证了前OpenAI联合创始人伊利亚·苏茨克维关于“预训练时代终结”的预言,即依赖数据规模扩张的模型改进已触及瓶颈。 图表3:GPT-5推理更加高效 资料来源:OpenAI,中邮证券研究所 发布会上的争议与缺陷同样引人关注。演示环节中,GPT-5在解释伯努利原理时出现机翼升力原理的科学性错误,生成的交互模型也与实际物理规律不符;性能跑分图表甚至出现“52.8>69.1”的数值倒置。这些瑕疵使得部分业内人士质疑其“博士级专家”的定位,硅谷AI初创公司创始人肖特特指出,该模型并未展现出超越其他产品的独特能力。用户体验方面,虽然GPT-5优化了界面设计和情绪价值功能,提供犬儒、学霸等四种预设性格,但中文处理不佳、画板卡顿等问题仍遭用户诟病。 从行业视角看,GPT-5的发布重启了人工智能竞赛。其整合式架构和价格战策略直接挑战谷歌Gemini、AnthropicClaude等竞争对手,而中国模型如阿里通义千问和DeepSeek也在全球开源榜单中占据半数席位,形成技术对峙格局。OpenAI将此次发布比作“初代iPhone时刻”,强调其改变人机交互范式的潜力,但《麻省理工科技评论》等媒体认为,GPT-5更像是现有功能的优化迭代,而非颠覆性突破。该公司未来三年计划投入450亿美元用于服务器租赁,持续的商业化投入与核心技术突破之间的平衡,将成为影响AI行业走向的关键变量。 1.2ClaudeOpus4.1上线,代码能力惊人 Anthropic于2025年8月6日发布的ClaudeOpus4.1标志着AI代码能力的又一次重大突破,其核心升级聚焦于智能体任务、真实世界编程和深度推理三大领域。该模型在权威的SWE-benchVerified基准测试中取得74.5%的准确率,不仅超越前代Opus4的72.5%,更领先OpenAIo系列模型约5个百分点,成为当前公开报告中编程性能最强的AI模型。这一成绩源自其多文件代码重构能力的显著提升,GitHub技术团队证实其能协调修改复杂代码库中的多个关联文件,而日本乐天集团则发现其可精准定位大型代码库的缺陷且避免引入新错误,这种精确性使其成为日常调试的首选工具。 图表4:Opus4.1评测 资料来源:Anthropic,中邮证券研究所 技术实现上,Opus4.1通过扩展思维机制强化了长程任务处理能力,支持单次32K下文输出,在终端编程测试Terminal-Bench中达到43.3%的得分。其独特优势在于将架构师级代码规范理解与初级开发者的执行效率结合,例如Windsurf公司测试显示其性能提升相当于从Sonnet3.7到Sonnet4的跨越, 而独立评测者"karminski-牙医"的对比实验显示,在空间理解和代码稳定性方面,Opus4.1远超OpenAI-OSS-120B和Gemini2.5Pro等竞品。实际应用中,该模型能根据单句需求自主规划、编写并测试新功能,甚至清理"屎山代码"统一项目风格,连续工作7小时不中断的特性使其成为企业级开发的可靠助手。 图表5:Opus4.1代码能力持续提升 资料来源:Anthropic,中邮证券研究所 商业化策略上,Anthropic保持"加量不加价"原则,API定价维持15美元/百万tokens输入和75美元/百万tokens输出的标准,并通过ClaudeCode工具链直接嵌入开发者工作流。这种"顶尖模型+专用工具"的组合拳,与OpenAI形成差异化竞争——当GPT-5以74.9%的SWE-bench成绩反超时,Opus4.1仍凭借结构化数据处理优势在特定场景保持竞争力,例如在HCORES测试中展现出的空间理解稳定性远超随机性较大的开源大模型。第三方测评显示,其推理过程可视化功能尤其适合学术研究,在研究生级GPQA测试中取得80.9%的得分,但多模态处理仍是短板,视觉推理得分77.1%落后于Gemini2.5Pro的82%。 行业影响层面,Opus4.1的发布加剧了AI编程助手市场的竞争白热化。Cursor编辑器率先集成该模型,而亚马逊Bedrock和谷歌VertexAI的同步支持使其快速渗透企业云服务。尽管后续GPT-5在价格和基准测试上形成压制,但Anthropic通过专注垂直领域构建护城河——例如在TAU-bench航空业测试中56% 的得分虽低于自家Sonnet4,却仍显著优于OpenAIo3的52%