行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI动态汇总：openAI发布GPT-5，Claude Opus 4.1上线

2025-08-12 肖承志,冯昱文中邮证券罗鑫涛Robin

AI重点要闻

1.1 OpenAI发布GPT-5

GPT-5整合了GPT系列的语言生成能力和o系列的深度推理能力，采用"All in one"策略，通过智能路由系统自动选择最优处理方式。
GPT-5在编程、数学、写作、健康咨询和视觉感知等领域达到业界领先水平，编程能力尤为突出，在SWE-bench测试中以74.9%的成绩超越竞争对手Anthropic的Claude Opus 4.1。
GPT-5的幻觉率为1.3%，排名第十一位，落后于前代模型OpenAI o3的第三名成绩。
OpenAI首次大幅降低API价格，标准版定价仅为Claude 4 Opus的十二分之一，并推出GPT-5-mini和GPT-5-nano等不同规格版本。
GPT-5训练成本高达5亿美元，但智能提升未能与成本增长形成等比。

1.2 Claude Opus 4.1上线，代码能力惊人

Claude Opus 4.1在权威的SWE-bench Verified基准测试中取得74.5%的准确率，成为当前公开报告中编程性能最强的AI模型。
Opus 4.1通过扩展思维机制强化了长程任务处理能力，支持单次32K下文输出，在终端编程测试Terminal-Bench中达到43.3%的得分。
Opus 4.1将架构师级代码规范理解与初级开发者的执行效率结合，在空间理解和代码稳定性方面远超OpenAI-OSS-120B和Gemini 2.5 Pro等竞品。
Anthropic保持"加量不加价"原则，API定价维持15美元/百万tokens输入和75美元/百万tokens输出，并通过Claude Code工具链直接嵌入开发者工作流。

1.3 谷歌Jules正式上线

谷歌推出的异步AI编程智能体工具Jules，通过深度集成GitHub工作流和云端虚拟机技术，实现了开发者分配任务后即可关闭电脑的异步操作模式。
Jules展现出多模态代码理解能力、云端隔离执行环境和透明化控制机制三大创新维度。
Jules采用阶梯式定价模型冲击市场，免费用户每日可执行15个任务，付费层则整合进Google AI Pro和Ultra套餐。
Jules的发布加剧了AI编程工具市场的竞争烈度，其异步代理架构直击GitHub Copilot和OpenAI Codex的同步操作短板。

1.4 腾讯AI Lab开源智能体框架Cognitive Kernel-Pro

腾讯AI Lab开源的Cognitive Kernel-Pro智能体框架，通过全开源架构与创新性设计，解决了当前智能体系统普遍依赖付费工具的核心痛点。
框架设计的核心在于层次化多智能体协同系统，主智能体负责全局规划与子任务分解，专业化子智能体通过标准化文本接口与主智能体交互。
训练数据构建方法展现了独创性思维，通过多跳信息聚合技术让智能体自主浏览种子URL并组合跨源信息生成复杂问题。
推理时优化机制通过反思机制和投票机制提升鲁棒性。
在GAIA全集测试中，使用Claude-3.7的版本Pass@3达70.91%，超越依赖付费工具的OWL框架仅3个百分点。

企业动态

2.1 腾讯混元0.5B、1.8B、4B、7B模型开源发布

腾讯混元开源四款小尺寸模型（参数规模分别为0.5B、1.8B、4B、7B），专为低功耗场景设计，覆盖手机、笔记本电脑、智能座舱及智能家居等终端设备。
四款模型均采用融合推理设计，创新性地引入快慢思考双模式切换机制。
模型的核心竞争力体现在智能体（Agent）与长文本处理能力的突破，256k的原生长上下文窗口可一次性处理相当于40万汉字或50万英文单词的内容量。
四款模型已在腾讯生态内形成多元化应用矩阵，并在GitHub和Hugging Face社区全面开放。

2.2 小红书开源首个多模态大模型dots.vlm1

小红书开源的首个多模态大模型dots.vlm1，基于自研12亿参数NaViT视觉编码器与DeepSeek V3大语言模型构建。
dots.vlm1采用三组件协同设计，在视觉理解与推理任务上展现出接近闭源SOTA模型的性能，同时保持文本任务的竞争力。
模型采用三阶段渐进式训练，在MathVista测试中达到85分，仅落后Seed-VL1.5 thinking的86.1分。
dots.vlm1展现出类人的多模态认知水平，不仅能精准识别红绿色盲测试图中的数字，还能解析数独问题并自主纠错。

AI行业洞察

3.1 谷歌Gemini AI推出“引导式学习”功能

谷歌推出的Gemini AI"引导式学习"功能，通过多模态交互与渐进式引导机制，将传统AI助手的单向应答模式重构为双向协作的学习伙伴关系。
引导式学习通过三层架构重塑知识传递路径，问题分解引擎、动态评估模块和多模态反馈系统协同工作。
谷歌采取教育优先策略强化市场渗透，面向美、日、印尼等五国学生提供免费AI Pro年度订阅，并推出10亿美元教育基金。

技术前沿

4.1 业界首个核心认知基准发布

Yijiang Li等学者合作完成的论文《Core Knowledge Deficits in Multi-Modal Language Models》系统性地探讨了当前多模态大语言模型在基础认知能力上的结构性缺陷。
研究构建了包含12项核心认知能力的评估体系CoreCognition，并通过230个模型、11种提示策略的2530次实验验证了模型存在的核心知识缺失现象。
研究发现模型在低阶核心能力上的表现显著落后于高阶能力，能力间依赖关系错位，模型规模扩大并未改善核心知识缺陷。

风险提示

以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。

研究所金工周报证券研究报告：金融工程报告发布时间：2025-08-12 分析师:肖承志 SAC登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com OpenAI发布GPT-5，ClaudeOpus4.1上线——AI动态汇总20250811 研究助理:冯昱文 SAC登记编号:S1340124100011 近期研究报告 Email:fengyuwen@cnpsec.com 《融资余额新高，创新药光通信调整，指数预期仍将震荡上行挑战前高——行业轮动周报20250810》-2025.08.11 《基本面因子表现不佳，小盘风格明显 ——中邮因子周报20250803》-2025.08.04 《小市值占优，低波反转显著——中邮因子周报20250727》-2025.07.28 《微盘股的流动性风险在哪？——微盘股指数周报20250720》-2025.07.21 《大金融表现居前助指数突破，GRU行业轮动调入非银行金融——行业轮动周报20250713》-2025.07.14 《低估值高盈利，基本面表现占优——中邮因子周报20250706》-2025.07.07 《基于宏观经济状态划分的BL模型与 ETF实践》-2025.07.01 《反转风格显著，小市值回撤——中邮因子周报20250622》-2025.06.23 《关注基本面支撑，高波风格占优— —中邮因子周报20250615》-2025.06.16 《结合基本面和量价特征的GRU模型》-2025.06.05 《Claude4系列发布，谷歌上线编程智能体Jules——AI动态汇总20250526》-2025.05.27 OpenAI发布GPT-5 OpenAI于2025年8月8日正式发布了其新一代人工智能模型GPT-5，标志着该公司在通用人工智能发展道路上迈出了重要一步。这一模型被OpenAI首席执行官山姆·奥尔特曼称为“世界上最好的模型”，其核心理念是实用性与普及性，而非单纯追求技术炫技。GPT-5采用了“Allinone”策略，首次将GPT系列的语言生成能力与o系列的深度推理能力整合为统一的多模态架构，通过智能路由系统自动判断问题复杂度并调用相应子模型处理，从而实现了从快速响应到专家级解答的全覆盖。这种设计使得用户无需手动切换模型，系统会根据对话类型、工具需求和意图自动选择最优处理方式，显著提升了用户体验的流畅度。 ClaudeOpus4.1上线，代码能力惊人。Anthropic于2025年8月6日发布的ClaudeOpus4.1标志着AI代码能力的又一次重大突破，其核心升级聚焦于智能体任务、真实世界编程和深度推理三大领域。该模型在权威的SWE-benchVerified基准测试中取得74.5%的准确率，不仅超越前代Opus4的72.5%，更领先OpenAIo系列模型约5个百分点，成为当前公开报告中编程性能最强的AI模型。这一成绩源自其多文件代码重构能力的显著提升，GitHub技术团队证实其能协调修改复杂代码库中的多个关联文件，而日本乐天集团则发现其可精准定位大型代码库的缺陷且避免引入新错误，这种精确性使其成为日常调试的首选工具。 Jules正式上线谷歌于2025年8月7日正式推出的异步AI编程智能体工具Jules，标志着AI辅助编程从代码补全工具向全流程自主代理的范式升级。这款基于Gemini2.5Pro多模态模型构建的产品，通过深度集成GitHub工作流和云端虚拟机技术，实现了开发者分配任务后即可关闭电脑的异步操作模式，彻底重构了人机协作的编程范式。 腾讯AILab开源智能体框架CognitiveKernel-Pro 腾讯AILab于2025年8月推出的CognitiveKernel-Pro智能体框架，代表了开源深度研究智能体领域的一次范式革新。该框架通过全开源架构与创新性设计，解决了当前智能体系统普遍依赖付费工具的核心痛点，其技术突破主要体现在模块化架构、训练数据构建和推理优化三大维度。 风险提示：以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。目录 1AI重点要闻4 1.1OpenAI发布GPT-54 1.2ClaudeOpus4.1上线，代码能力惊人7 1.3谷歌Jules正式上线9 1.4腾讯AILab开源智能体框架CognitiveKernel-Pro10 2企业动态13 2.1腾讯混元0.5B、1.8B、4B、7B模型开源发布13 2.2小红书开源首个多模态大模型dots.vlm116 3AI行业洞察18 3.1谷歌GeminiAI推出“引导式学习”功能18 4技术前沿19 4.1业界首个核心认知基准发布19 5风险提示22 图表目录图表1：GPT-5代码能力提升明显4 图表2：GPT-5更低的幻觉率5 图表3：GPT-5推理更加高效6 图表4：Opus4.1评测7 图表5：Opus4.1代码能力持续提升8 图表6：GAIA跑分11 图表7：CognitiveKernel-Pro架构11 图表8：Hunyuan7B在主流基准上的得分14 图表9：Hunyuan0.5B、1.8B、4B在主流基准上的得分15 图表10：dots.vlm1在不同基准上跑分16 图表11：多模态大语言模型中的核心知识缺失19 图表12：控制vs.操纵精度21 1AI重点要闻 1.1OpenAI发布GPT-5 OpenAI于2025年8月8日正式发布了其新一代人工智能模型GPT-5，标志着该公司在通用人工智能发展道路上迈出了重要一步。这一模型被OpenAI首席执行官山姆·奥尔特曼称为“世界上最好的模型”，其核心理念是实用性与普及性，而非单纯追求技术炫技。GPT-5采用了“Allinone”策略，首次将GPT系列的语言生成能力与o系列的深度推理能力整合为统一的多模态架构，通过智能路由系统自动判断问题复杂度并调用相应子模型处理，从而实现了从快速响应到专家级解答的全覆盖。这种设计使得用户无需手动切换模型，系统会根据对话类型、工具需求和意图自动选择最优处理方式，显著提升了用户体验的流畅度。图表1：GPT-5代码能力提升明显资料来源：OpenAI，中邮证券研究所在技术性能上，GPT-5宣称在编程、数学、写作、健康咨询和视觉感知等领域达到业界领先水平。其编程能力尤为突出，能够根据简单提示生成完整的网页、应用程序甚至游戏，在SWE-bench测试中以74.9%的成绩超越竞争对手Anthropic的ClaudeOpus4.1。健康领域则通过减少幻觉和错误生成提升了可靠性，据称在紧急医疗情况下的错误率比GPT-4o降低50倍以上。然而第三方测评机构Vectara的数据显示，GPT-5的幻觉率为1.3%，排名第十一位，反而落后于前代模型OpenAIo3的第三名成绩，其缩减版mini和nano模型的幻觉问题更为明显。图表2：GPT-5更低的幻觉率资料来源：OpenAI，中邮证券研究所商业化策略是GPT-5的显著特征。OpenAI首次大幅降低API价格，标准版定价仅为Claude4Opus的十二分之一，同时推出GPT-5-mini和GPT-5-nano等不同规格版本以适应多样化需求。免费用户可有限体验基础功能，付费用户则享有更高额度或无限使用权，Pro版本还提供扩展推理能力的GPT-5-pro。这种分层模式配合微软等合作伙伴的快速接入，显露出OpenAI从技术导向转向市场占领的战略意图。值得注意的是，GPT-5训练成本高达5亿美元，但智能提升未能与成本增长形成等比，这印证了前OpenAI联合创始人伊利亚·苏茨克维关于“预训练时代终结”的预言，即依赖数据规模扩张的模型改进已触及瓶颈。图表3：GPT-5推理更加高效资料来源：OpenAI，中邮证券研究所发布会上的争议与缺陷同样引人关注。演示环节中，GPT-5在解释伯努利原理时出现机翼升力原理的科学性错误，生成的交互模型也与实际物理规律不符；性能跑分图表甚至出现“52.8＞69.1”的数值倒置。这些瑕疵使得部分业内人士质疑其“博士级专家”的定位，硅谷AI初创公司创始人肖特特指出，该模型并未展现出超越其他产品的独特能力。用户体验方面，虽然GPT-5优化了界面设计和情绪价值功能，提供犬儒、学霸等四种预设性格，但中文处理不佳、画板卡顿等问题仍遭用户诟病。从行业视角看，GPT-5的发布重启了人工智能竞赛。其整合式架构和价格战策略直接挑战谷歌Gemini、AnthropicClaude等竞争对手，而中国模型如阿里通义千问和DeepSeek也在全球开源榜单中占据半数席位，形成技术对峙格局。OpenAI将此次发布比作“初代iPhone时刻”，强调其改变人机交互范式的潜力，但《麻省理工科技评论》等媒体认为，GPT-5更像是现有功能的优化迭代，而非颠覆性突破。该公司未来三年计划投入450亿美元用于服务器租赁，持续的商业化投入与核心技术突破之间的平衡，将成为影响AI行业走向的关键变量。 1.2ClaudeOpus4.1上线，代码能力惊人 Anthropic于2025年8月6日发布的ClaudeOpus4.1标志着AI代码能力的又一次重大突破，其核心升级聚焦于智能体任务、真实世界编程和深度推理三大领域。该模型在权威的SWE-benchVerified基准测试中取得74.5%的准确率，不仅超越前代Opus4的72.5%，更领先OpenAIo系列模型约5个百分点，成为当前公开报告中编程性能最强的AI模型。这一成绩源自其多文件代码重构能力的显著提升，GitHub技术团队证实其能协调修改复杂代码库中的多个关联文件，而日本乐天集团则发现其可精准定位大型代码库的缺陷且避免引入新错误，这种精确性使其成为日常调试的首选工具。图表4：Opus4.1评测资料来源：Anthropic，中邮证券研究所技术实现上，Opus4.1通过扩展思维机制强化了长程任务处理能力，支持单次32K下文输出，在终端编程测试Terminal-Bench中达到43.3%的得分。其独特优势在于将架构师级代码规范理解与初级开发者的执行效率结合，例如Windsurf公司测试显示其性能提升相当于从Sonnet3.7到Sonnet4的跨越，而独立评测者"karminski-牙医"的对比实验显示，在空间理解和代码稳定性方面，Opus4.1远超OpenAI-OSS-120B和Gemini2.5Pro等竞品。实际应用中，该模型能根据单句需求自主规划、编写并测试新功能，甚至清理"屎山代码"统一项目风格，连续工作7小时不中断的特性使其成为企业级开发的可靠助手。图表5：Opus4.1代码能力持续提升资料来源：Anthropic，中邮证券研究所商业化策略上，Anthropic保持"加量不加价"原则，API定价维持15美元/百万tokens输入和75美元/百万tokens输出的标准，并通过ClaudeCode工具链直接嵌入开发者工作流。这种"顶尖模型+专用工具"的组合拳，与OpenAI形成差异化竞争——当GPT-5以74.9%的SWE-bench成绩反超时，Opus4.1仍凭借结构化数据处理优势在特定场景保持竞争力，例如在HCORES测试中展现出的空间理解稳定性远超随机性较大的开源大模型。第三方测评显示，其推理过程可视化功能尤其适合学术研究，在研究生级GPQA测试中取得80.9%的得分，但多模态处理仍是短板，视觉推理得分77.1%落后于Gemini2.5Pro的82%。行业影响层面，Opus4.1的发布加剧了AI编程助手市场的竞争白热化。Cursor编辑器率先集成该模型，而亚马逊Bedrock和谷歌VertexAI的同步支持使其快速渗透企业云服务。尽管后续GPT-5在价格和基准测试上形成压制，但Anthropic通过专注垂直领域构建护城河——例如在TAU-bench航空业测试中56% 的得分虽低于自家Sonnet4，却仍显著优于OpenAIo3的52%

点击免费查看完整报告

AI动态汇总：openAI发布GPT-5，Claude Opus 4.1上线

AI重点要闻

1.1 OpenAI发布GPT-5

1.2 Claude Opus 4.1上线，代码能力惊人

1.3 谷歌Jules正式上线

1.4 腾讯AI Lab开源智能体框架Cognitive Kernel-Pro

企业动态

2.1 腾讯混元0.5B、1.8B、4B、7B模型开源发布

2.2 小红书开源首个多模态大模型dots.vlm1

AI行业洞察

3.1 谷歌Gemini AI推出“引导式学习”功能

技术前沿

4.1 业界首个核心认知基准发布

风险提示

你可能感兴趣

OpenAI发布GPT-5，Claude Opus 4.1上线——AI动态汇总20250811

AI动态汇总：Claude 4系列发布，谷歌上线编程智能体Jules

美国半导体与美国互联网AI价值链：谷歌Gemini 3 Pro、Claude Opus 4.5、Grok 4.1和DeepSeek 3.2……谁是真正的领导者？这意味着什么？

AI价值链：Google Gemini 3 Pro、Claude Opus 4.5、Grok 4.1与DeepSeek 3.2……谁是真正的领跑者，它意味着什么？

【九点特供】首次反超OpenAI！Anthropic估值冲爆1.2万亿，旗下Claude模型已形成Haiku、Sonnet、Opus三大管线；重庆出台细则规范L3级-20260508

AI动态汇总20250421：OpenAI发布GPT-4.1，智谱发布GLM-4-32B-0414系列

【中邮金工】AI动态汇总：OpenAI发布o3-pro，Mistral推出推理模型Magistral

AI动态汇总：OpenAI发布搭建智能体新工具，谷歌发布轻量级模型Gemma 3

人工智能周报（26年第6周）：Anthropic发布Claude Opus 4.6

全球科技（计算机）行业周报：OpenAI最新发布GPT-5，有望拉动AI算力需求