行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI动态汇总：上交AI智能体表现亮眼，AlphaEvolve生成代码反超人类20250707

2025-07-08 肖承志,冯昱文中邮证券 Explorer丨森

AI重点要闻
- 上交团队推出AI专家智能体ML-Master，在OpenAI的MLE-bench基准测试中夺冠，标志着中国团队在AI自主优化领域实现引领。
- ML-Master通过“探索-推理深度融合”范式解决现有AI4AI系统的瓶颈，其平衡多轨迹探索模块和可控推理模块显著提升任务表现。
- AlphaEvolve生成代码反超人类，在苹果M系列芯片上生成的Metal核函数性能超越人类工程师手动优化版本。
- 华为开源盘古7B稠密和72B混合专家模型，标志着昇腾生态战略进入新阶段，盘古Pro MoE 72B在推理效率方面表现突出。
- ICONIQ Capital发布《2025年AI现状报告》，揭示全球AI技术从实验阶段迈向工业化落地的关键趋势，企业AI落地呈现三阶段分化。
企业动态
- 百度文心大模型4.5系列正式开源，涵盖10款模型，形成参数规模与场景需求精准匹配的立体矩阵，重新定义了中文大模型开源生态的行业标准。
- B站开源动漫视频生成模型AniSora V3，通过多项技术创新重新定义了2D/2.5D动漫内容生成的行业标准，其在生成质量、控制精度和硬件适配方面实现突破。
AI行业洞察
- Meta重组AI部门成立MSL，标志着扎克伯格在通用人工智能（AGI）竞赛中的全面升级，MSL的目标是开发“超越人类能力的超级智能”。
- MSL的核心竞争力在于其“梦之队”阵容，覆盖GPT-4o、Gemini等主流模型的全技术链条，其技术突破将围绕数据与算力整合、模型架构创新、安全与伦理框架三大方向展开。
技术前沿
- DeepMind研究发现，推理大模型一旦被错误信息干扰，无法恢复原有水准，其“元认知”能力存在局限性。
- 多模态推理模型存在一个显著悖论：随着推理链的延长，模型在数学推理等复杂任务上表现提升的同时，视觉幻觉现象却同步加剧。
风险提示
- 以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。

市场有风险，投资需谨慎研究所分析师:肖承志SAC登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文SAC登记编号:S1340124100011Email:fengyuwen@cnpsec.com近期研究报告《低估值高盈利，基本面表现占优——中邮因子周报20250706》2025.07.07《基于宏观经济状态划分的BL模型与ETF实践》-2025.07.01《反转风格显著，小市值回撤——中邮因子周报20250622》-2025.06.23《关注基本面支撑，高波风格占优——中邮因子周报20250615》-2025.06.16《结合基本面和量价特征的GRU模型》-2025.06.05《Claude 4系列发布，谷歌上线编程智能体Jules——AI动态汇总20250526》-2025.05.27《谷歌发布智能体白皮书，Manus全面开放注册——AI动态汇总20250519》-2025.05.20《证监会修改《重组办法》，深化并购重组改革——微盘股指数周报20250518》-2025.05.19《通义千问发布Qwen-3模型，DeepSeek发布数理证明大模型——AI动态汇总20250505》-2025.05.06《基金Q1加仓有色汽车传媒，减仓电新食饮通信——公募基金2025Q1季报点评》-2025.04.30 金工周报适配和系统架构三个维度。源生态三个维度。格局。⚫风险提示：失效的风险；历史信息不代表未来。 - 目录1 AI重点要闻..............................................................................41.1上交团队推出AI专家智能体ML-Mater....................................................41.2 AlphaEvolve生成代码反超人类..........................................................71.3华为开源盘古7B稠密和72B混合专家模型................................................81.4 ICONIQ Capital发布《2025年AI现状报告》............................................102企业动态................................................................................142.1百度文心大模型4.5系列正式开源......................................................142.2 B站开源动漫视频生成模型AniSora V3..................................................163 AI行业洞察.............................................................................183.1 Meta重组AI部门成立MSL.............................................................184技术前沿................................................................................204.1 DeepMind:一旦被错误信息干扰，推理大模型无法恢复原有水准.............................205风险提示................................................................................23 请务必阅读正文之后的免责条款部分2 图表目录图表1：ML-Master项目.................................................................4图表2：MLE-bench......................................................................4图表3：ML-Mater架构..................................................................5图表4：平衡型多轨迹探索流程...........................................................5图表5：具有自适应记忆的可控推理.......................................................6图表6：目标参数.......................................................................7图表7：进化设定.......................................................................7图表8：华为开源的两款模型.............................................................9图表9：企业选择AI模型占比...........................................................11图表10：最烧钱的环节是数据而不是训练.................................................11图表11：微调频率及预估阅读训练花费...................................................12图表12：生产力方面的AI应用..........................................................13图表13：文心大模型4.5系列产品.......................................................14图表14：文心大模型4.5评测...........................................................14图表15：AniSora V3训练框架..........................................................17图表16：论文How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?..................................................................................21图表17：判断推理大模型是否可以从错误观点中区分/恢复..................................22图表18：针对“思维攻击”的响应类型比率与鲁棒性.......................................23 请务必阅读正文之后的免责条款部分3 请务必阅读正文之后的免责条款部分1AI重点要闻1.1上交团队推出AI专家智能体ML-Mater上海交通大学人工智能学院Agents团队研发的AI专家智能体ML-Master在OpenAI的MLE-bench基准测试中以29.3%的平均奖牌率夺冠，显著超越微软R&D-Agent（22.4%）和OpenAI自研的AIDE系统（16.9%），这一突破标志着中国团队在AI自主优化领域（AI4AI）实现了从技术跟随到引领的关键跨越。ML-Master的成功源于其颠覆性的技术架构设计，其核心在于模拟人类专家的认知策略，通过“探索-推理深度融合”范式解决了现有AI4AI系统的三大瓶颈：探索效率低下、推理能力受限以及模块割裂问题。资料来源：ML-Master，中邮证券研究所技术层面，ML-Master的创新性体现在三大协同机制上。平衡多轨迹探索模块采用蒙特卡洛树搜索的并行化改造，将AI开发过程建模为动态决策树，每个节点代表一个潜在解决方案状态。通过实时评估75个Kaggle任务分支的潜力值，系统能动态分配计算资源，避免传统单路径探索的局部最优陷阱，使中等难度任务奖牌率提升至20.2%，达到基线方法的2.2倍。可控推理模块则突破了大语言模型的静态决策局限，通过自适应记忆机制筛选历史探索中的关键代码片段、性能指标和跨节点洞察，使推理过程始终基于可验证的执行反馈而非概率性猜测。这种情境化决策模式让高难度任务表现提升30%，远超微软系统的18.7%。图表2：MLE-bench资料来源：MLE-bench，中邮证券研究所 4 请务必阅读正文之后的免责条款部分资料来源：ML-Master，中邮证券研究所自适应记忆机制作为两大模块的融合枢纽，构建了闭环进化系统。探索阶段收集的代码执行结果通过智能过滤后嵌入推理模型的“think”环节，而推理输出的优化方案又反向指导后续探索路径。这种双向赋能使得ML-Master在900机器小时的训练后即达到Kaggle全球参赛者前259名的Grandmaster水平，其解决方案质量在多轮迭代中提升120%，展现出类人的持续学习能力。可视化分析显示，系统能同时展开数十条解决方案路径，根据实时反馈动态收敛至最优策略，这种多线程优化能力使其在12小时内完成测试，计算成本仅为对比系统的一半。图表4：平衡型多轨迹探索流程资料来源：ML-Master，中邮证券研究所 5 请务必阅读正文之后的免责条款部分6MLE-bench测试结果揭示了ML-Master的全方位优势。除平均奖牌率领先外，其93.3%的有效提交率接近完美，44.9%的任务表现超越半数人类参赛者，更有17.3%的任务斩获金牌。这种“六边形战士”特质源于技术栈的深度协同——低难度任务保持48.5%的稳定优势，中高难度任务则分别实现2.2倍和30%的碾压式超越，证明其泛化能力已突破传统AI系统的场景局限。值得注意的是，ML-Master的架构设计映射了AI4AI的未来方向：从AlphaGo到AlphaZero的自主演进路径表明，当AI系统能像人类专家一样平衡探索的广度与推理的深度时，其工程化潜力将呈现指数级释放。图表5：具有自适应记忆的可控推理资料来源：ML-Master，中邮证券研究所该研究的学术价值与产业影响并重。团队已开源全部代码和测试框架，其提出的自适应记忆机制为智能体系统的认知架构设计提供了新范式。据披露，ML-Master的技术将集成至AI辅助学习和研究智能体中，而上海交大AI-X研究院计划构建跨领域专家智能体生态，这种平台化布局可能重塑AI研发的人力资源配置模式。当前AI4AI仍处发展初期，但ML-Master的突破已验证了自主演进AI的可行性，其技术路径或将成为下一代AI开发基础设施的重要蓝本，推动行业从工具辅助阶段迈向真正的智能自治时代。 1.2AlphaEvolve生成代码反超人类2025年7月，基于谷歌AlphaEvolve论文的开源实现OpenEvolve在GPU核函数优化领域取得突破性进展。该系统通过自主进化代码，在苹果M系列芯片上生成的Metal核函数，在Transformer推理任务中实现了平均12.5%的性能提升，峰值性能甚至提升106%，整体表现超越人类工程师手动优化版本21%。这一成就标志着AI编程从辅助工具迈向自主进化的新纪元，其技术突破主要体现在算法创新

点击免费查看完整报告

AI动态汇总：上交AI智能体表现亮眼，AlphaEvolve生成代码反超人类20250707

你可能感兴趣

公司动态研究报告：业绩表现亮眼，AI赋能音箱耳机开辟第二增长曲线

金工周报：AI动态汇总-DeepSeek-R1完成小版本更新，阿里开源自主搜索AI智能体

AI动态汇总：Claude 4系列发布，谷歌上线编程智能体Jules

Grok 4 发布，通义开源智能体 WebSailor——AI 动态汇总 20250714

AI动态汇总：Anthropic公开多智能体构建全流程，MiniMax推出推理模型M1

AI动态汇总20250714：Grok4发布，通义开源智能体websAIlor

AI动态汇总20250519：谷歌发布智能体白皮书，Manus全面开放注册

AI动态汇总：OpenAI发布搭建智能体新工具，谷歌发布轻量级模型Gemma 3

动态点评：海外表现亮眼，18年业绩增长超预期

公司动态点评：业绩超预期增长，IGBT等新品表现亮眼