您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中邮证券]:金工周报:AI动态汇总:Gemini2.5Pro发布即屠榜,DeepSeekV3完成模型更新 - 发现报告

金工周报:AI动态汇总:Gemini2.5Pro发布即屠榜,DeepSeekV3完成模型更新

2025-03-31肖承志、冯昱文中邮证券B***
金工周报:AI动态汇总:Gemini2.5Pro发布即屠榜,DeepSeekV3完成模型更新

2025 年 3 月 31 日 研究所 金工周报 分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com Gemini 2.5 Pro 发布即屠榜,DeepSeek V3 完成模型更新——AI 动态汇总 20250331 l谷歌发布 Gemini 2.5 Pro,发布即屠榜 谷歌于 2025 年 3 月 25 日发布了 Gemini2.5 Pro 模型,据介绍,Gemini 2.5 是思维模型(Thinking Models),能够在响应之前通过思考进行推理,从而提高性能和准确性。截至 2025 年 3 月 25 日,Gemini 2.5 Pro 已经登顶了 Lmarena 排行榜的第一位,而且创下了历史最大分数飞跃,截止 2025 年 3 月 30 日,Gemini 2.5 Pro 比第二名的 ChatGpt-4o-latest(2025-03-26)高出 35 分,更是比上月发布即屠榜的 Grok-3 分数高了接近 40 分。 近期研究报告 《英伟达召开 GTC 2025 大会,Skywork-R1V、混元 T1 等推理模型接连上线——AI 动态汇总 20250324》 -2025.03.25 《反转效应强势,GRU 模型新高——中邮因子周报 20250323》 - 2025.03.24 《微盘领涨创下历史新高,4 月临近仍有调整压力——微盘股指数周报20250316》 - 2025.03.17 lDeepSeek V3 完成模型更新,各项能力全面进阶 DeepSeek V3 模型已完成小版本升级,目前版本号 DeepSeek-V3-0324,本次模型更新提升主要围绕推理任务表现、前端开发能力、中文写作能力、中文搜索能力、工具使用能力展开。 lChatGPT-4o 更新,原生图像生成能力大幅提升 《小市值强势,动量风格依旧——中邮因子周报 20250309》 - 2025.03.10《泛科技大幅回调,融资资金和 ETF资金逆市流入行业轮动周报20250302》 - 2025.03.03 3 月 25 日,山姆奥特曼亲自带队直播发布 ChatGPT-4o 更新,并现场利用 ChatGPT-4o 制作梗图,生成的吉博力风格图片引起网络上的模仿热潮。 l昆仑万维发布全球首款音乐推理模型 Mureka O1 继发布 Skywork 后,昆仑万维又发布一重量级大模型 Mureka 01,专门应用于音乐领域,发布后一举将同类模型 suno 拉下第一名的宝座。该模型基于 Mureka V6 基座,结合 CoT 技术,只需要一段提示词即可生成想要的音乐。Mureka O1 是全球首个将 CoT 用到音乐生成领域的模型,在众多音乐生成基准对比中表现超过同类大模型。 《高波不再持续,多数风格切换——中邮因子周报 20250302》–2025.03.03 《3 月胜率最高的策略:多微盘空1000——微盘股指数周报 20250302》– 2025.03.02 l风险提示: 本报告所有信息基于网络内容整理,不构成投资建议。 《Deepseek 背景综述及在金融领域应用场景初探》 - 2025.02.26 《各资金持续流入机器人,短期注意回调风险,行业轮动开始超配成长——行业轮动周报 20250209》 - 2025.02.10 《全面牛市正在到来,微盘有望修复前高——微盘股指数周报 20250209》- 2025.02.10 目录 1AI 重点要闻 ................................................................................ 41.1谷歌发布 Gemini 2.5 Pro,发布即屠榜 .................................................... 41.2DeepSeek V3 完成模型更新,各项能力全面进阶 ............................................. 71.3ChatGPT-4o 更新,原生图像生成能力大幅提升 .............................................. 91.4昆仑万维发布全球首款音乐推理模型 Mureka O1 ............................................ 102企业动态..................................................................................112.1GPT-4o 再次升级,新版本已面向全部付费用户开放 ......................................... 112.2蚂蚁集团采用国产芯片训练 AI:性能匹配 H800,成本显著降低...............................122.3阿里通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni,现已开源 ..................... 122.4百度发布国内首个对话式应用开发平台秒哒................................................143AI 行业洞察 ............................................................................... 153.1TAO 方法微调 Llama 模型,FinanceBench 跑分超 GPT-4o ..................................... 153.2ARC-AGI-2 测试登场:AI 模型得分惨淡...................................................164技术前沿..................................................................................164.1昆仑万维首创 MusiCoT 框架..............................................................164.2TAO:使用测试时间计算来训练没有标记数据的高效 LLM.....................................175风险提示..................................................................................18 图表目录 图表 1: Gemini 2.5 Pro 发布即屠傍 ........................................................4图表 2: Gemini 2.5 Pro 跑分..............................................................5图表 3: 提示词 demo......................................................................6图表 4: Gemini 2.5 Pro 模型指标 ..........................................................7图表 5: DeepSeek-V3-0324 评测对比........................................................8图表 6: DeepSeek-V3-0324 前端开发案例 ....................................................8图表 7: ChatGPT-4o 原生图展示............................................................9图表 8: Mureka 模型对比 ................................................................ 11图表 9: GPT-4o 更新后排名上升...........................................................12图表 10: Qwen2.5-Omni 评测..............................................................13图表 11: 秒哒介绍 ...................................................................... 14图表 12: TAO ........................................................................... 15图表 13: TAO 测评.......................................................................15图表 14: ARC-AGI-1 vs. ARC-AGI-2 ....................................................... 16图表 15: MusiCoT 论文...................................................................17图表 16: MusiCoT 架构...................................................................17图表 17: TAO 架构.......................................................................18 1AI 重点要闻 1.1谷歌发布 Gemini 2.5 Pro,发布即屠榜 谷歌于 2025 年 3 月 25 日发布了 Gemini 2.5 Pro 模型,据介绍,Gemini 2.5是思维模型(Thinking Models),能够在响应之前通过思考进行推理,从而提高性能和准确性。截至 2025 年 3 月 25 日,Gemini 2.5 Pro 已经登顶了 Lmarena 排行榜的第一位,而且创下了历史最大分数飞跃,截止 2025 年 3 月 30 日,Gemini2.5 Pro 比第二名的 ChatGpt-4o-latest(2025-03-26)高出 35 分,更是比上月发布即屠榜的 Grok-3 分数高了接近 40 分。 本次 Gemini 2.5 Pro 模型主要有以下亮点: ·推理和代码能力大幅提升 在常见的推理,科学、数学、代码生成、视觉推理、图片识别长上下文以及多语言表现领域,Gemini 2.5 Pro 均有不俗的表现。 资料来源:Google,中邮证券研究所 除此之外,在各类需要高级推理能力的基准测试中,它都达到了 SOTA水平。 无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro就能在 GPQA 和 AIME 2025 等数学和科学基准评测中表现卓越。而且,在不使用任何外部工具的条件下,它就在挑战人类知识和推理能力的极限前沿“人类最后的考试”中取得了 18.8%的准确率,达到