行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI动态汇总：Meta LIama 4开源，OpenAI启动先锋计划

2025-04-15 肖承志,冯昱文中邮证券丁叮叮叮

AI重点要闻

MetaLIama4开源，评测跑分引争议

Meta于4月6日发布了基于MoE架构的Llama4模型系列，包括Llama4Scout、Llama4Maverick和Llama4Behemoth三个模型。Llama4Scout为170亿参数的多模态模型，拥有100万上下文窗口；Llama4Maverick为128位专家的170亿参数多模态模型，具备高性价比；Llama4Behemoth为2万亿参数的超大模型。Meta宣称Llama4在多个评测中表现优异，但Kcores评测发现其代码能力极差，并有内部员工爆料Llama4存在训练作弊和针对性优化。Llama4模型采用混合专家MoE架构，提高推理效率，并使用轻量级监督微调、在线强化学习和轻量级直接偏好优化等后训练策略。Llama4模型拥有非常长的上下文，以Llama4Scout为例，提供行业领先的100万上下文窗口。但Llama4Scout在Lmarena.ai评测中表现优异的“实验性聊天版本”引发了针对性优化的讨论。Kcores评测发现Llama4的编程能力极差，不建议使用其写代码。

OpenAI启动先锋计划，旨在重塑AI模型评分体系

OpenAI于4月9日宣布启动先锋计划，旨在推动AI在实际用例中的部署，并创建评估模型，设定“优秀模型”的标准。该计划将专注于法律、金融、保险、医疗保健、会计等行业的模型评估方案开发，并邀请初创公司参与，利用强化微调技术改进模型，并针对公司主要用例进行训练。

针对幻觉问题，华人团队发现大模型对数线性定律

UIUC等高校的华人团队揭示了大型语言模型（LLMs）中事实性幻觉的核心机制，首次将知识遮蔽确定为LLMs幻觉的一个关键驱动因素，并提出了对数线性规律来量化幻觉的发生。研究提出了CoDA方法来减轻幻觉，在多个基准数据集上显著提高了模型的准确性。

豆包团队开源首个多语言代码修复基准Multi-SWE-bench

豆包大模型团队于4月10日宣布开源首个多语言类SWE数据集Multi-SWE-bench，可用于评估和提升大模型“自动修Bug”能力。该数据集覆盖Python之外的7种主流编程语言，旨在推动多语言软件开发Agent的评估与研究。

企业动态

商汤日日新SenseNovaV6多模态融合大模型发布

商汤于4月10日发布了日日新SenseNovaV6模型多模态融合大模型，具备最长64K思维链、数理分析、多模态深度推理、全局记忆等能力，支持10分钟的视频推理及深度推理。

亚马逊推出全新AI语音模型NovaSonic

亚马逊于4月9日发布了名为NovaSonic的新一代生成式AI模型，该模型能够原生处理语音并生成自然流畅的语音，在速度、语音识别以及对话质量等关键指标的基准测试中表现优异，价格比OpenAI的GPT-4o便宜约80%。

谷歌发布Gemini2.5FlashAI模型

谷歌于4月10日发布了一款名为Gemini2.5Flash的全新AI模型，该模型注重高效能，并提供强劲的性能，具备“动态且可控”的计算能力，适合用于“高容量”和“实时”的应用场景。

企业动态

日本AI初创公司联合大型补习班使用AI挑战东京大学入学考试

日本经济新闻、AI初创公司LifePrompt联合大型预备学校河合塾对OpenAI的o1模型和DeepSeek的R1模型进行了东京大学入学考试测试，结果显示两个模型均已具备通过日本最难的东京大学理科3类入学考试的能力，但在数学中多次出现论证错误等问题。

IDC：2028年中国AI总投资规模将突破1000亿美元

IDC于4月7日发布报告预测，2028年中国AI总投资规模将突破1000亿美元，五年复合增长率为35.2%。全球生成式AI市场五年复合增长率或达63.8%，到2028年全球生成式AI市场规模将达2842亿美元，占AI市场投资总规模的35%。

技术前沿

入选ICLR：特定领域仅用5%训练数据，知识准确率提升14%

中国科学技术大学MIRA实验室的王杰教授团队提出了知识图谱微调（KG-SFT）框架，增强大型语言模型知识操纵能力。实验结果表明，在多个领域和多种语言的数据集上取得了显著的效果，成功入选ICLR2025。KG-SFT包含Extractor、Generator和Detector三个组件，在仅使用5%的训练数据时，KG-SFT在英语场景中提升了近14%，在俄语场景中提升了最高达18.1%。

DeepCoder-14B-Preview：媲美o3-mini的代码推理模型

UCBerkeley和TogetherAI的联合团队推出了完全开源的代码推理模型DeepCoder-14B-Preview，仅14B参数就能媲美o3-mini。DeepCoder利用了GRPO+算法和迭代上下文长度扩展技术，在LiveCodeBench上达到了60.6%的Pass@1准确率，在Codeforces评测中得分超过大多数模型，在AIME2024上的得分比基础模型提高了4.1%。

发布时间：2025-04-15 研究所金工周报分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com Meta LIama 4 开源，OpenAI 启动先锋计划——AI动态汇总 20250414 lMeta LIama 4 开源，评测跑分引争议 4 月 6 日，Meta 发布了首个基于 MoE 架构模型系列，目前披露了三个模型：Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。Llama 4 Behemoth 模型尚未发布，仅是预告，但仅就前两款 Meta 已经称其为“迄今为止最先进的型号，也是同类产品中最好的多模态型号”。在 Meta 官方发布的信息中可以看到，Llama 4 在诸多评测中表现优异，在 Lmarena.ai 评测中，Llama-4-Maverrick 一度攀升至第二名，仅次于 Gemini-2.5-Pro。但随后 Kcores 评测中发现 Llama 4模型代码能力极差，同时有 Meta 内部员工爆料 Llama 4 训练作弊和针对性优化，甚至有高管在重压之下离职并要求不要在 Llama 4 技术报告中署名。近期研究报告《小市值持续，高低波风格交替——中邮因子周报 20250413》 -2025.04.14 《4 月是否还会有“最后一跌”？——微盘股指数周报 20250406》- 2025.04.07 《“924”以来融资资金防守后均见到行情低点，仍关注科技配置机会——行业轮动周报 20250330》 - 2025.03.31 lOpenAI 启动先锋计划，旨在重塑 AI 模型评分体系 4 月 9 日，OpenAI 宣布启动先锋计划(Pioneers Program)，旨在推动 AI 在实际用例中的部署。该计划将专注于创建评估模型，设定“优秀模型”的标准，并为构建者提供工具，帮助他们优化自身领域的模型性能。OpenAI 认为，我们认为，法律、金融、保险、医疗保健、会计等众多行业都缺乏统一的模型基准测试数据来源，并将致力于开发这些行业的评估方案。《英伟达召开 GTC 2025 大会，Skywork-R1V、混元 T1 等推理模型接连上线——AI 动态汇总 20250324》 -2025.03.25 《反转效应强势，GRU 模型新高——中邮因子周报 20250323》 - 2025.03.24 l针对幻觉问题，华人团队发现大模型对数线性定律来自 UIUC 等高校的华人团队揭示了大型语言模型（LLMs）中事实性幻觉的核心机制，首次将知识遮蔽确定为 LLMs 幻觉的一个关键驱动因素，并提出了对数线性规律来量化幻觉的发生。基于这一发现，提出了 CoDA 方法来减轻幻觉，显著提高了模型在多个基准数据集上的准确性。这项研究不仅加深了对 LLMs 幻觉机制的理解，还为开发更可预测和可控的语言模型提供了新的思路。《微盘领涨创下历史新高，4 月临近仍有调整压力——微盘股指数周报20250316》 - 2025.03.17 《小市值强势，动量风格依旧——中邮因子周报 20250309》 - 2025.03.10《泛科技大幅回调，融资资金和 ETF资金逆市流入行业轮动周报20250302》 - 2025.03.03 l豆包团队开源首个多语言代码修复基准Multi-SWE-bench 4 月 10 日，豆包大模型团队通过官方公众号宣布，首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源，可用于评估和提升大模型“自动修 Bug”能力。《高波不再持续，多数风格切换——中邮因子周报 20250302》–2025.03.03 l风险提示：《3 月胜率最高的策略：多微盘空1000——微盘股指数周报 20250302》– 2025.03.02 以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。《Deepseek 背景综述及在金融领域应用场景初探》 - 2025.02.26 目录 1AI 重点要闻 ................................................................................ 41.1Meta LIama 4 开源，评测跑分引争议 ...................................................... 41.2OpenAI 启动先锋计划，旨在重塑 AI 模型评分体系 ........................................... 81.3针对幻觉问题，华人团队发现大模型对数线性定律...........................................91.4豆包团队开源首个多语言代码修复基准 Multi-SWE-bench....................................112企业动态..................................................................................122.1商汤日日新 SenseNova V6 多模态融合大模型发布..........................................122.2亚马逊推出全新 AI 语音模型 Nova Sonic.................................................122.3谷歌发布 Gemini 2.5 Flash AI 模型.....................................................143企业动态..................................................................................143.1日本 AI 初创公司联合大型补习班使用 AI 挑战东京大学入学考试，英语能力亮眼，数学能力表现欠佳.............................................................................................. 143.2IDC：2028 年中国 AI 总投资规模将突破 1000 亿美元，五年复合增长率达 35.2%.................154技术前沿..................................................................................164.1入选 ICLR：特定领域仅用 5%训练数据，知识准确率提升 14% ................................. 164.2DeepCoder-14B-Preview：媲美 o3-mini 的代码推理模型.....................................185风险提示..................................................................................22 图表目录图表 1： Llama 4 预训练...................................................................5图表 2： Llama 4 Scout 评测表现 ...........................................................6图表 3： Llama 4 Lmarena 跑分 ............................................................ 7图表 4： Llama 4 六边形测试...............................................................8图表 5：知识遮蔽定律：理解、预测和预防大模型幻觉.........................................9图表 6：知识遮蔽定律 ................................................................... 10图表 7：对数线性规律 ................................................................... 10图表 8： CoDA 方法效果...................................................................11图表 9： Multi-SWE-bench ................................................................ 11图表 10： Nova Sonic .................................................................... 13图表 11：中国 AI 与生成式 AI 市场规模预测 ................................................ 15图表 12：论文信息 ...................................................................... 17图表 13： KG-SFT 架构....................................................................18图表 14： DeepCoder 论文.................................................................19图表 15： GRPO+ ......................................................................... 19图表 16：迭代上下文长度扩展 ............................................................ 20图表 17： Verl-pipeline ................................................................. 20图表 18： DeepCoder 性能.................................................................21图表 19： Codeforeces 评测...............................................................21 1AI 重点要闻 1.1Meta LIama 4 开源，评测跑分引争议 4 月 6 日，Meta 发布了首个基于 MoE 架构模型系列，目前披露了三个模型：Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。Llama 4 Behemoth 模型尚未发布，仅是预告，但仅就前两款 Meta 已经称其为“迄今为止最先进的型号，也是同类产品中最好的多模态型号”。在 Meta 官方发布的信息中可以看到，Llama 4

点击免费查看完整报告

AI动态汇总：Meta LIama 4开源，OpenAI启动先锋计划

AI重点要闻

MetaLIama4开源，评测跑分引争议

OpenAI启动先锋计划，旨在重塑AI模型评分体系

针对幻觉问题，华人团队发现大模型对数线性定律

豆包团队开源首个多语言代码修复基准Multi-SWE-bench

企业动态

商汤日日新SenseNovaV6多模态融合大模型发布

亚马逊推出全新AI语音模型NovaSonic

谷歌发布Gemini2.5FlashAI模型

企业动态

日本AI初创公司联合大型补习班使用AI挑战东京大学入学考试

IDC：2028年中国AI总投资规模将突破1000亿美元

技术前沿

入选ICLR：特定领域仅用5%训练数据，知识准确率提升14%

DeepCoder-14B-Preview：媲美o3-mini的代码推理模型

你可能感兴趣

Grok 4 发布，通义开源智能体 WebSailor——AI 动态汇总 20250714

Meta 裁员 Llama 4 团队，OpenAI 发布首款 AI 浏览器 ChatGPT Atlas

影视传媒行业周报：OpenAI发布全新模型o1，快手启动可灵AI电影共创计划

AI动态汇总20250421：OpenAI发布GPT-4.1，智谱发布GLM-4-32B-0414系列

AI动态汇总：openAI发布GPT-5，Claude Opus 4.1上线

OpenAI发布GPT-5，Claude Opus 4.1上线——AI动态汇总20250811

【中邮金工】AI动态汇总：OpenAI发布o3-pro，Mistral推出推理模型Magistral

AI动态汇总：OpenAI发布搭建智能体新工具，谷歌发布轻量级模型Gemma 3

金工周报：AI动态汇总-DeepSeek-R1完成小版本更新，阿里开源自主搜索AI智能体

AI动态汇总20250728：英伟达推出 OpenReasoning-Nemotron 推理模型， Qwen3 Coder 开源