AI智能总结
发布时间:2025-04-15 研究所 金工周报 分析师:肖承志SAC 登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC 登记编号:S1340124100011Email:fengyuwen@cnpsec.com Meta LIama 4 开源,OpenAI 启动先锋计划——AI动态汇总 20250414 lMeta LIama 4 开源,评测跑分引争议 4 月 6 日,Meta 发布了首个基于 MoE 架构模型系列,目前披露了三个模型:Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。Llama 4 Behemoth 模型尚未发布,仅是预告,但仅就前两款 Meta 已经称其为“迄今为止最先进的型号,也是同类产品中最好的多模态型号”。在 Meta 官方发布的信息中可以看到,Llama 4 在诸多评测中表现优异,在 Lmarena.ai 评测中,Llama-4-Maverrick 一度攀升至第二名,仅次于 Gemini-2.5-Pro。但随后 Kcores 评测中发现 Llama 4模型代码能力极差,同时有 Meta 内部员工爆料 Llama 4 训练作弊和针对性优化,甚至有高管在重压之下离职并要求不要在 Llama 4 技术报告中署名。 近期研究报告 《小市值持续,高低波风格交替——中邮因子周报 20250413》 -2025.04.14 《4 月是否还会有“最后一跌”?——微盘股指数周报 20250406》- 2025.04.07 《“924”以来融资资金防守后均见到行情低点,仍关注科技配置机会——行业轮动周报 20250330》 - 2025.03.31 lOpenAI 启动先锋计划,旨在重塑 AI 模型评分体系 4 月 9 日,OpenAI 宣布启动先锋计划(Pioneers Program),旨在推动 AI 在实际用例中的部署。该计划将专注于创建评估模型,设定“优秀模型”的标准,并为构建者提供工具,帮助他们优化自身领域的模型性能。OpenAI 认为,我们认为,法律、金融、保险、医疗保健、会计等众多行业都缺乏统一的模型基准测试数据来源,并将致力于开发这些行业的评估方案。 《英伟达召开 GTC 2025 大会,Skywork-R1V、混元 T1 等推理模型接连上线——AI 动态汇总 20250324》 -2025.03.25 《反转效应强势,GRU 模型新高——中邮因子周报 20250323》 - 2025.03.24 l针对幻觉问题,华人团队发现大模型对数线性定律 来自 UIUC 等高校的华人团队揭示了大型语言模型(LLMs)中事实性幻觉的核心机制,首次将知识遮蔽确定为 LLMs 幻觉的一个关键驱动因素,并提出了对数线性规律来量化幻觉的发生。基于这一发现,提出了 CoDA 方法来减轻幻觉,显著提高了模型在多个基准数据集上的准确性。这项研究不仅加深了对 LLMs 幻觉机制的理解,还为开发更可预测和可控的语言模型提供了新的思路。 《微盘领涨创下历史新高,4 月临近仍有调整压力——微盘股指数周报20250316》 - 2025.03.17 《小市值强势,动量风格依旧——中邮因子周报 20250309》 - 2025.03.10《泛科技大幅回调,融资资金和 ETF资金逆市流入行业轮动周报20250302》 - 2025.03.03 l豆包团队开源首个多语言代码修复基准Multi-SWE-bench 4 月 10 日,豆包大模型团队通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。 《高波不再持续,多数风格切换——中邮因子周报 20250302》–2025.03.03 l风险提示: 《3 月胜率最高的策略:多微盘空1000——微盘股指数周报 20250302》– 2025.03.02 以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。 《Deepseek 背景综述及在金融领域应用场景初探》 - 2025.02.26 目录 1AI 重点要闻 ................................................................................ 41.1Meta LIama 4 开源,评测跑分引争议 ...................................................... 41.2OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系 ........................................... 81.3针对幻觉问题,华人团队发现大模型对数线性定律...........................................91.4豆包团队开源首个多语言代码修复基准 Multi-SWE-bench....................................112企业动态..................................................................................122.1商汤日日新 SenseNova V6 多模态融合大模型发布..........................................122.2亚马逊推出全新 AI 语音模型 Nova Sonic.................................................122.3谷歌发布 Gemini 2.5 Flash AI 模型.....................................................143企业动态..................................................................................143.1日本 AI 初创公司联合大型补习班使用 AI 挑战东京大学入学考试,英语能力亮眼,数学能力表现欠佳.............................................................................................. 143.2IDC:2028 年中国 AI 总投资规模将突破 1000 亿美元,五年复合增长率达 35.2%.................154技术前沿..................................................................................164.1入选 ICLR:特定领域仅用 5%训练数据,知识准确率提升 14% ................................. 164.2DeepCoder-14B-Preview:媲美 o3-mini 的代码推理模型.....................................185风险提示..................................................................................22 图表目录 图表 1: Llama 4 预训练...................................................................5图表 2: Llama 4 Scout 评测表现 ...........................................................6图表 3: Llama 4 Lmarena 跑分 ............................................................ 7图表 4: Llama 4 六边形测试...............................................................8图表 5: 知识遮蔽定律:理解、预测和预防大模型幻觉.........................................9图表 6: 知识遮蔽定律 ................................................................... 10图表 7: 对数线性规律 ................................................................... 10图表 8: CoDA 方法效果...................................................................11图表 9: Multi-SWE-bench ................................................................ 11图表 10: Nova Sonic .................................................................... 13图表 11: 中国 AI 与生成式 AI 市场规模预测 ................................................ 15图表 12: 论文信息 ...................................................................... 17图表 13: KG-SFT 架构....................................................................18图表 14: DeepCoder 论文.................................................................19图表 15: GRPO+ ......................................................................... 19图表 16: 迭代上下文长度扩展 ............................................................ 20图表 17: Verl-pipeline ................................................................. 20图表 18: DeepCoder 性能.................................................................21图表 19: Codeforeces 评测...............................................................21 1AI 重点要闻 1.1Meta LIama 4 开源,评测跑分引争议 4 月 6 日,Meta 发布了首个基于 MoE 架构模型系列,目前披露了三个模型:Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。Llama 4 Behemoth 模型尚未发布,仅是预告,但仅就前两款 Meta 已经称其为“迄今为止最先进的型号,也是同类产品中最好的多模态型号”。在 Meta 官方发布的信息中可以看到,Llama 4




