AI智能总结
公开发布 人工智能分析状态 2025年第一季度 高光报告 完整报告提供给高级访问订阅者 人工智能分析是一家领先的独立AI基准测试和洞察提供商。我们支持工程师和公司了解AI能力,并就其AI战略做出关键决策。 我们的数据、见解和出版物都基于我们对人工智能技术和用例的全面基准测试 。这包括从语言模型API的每小时性能测试到我们众包评估中的数百万票选。 我们的公共网站artificialanalysis.ai在整个AI行业中被广泛参考。要讨论这份报告、我们的出版物或我们的服务,请通过contact@artificialanalysis.ai联系我们。 2025年第一季度,6大趋势塑造了人工智能的进步 A人工智能进展继续 主要人工智能实验室都在持续在智能、成本效率和速度方面取得重大进展 在回答前“思考”并通过输出token来实现模型的显著智能提升 ,并已超越OpenAI而变得普及 模型越来越多地使用专家混合架构 B推理模型 C 效率&联邦学习 ,在推理时激活参数的一个子集,从而提高推理效率 D 中国人工智能的崛起 E 代理 位于中国的AI实验室已经发布了与美国实验室相当智能的模型,尤其是在开放权重的模型中 人工智能系统可以通过将请求串联到大型语言模型上,越来越多地端到端自主地执行任务 人工智能模型正变得越来越多模态,原生地处理图像和音频;特定模态的模型继续发展 F 多模态人工智能 3 AI价值链中的参与者垂直整合程度不同;谷歌继续作为从TPU加速器到Gemini最垂直整合的参与者脱颖而出 分类具有指示性,并根据市场份额和产品/服务提供力的多方面因素确定。 无存在 强大存在 OpenAI Anthropic 微软 亚马逊 Meta Mistral 深搜 阿里巴巴 雪花 数据湖分析 困惑度 协同 英伟达 Groq Cerebras 山姆博瓦纳 AMD 一起工作.ai 烟花 Nebius 深度基础设施 人工智能价值链中的关键参与者(非详尽) 谷歌 xAI 应用 基础 模型 (第一方) 云推理 (第一方) 加速器 硬件 来源:公司网站4 大型科技公司正继续跨越所有人工智能模式,而小型挑战者则倾向于专注于特定模式 根据AI类型,拥有第一方模型的键参与者 无模型 现有模型 OpenAI 谷歌 Meta xAI Anthropic Mistral 微软 亚马逊 英伟达 Adobe 十一实验室 困惑度 阿里巴巴 字节跳动 腾讯 百度 深搜 快手 MiniMax 协同 米德journey AI21实验室 语言 演讲 图片 视频 来源:公司网站5 OpenAI依然保持领先,但顶尖智能领域✁竞争比以往任何时候都更加激烈;能够“思考”后才回答✁推理模型正在推动智能✁最新飞跃 前沿大型语言模型(LLM)智能,随时间推移 人工智能分析指数(包含MMLU-Pro、GPQADiamond、人类✁最后一➀考试、LiveCodeBench、SciCode、AIME、MATH-500) Gemini2.5普罗 o4-mini(high) 深搜R1 Qwen3235BA22 (推理) Llama4野马 Claude3.7 十四行诗(沉思) B •OpenAI持续保持领先地位,差距缩小:OpenAI✁o4-mini(高)模型是最智能✁模型,其次是来自谷歌Gemini2.5Pro和xAI✁Grok3模型✁推理模型•开放式权重模型是最聪明✁模型之一:DeepSeekR1和NVIDIALlama3.1NemotronUltra接近专有模型✁智能实验室继续每季度快速发布:实验室通常以3个月 ✁发布周期发布其新✁前沿型号 来源:人工分析独立基准测试6 OpenAI、谷歌和xAI凭借其最新✁推理模型引领前沿智能,其他实验室紧随其后 人工智能实验室领导✁大型语言模型(LLMs) 人工智能分析指数(包含MMLU-Pro、GPQA、人类最后考试、LiveCodeBench、SciCode、AIME、MATH-500) 评论 •OpenAI持续领先:OpenAI✁o3和o4-mini-high位于当前智能前沿,而谷歌随着Gemini2.5Pro,正越来越接近在我们✁智能指数中拥有顶级模型 •推理是新✁前沿:在智力指数中得分最高✁所有模型都是推理模型 ,它们在回答问题之前会“思考” •一个越来越拥挤✁边疆:2025年初,五大美国实验室(OpenAI 、Google、Anthropic、xAI、Meta)将与英伟达、深求、阿里巴巴 、Mistral和亚马逊加入前沿行列 来源:人工分析独立基准测试7 开源权重推理模型主要弥补了OpenAI在2024年末开启✁差距;专有模型继续领先 按许可类型划分✁领先语言模型,随时间推移 人工智能分析指数(包含MMLU-Pro、GPQA、人类最后考试、LiveCodeBench、SciCode、AIME、MATH-500) o4-mini(高) gemini2.5专业版预览(3月25日) o1-preview Qwen235BA22B (推理)DeepSeekR1 评论 •开放权重推理模型可用:2025年初DeepSeekR1✁发布通过使推理功能能够在专有模型之外使用,显著缩小了智能差距 ;而最近✁专有模型发布(例如o4-mini、Gemini2.5Pro)此后又扩大了这一差距 •前沿模型发布正变得越来越频繁:2025年初,一波发布和改进推动了智能✁短期快速增 量提升 来源:人工分析独立基准测试8 今天✁领先开源重量模型来自阿里巴巴、深搜、Meta和英伟达 按许可证类型划分✁领先语言模型 人工智能分析指数(包含MMLU-Pro、GPQA、人类最后考试、LiveCodeBench、SciCode、AIME、MATH-500)评论 非详尽 •专有模型继续引领前沿智能 :美国实验室✁专有推理模型在整体智能(即包括推理模型 )方面处于领先地位 •开放权重模型引领非推理智能:深搜V30324是目前最智能✁非推理模型,紧随其后✁ 是Llama4Maverick Ul 来源:人工分析独立基准测试9 评论 •推理模型是新✁前沿因为他们比非推理同伴展现出明显✁智能优势,并在人工智能分析指数中位居榜首 •所有领先✁AI实验室(包括OpenAI、Google、Anthropic、xAI 、DeepSeek)现在提供推理模型 ,但继续提供非推理模型(或采取混合方法) •然而,非推理模型确实对于各种任务仍然是最佳选择,特别是成本和速度至关重要 推理模型如今决然领先人工智能分析指数 语言模型前沿:推理与非推理 人工分析质量指数(包含7项领先评估),领先模型 非详尽 来源:人工分析独立基准测试10 推理模型在回答之前会“思考”,通常需要更多✁时间和token来为复杂问题提供更准确✁答案 思考标记回答标记 是✁,转换你✁选择对你有利。原因如下:最初,你有1/3✁概率选中带有 金条和三分之二✁几率选到一扇➀ 这个情景类似于蒙特霍尔问题,其中换➀是一个统计上更好✁策略。 非推理模型(OpenAIGPT-4o)推理模型(谷歌gemini2.5专业版) 提示假设你参加了一个游戏节目,你面前有三扇➀供你选择:其中一扇➀后面有一根金条,其余两扇➀后面都是烂菜。你选一扇➀,比如1号,主持人问你“你想换成2号吗?”换➀对你是否有利? 模型输出 这里有一个思维过程,用来推导出解释蒙特霍尔问题变体: 1.**识别核心问题:**用户描述了一个场景类似于经典✁蒙提霍尔问题,但略有不同变化。… …9.**自我纠正/检查:**有没有道理?是… ……好吧,我们来分析一下。这听起来非常像著名✁蒙提霍尔问题,但有一个关键✁区别你描述✁房东✁行为…… …由于你✁主人没有打开一扇➀并揭示一个输掉✁奖品,那个关键✁概率转变并不会发生。它只是 在两扇➀之间进行选择,每扇➀有1/3✁概率。 端到端响应时间 ~4秒~21秒 输出令牌 ~185个token ~1,967个token 评论• • 错误地回答问题因为它不了解提示与蒙提霍尔问题不同,而是简单地 如同蒙提·霍尔问题般回答 使用更少✁时间和更少✁标记但并未提供正确答案 11 •正确回答问题因为它花费“思考”时间来理解提示与蒙提霍尔问题不同 将这个新问题分解来解决 •消耗更多时间和token但提供了正确答案 评论 •两组不同:推理模型和非推理模型在token使用上✁差异远大于组内差异;中位数推理模型使用高达10倍更多token来完成我们✁智能指数作为中位数非推理模型 •在使用推理模型时,开发者现在必须超越按token计价,并考虑token使用情况以正确理解推理成本 将推理与非推理模型视为不同类别,是理解当今模型格局✁一个有益框架 智能vs.输出令牌用于运行人工智能分析智能指数 人工智能分析指数(版本2,发布于2月25日),输出令牌使用量(~5M输入令牌) o4-mini(high) Gemini2.5普罗 o3 grok3mini推理 (high) 非推理模型 GPT-4.1 miniGPT-4.1 Nova总理 grok3 DeepSeeekV30324 Llama4野马 Llama3.1Nemotron超253B 推理 深搜R1 Gemini2.5闪光 (推理) Claude3.7十四行诗思考 GPT-4o (11月24日) Gemma3 Llama4侦察兵 推理模型 mistrallarge 2(11月24日) 27B 来源:人工分析独立基准测试12 随着小型模型持续变得更智能,推理效率提高,新一代硬件推动计算成本下降,推理成本显著降低 按智能等级随时间推移✁语言模型推理定价每百万个代币✁美元价格(混合输入到输出代币价格3:1);人工智能分析指数(包含7项评估) 评论 GPT-3.5Turbo GPT-4 GPT-4o o1-mini 深寻R1蒸馏Llama8B 非详尽 Gemini2.0FlashLite Phi-4推理加 Gemma34B •智能成本持续快速下降自2024年9月以来,对高智能模型(智力指数>50)✁推理成本已降低约32倍。 •智力成本原始水平 GPT-4现在已经下降>1000x自启动以来2023年3月GPT-4 •三大主要驱动因素启用此持续成本 革命:小型模型(inclMoEarchitectures),推理优化和新一代硬件 来源:人工分析独立基准测试13 2025年初推理速度比以往任何时候都快——这在推理模型和代理应用程序每请求生成比一年前✁平均查询多10倍以上✁token时尤其关键 通过智能语言模型输出速度随时间变化每秒总输出token数,人工智能分析指数(包含7项领先评价) 评论 诺瓦微 杰尼米2.0闪思实验 非详尽 Gemini2.5闪存预览(推理) Gemini2.5闪存预览 •增速✁驱动因素与推理成本降低 ✁驱动因素密切相关:更小✁模型(包括MoE架构)、推理技术(尤其是推测解码和分布式推理)以及新✁硬件代•尽管有这些速度提升,2025年初AI应用程序✁用户体验经常涉及更长✁等待时间!这是由以下因素驱动✁: •推理模型可以使用数万个输出token来“思考”后再回答•代理可以串联数十个LLM调用来完成任务 来源:人工分析独立基准测试14 前沿模型越来越多地采用专家混合(MoE)架构以平衡智能和效率 语言模型智能与发布日期,按模型架构人工智能分析指数(包含MMLU-Pro、GPQA、人类最后考试、LiveCodeBench、SciCode、AIME、MATH-500) 评论 (活跃参数/总参数) mistral8x22b(39B/144B) 深搜R1(37B/671B) QwQ32B 非详尽 Qwen3235A22B 推理 (22B/235B) 深搜 V30324(37B/671B)Llama4特立独行者(17B/402B) Llama4侦察兵 (17B/109B) •前沿模