AI智能总结
我们的数据、见解和出版物均根植于我们对人工智能技术和应用场景的全面基准测试。这包括从语言模型API的每小时性能测试到我们众包竞技场中的数百万次投票等一切内容。我们的公共网站,artificialanalysis.ai,被AI创新领域的领先公司广泛引用。若要讨论本报告、我们的出版物或我们的服务,请通过contact@artificialanalysis.ai与我们联系。人工分析是一家领先的独立AI基准测试和洞察提供商。我们支持工程师和公司了解AI能力,并就其AI战略做出关键决策。 1520253035404550556065707580859095FRONTIER语言模型由原语生成中国人工智能实验室逐步赶上了美国人工智能实验室;中国实验室的模型现在正接近o1级智能,随着DeepSeek的R1模型的发布美国中国OpenAI, GPT-4 TurboOpenAI, GPT-4Alibaba, Qwen Chat 72BOpenAI, GPT-3.5 TurboAlibaba, Qwen Chat 7B4Q221Q232Q233Q23模型发布日期1. 人工分析智能指数:涵盖多种语言模型智能与推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500 & HumanEval。发布日期基于型号的首次公开发布。2. o3 智商指数根据 o1 测量智商指数的缩放估计。3. 根据公司声明和可比结果估计在可用的情况下,尚未由人工智能分析进行独立基准测试。美国与中国:前沿语言模型智能,随时间推移索引 人工智能 人工分析 233关键趋势OpenAI, o3DeepSeek, R1OpenAI, o1OpenAI, o1-previewAnthropic, ClaudeSonnet (Jun ‘24)GPT-4oDeepSeek, V3Alibaba, Qwen 2.5 Instruct 72B阿里巴巴,Qwen 2 Instruct 72BDeepSeek, V22Q243Q244Q241Q252Q254Q231Q24缩小差距:2024年最后几个月,中国顶尖人工智能实验室涌现出众多高性能模型。这导致中国人工智能实验室与美国人工智能实验室所提供的智能水平之间的差距正在缩小。目前,数个中国模型已在与美国顶尖实验室的模型展开竞争。开放式模型正逼近前沿实验室:开放式权重模型,由DeepSeek和阿里巴巴等公司引领,已接近o1级智能。推理模型迅速变得普遍:推理模型(在回答前进行“思考”)由OpenAI于2024年第三季度首次推出。短短数月内,以DeepSeek为首的中国竞争对手已基本复制了o1的智能水平。目前,中国多家人工智能实验室已拥有前沿级别的推理模型。1 1520253035404550556065707580859095222领先的美国前沿语言模型自2023年初OpenAI推出GPT-4以来,美国领先的AI实验室已争相要赶上OpenAIOpenAIAnthropicGoogleMetaGPT-4GPT-4 TurboPaLM 2-LGPT-3.5 TurboClaude 1Llama 2 Chat 70BLlama 65B4Q221Q232Q233Q231. 人工智能分析指数:涵盖一系列语言模型智能与推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500与HumanEval。发布日期基于该型号的首次公开发布。2. 估计值基于公司声明和可用的可比结果,尚未由人工智能分析进行独立基准测试。3. o3 Intelligence Index根据测量的o1智力量度进行估算。美国领先人工智能实验室前沿语言模型智能,随时间演进索引 人工智能 人工分析 223关键趋势o1-previewGemini 1.5 ProClaude 3.5(2024年9月)Gemini 2.0 FlashSonnet(2024年6月)GPT-4oClaude 3.5 Sonnet (Oct ‘24)Gemini 1.5 Pro (May ‘24)Llama 3.3Gemini 1.0 UltraClaude 3405BClaude 2.1OpusLlama 3 Instruct 70B2Q243Q244Q241Q252Q254Q231Q24模型发布日期超越GPT-4的智能火花:2024年的最后几个月见证了首次超越GPT-4的重大智能飞跃,由OpenAI的o3引领。推理模型、数据质量和新的强化学习技术等话题加入了预训练计算规模扩展,成为改善模型的主要杠杆。大科技公司逼近前沿实验室:谷歌和Meta的模型正迅速逼近前沿模型,Gemini 2.0 Flash已超越Claude 3.5 Sonnet和GPT 4o的能力。竞争实验室赶上了 OpenAI 的 GPT-4:OpenAI 于 2022 年 11 月在 ChatGPT 中推出GPT-3.5,启动了语言模型竞赛;领先的美国实验室已基本赶上 OpenAI 的前沿模型。1o3 o170B Llama 3.1 1520253035404550556065707580859095领先的中国前沿语言模型DeepSeekAlibabaQwen Chat 7B4Q221Q232Q233Q23中国领先的AI实验室DeepSeek和阿里巴巴已稳步发布新模型,DeepSeek于2024年底超越阿里巴巴。中国领先的AI实验室语言模型智能,随着时间的推移1. 人工分析智能指数:涵盖一系列语言模型智能和推理评估数据集的平均值。目前包含MMLU、GPQA Diamond、MATH-500和HumanEval。发布日期基于模型首次公开发布时间。2. 基于公司声明及可参考的对比结果估算,尚未通过人工分析进行独立基准测试。索引 人工智能 人工分析 222关键趋势DeepSeek R1DeepSeek V3Qwen 2.5 MaxQwen 2.5 Instruct 72BDeepSeek V2.5Qwen 2 Instruct 72BDeepSeek V2Qwen Chat 72BDeepSeek V12Q243Q244Q241Q252Q254Q231Q24模型发布日期模型发布日期潜力领导者:2025年2025年初,包括阿里巴巴、DeepSeek、MoonShot、腾讯、智谱和百川在内的中国AI实验室迅速发布了前沿推理模型。发布速度和频率表明,中国AI实验室在2025年已不再是落后者。以开放权重模型引领:包括阿里巴巴、DeepSeek和腾讯在内的中国人工智能实验室已发布了具有全球领先模型竞争力的开放权重前沿模型。快速提升的智力:虽然中国的人工智能实验室较晚加入人工智能竞赛,但在2024年他们很大程度上缩小了与前沿美国模型的智能差距。当OpenAI推出o1时,中国实验室在几个月内就研发出性能相似的模型(DeepSeek的R1)。1 94908989848282811LANGUAGE MODEL COUNTRY OF ORIGIN语言模型前沿:原产国人工智能分析指数,精选领先模型(2025年初),非详尽o3,o1,R1, o3-mini, o1-mini, Step-2- Gemini Gemini Claude V3, Alibaba GPT-4o Qwen2.5 MiniMax Nova Pro, Llama 3.3 Large 2 V2.5 (DecOpenAIOpenAI DeepSeek OpenAI OpenAI 16k, 2.0 Flash 1.5 Pro 3.5 DeepSeekQwen2.5 (Aug ’24), Instruct -Text-01, Amazon Instruct (Nov ’24), ’24),StepFun (experi- (Sep ’24), Sonnet心理), Google (2024年10月),Google虽然美国在智力前沿保持着整体领先地位,中国已不再落后。很少有其他国家展现出了前沿级的训练能力。1. 基于公司声明及可对比的结果进行估算,尚未由Artificial Analysis进行独立基准测试 2. 由于获取途径有限或评估数据不足,中国多家领先AI实验室的若干模型被排除在外 807979787776757474727264美国中国法国加拿大GrokBeta,Grok1.5 大型,指挥Jamba, R+AI21 Labs CohereMax, OpenAI 72B, MiniMax70B,Meta Mistral DeepSeekAlibabaAlibabaAnthropic 94898784838282111LANGUAGE MODEL COUNTRY OF ORIGIN1. 基于公司声明及可获取的类似结果进行估算,尚未由Artificial Analysis进行独立基准测试。语言模型前沿:中国AI实验室的模型人工智能分析指数,领先模型(2025年初),非详尽列表o3,OpenAIR1, Kimi k1.5, Step-R- M1- Step-2-DeepSeekMoonshotmini, 预览, 16k,StepFun白川StepFunGemini GLM- 豆瓣 1.5 V3,2.0 快速零故障Experi- 预览,字节跳动mental, ZhipuGoogle截至2025年初,多家中国人工智能实验室已展示或宣称达到前沿级别的智能,其中七家发布了具备推理能力的模型。 818079797877767473737065521111114-11最高智能:美国推理模型最高智能美国非推理模型4-Turbo, V1-128k,白川不可能的目标QwQ, Doubao 1.5 MiniMax Hunyuan Ernie 4.0 Yi-Alibaba Lite, -Text-01, Large, Turbo, Lightning,字节跳动MiniMax 腾讯BaiduYi AIGLM-Plus,ZhipuQwenPro, DeepSeek 2.5 Max,Alibaba 45✓–✓✓–1</>中国人工智能实验室概述:科技巨头中国科技巨头公司的前沿模型Alibaba描述AI Strategy(高层)Non-Reasoning推理最佳大型语言模型中国最大的电子商务公司,其母公司是最大的搜索引擎。玩家和超大规模引擎,以及抖音(TikTok)的运营商,(阿里云),WenxinYiyan,一个AI头条,是中国之一。最大的股东聊天机器人,据报道Ant Group• 发布开放• • • 权重模型 积极整合 开发专有• 最近专有模型模型和启动into search platform integrate across• 专有模型 消费者领域的长期领导者• 提供推断自动驾驶AI阿里云Qwen 2.5 MaxErnie 4.0 Turbo情报:79情报:76QwQ情报:78文本转语音语音转语音图像生成其他模型通义千问视频生成3D Generation主要消费者Apps估值(美元)235B1. 根据路透社数据(截至2025年1月31日)的市值 2. 字节跳动为私营公司。估值数据来自路透社 3. 华为为私营公司。估值数据来自路透社(2023年) 4. 人工分析智能指数:涵盖多种语言模型智能与推理评估数据集的平均值。目前包含MMLU、GPQADiamond、MATH-500及HumanEval。 5. 基于公司声明及可对比结果估算,尚未由人工分析独立进行基准测试。领先的中国科技公司正积极参与人工智能竞赛,并已发布了人工智能语言模型以及其他模态的模型。 55–5––✓✓✓✓–✓––✓✓✓✓✓✓✓✓–✓–✓1231</>其他具有人工智能雄心的公司> 开放式权重大型语言模型360 Security (Qihoo 360)美团XiaomiiFlytekBaidu字节跳动Huawei腾讯母公司Riot全球电信领导者以及游戏和微信,one of the world’s the 'all