行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2025年Al大模型资料汇编

信息技术 2025-12-25 - - 华仔

2025年大模型发展核心观点

四大结构性转变

引擎革命：从“人工反馈”到“可验证奖励”
训练范式从依赖主观人类反馈（RLHF）转向基于客观事实的可验证奖励强化学习（RLVR），推动模型推理能力实现飞跃。OpenAI O3模型率先应用RLVR，实现推理能力质的突破。
新王登基：竞争格局决定性倾斜
谷歌Gemini 3全面超越GPT系列，打破OpenAI的领先神话。中国模型以成本效益优势实现“弯道超车”，如Qwen系列开源模型下载量全球第一。
智能异形：“锯齿状”能力结构凸显
模型在数理等领域展现“鬼才”级能力，但在常识推理上存在短板，对“通用智能”的评估陷入新困境。
AI应用从通用助手进化为专用工具
深度集成工作流，如编程助手、办公文档助手等专用AI助手兴起，引发新的生态博弈。

巨头攻防战

谷歌：Gemini 3终结OpenAI领先时代，战略自主，多模态成为标配。
Anthropic：Claude深耕代码与智能体工作流，主打“高质量/高效率”工具调用，开源生态（Llama/Mistral）满足地缘战略需求。
OpenAI：面临盈利挑战，O系列模型虽强，但成本和生态锁定成为瓶颈。

训练范式革命

RLVR优势：客观稳定、涌现推理、更高性价比，算力预算转向RLVR深度训练。
自我进化：多智能体自我博弈和合成数据微调，进一步摆脱人类标注依赖。

智能的异形

“锯齿状”智力结构：模型擅长可验证任务（数学、编程），但在常识推理上存在短板。
形式化智力狂飙：数学与编程能力实现突破，如Anthropic Claude 4.5和GPT-5系列能独立完成模块开发。

数据引擎重构

合成数据崛起：因成本、版权与合规优势，合成数据成为主流应用模式，但需警惕“数据回馈循环”风险。

推理预算

核心逻辑：模型越强，推理越贵，动态分配算力成为产品定价与体验的核心。
产业实践：Anthropic和OpenAI均在产品层面管理推理资源，直面成本约束。

基准的困境

基准污染与“过拟合”：模型学会“应试”，传统评测基准失灵。
未来方向：转向更贴近真实应用的综合评测，如长程任务、跨模态推理、行为安全等。

应用新范式

专用AI助手：通过上下文工程、任务编排、自主性调节，深度嵌入垂直工作流。
“氛围编程”：开发者用自然语言描述功能意图，AI负责生成和迭代代码，生产力飞跃。
智能体元年：模型进化为可感知环境并自主行动的代理，引发生态冲突，如微信、淘宝等限制A助手访问。
RAG成为企业级AI基石：检索增强生成有效解决幻觉和知识更新问题，催生“RAG Stack”工程实践。

重塑AI格局的四股力量

技术的再平衡：AI算力去中心化，从云端到云+端协同，开源工具和终端AI发力推动本地部署。
开源的浪潮：中国厂商成为主导，推动技术平权，Qwen系列性能逼近甚至超越闭源模型。
市场的洗牌：资本高度集中，竞争从模型本身转向生态控制权，跨界整合与应用裂变成为关键。
寡头时代与生态战争：巨头如微软、字节跳动等将AI融入全场景，争夺数据、渠道和用户心智。

本次回顾将深入剖析定义了2025年的四个层面上的结构性转变。这些转变不仅解释了今年的重大事件，也为未来的发展指明了方向OpenAl的前联合创始人AndrejKarpathy: 2025年的四场关键转变。训练范式从RLHF演进至RLVR,模型通过自我验证实现推理能 AI应用从通用助手进化为专用工具和自主智能体，深度炭入编程、智能异形：“锯齿状”能力结构凸显范式跃迁：从聊天框到深度集成工作流模型在数理等领域展现“鬼才”级能力，却在常识上频须短板。对“通用智能”的评估陷入新困境。办公等专业流程，引发新的生态博弈。谷歌的绝地反击：Gemini3终结OpenAI的领先时代2025年11月，谷歌发布Gemini3,其性能在关键基准上不仅超越了GPT-5.2,更标志着谷歌从追赶者重返行业领导者地位。 ARC-AGI-2基准测试(“A图灵测试”)40%技术优势：Gemini3在数学竞赛、多模态31.1% 训练，摆脱了对英伟达GPU的依赖。10%市场影响：发布后，英伟达股价应声下跌7%,市场震动。Gemini3 实用主义路线：聚焦工程效率与开放生态AnthropicClaude:深耕代码与智能体工作流，主打“高质量/高效率”工具调用开源生态(Llama/Mistral):焦点从“模型发布”转向“可部署性与生态扩散”·现实需求：政企与行业场景优先选择“能在私有云安全运行、可被审计、巨头们的攻防战：成本、代码与多模态在谷歌强势反攻的同时，其他主要参与者也在各自的优势领域深化布局，但OpenAI面临严峻的盈利挑战。 AnthropicClaude的“代码壁垒”OpenAIO系列与盈利困境多模态成为标配导推理能力，但引发“个性”变保守的争议。代码生成和复杂推理上表现卓越，一度领先同期on 张之年”。OrogleAl普追增加对图像、语音、视频的理解与生成能力。 ·2025年被称为“多模态模型扩张之年”。·主流模型(如GPT-4Vision,GoogleVEO)普遍增加对图像、语音、视频的理解与生成能力，Al从“能说会道”进化为“能看会听”。训练范式革命：从RLHF到RLVR的飞跃2025年模型能力飞跃的根本原因，是训练方法从依赖主观人类反馈(RLHF)转向了基于客观事实的可验证奖励强化学习(RLVR)。右侧(新):RLVR-可验证奖励强化学习左侧(IB):RLHF-人类反馈强化学习模型生成更新模型模型生成更新模型除了RLVR,模型通过自我博弈和自我生成数据进行训练，进一步摆脱了对人类标注的依赖。智能的异形：我们召唤的是“鬼才”,而非“完人”数学定理证明“召唤幽灵，控存动 ·指标导向的强化学习，使模型学会了“击穿几乎所有基准测试”,但这不等于实现了真正的通用理解。·这种“高端智商与低级错误”并存的不均衡智力，说明当前LLM与人类智能有着本质不同的“形状”。形式化智力的狂飙：数学与编程能力实现突破性进展受益于RLVR和专项微调，模型在逻辑严密的数理领域的能力取得了质的飞跃，其作用从“辅助”升级为“独立完成模块”。数据引擎重构：合成数据因成本、版权与合规而崛起主流应用模式：推理预算：从技术概念到产品定价与体验的核心旋钮向NotebookLM 基准的困境：当模型学会“应试”后，我们该如何评测?随着模型能力爆发式增长，传统评测基准在2025年遭遇“失灵”,高分不再可靠地反映真实应用能力。两大困境基准污染与“过拟合”未来的评测方向新能力缺乏评测标准单一分数 nchmarks) 应用新范式I:从通用聊天到专用助手Al应用进入专业化与深度集成阶段，通过将LLM能力无缝嵌入垂直工作流，大幅提升实用性。 3.自主性调节：允许用户控制Al自动执行任务的程度。 2.任务编排：在幕后编排多次LLM调用，以DAG(有向无杂任务。功能：不仅是代码补全，更能将用户请求拆解为一系列模型调用，形成复杂的代码生成流程。启示：引发了“有没有某领域的Cursor”的讨论，“X领域的A应用层”成为创业热点。应用新范式II:“氛围编程”重塑软件开发“氛围编程”(VibeCoding) 应用新范式Ⅱ:智能体元年与生态的博弈核态进传化：2025年被称为“Al智能体元年”,模型从被动应答进化为可感知环境并自主规划与行动的代理(Agent)。应用新范式IV:RAG成为企业级AI的基石检索增强生成(RAG)成为2025年企业AI应用的主流工程实践，有效解决了幻觉和知识更新问题。 RAG工作流程趋势：A应用从“大模型即服务”走向“大模型+知识”的复合形态，并催生了“RAGStack”工程实践和专用知识大模型的需求。 NotebookLM 第一股力量：技术的再平衡旧范式：云端一统新现实：云+端协同与生态赋能本地部署的实现：技术突产业驱动力核心赋能要素模型优化：开源工具如GGML、TensorRT优化及4-bit量化技术。里程碑式证明：LLaMA-65B模型被成功压缩，可在单张高端游戏GPU上运行推理。企业私有化需求：出于数据合规与安全考量，企业倾向将模型部署在私有云或本地服务器。算力即“石油”:全球芯片竞赛与供给链安全heIncumbent 主导地位正被挑战。nviDia.eyChallengersGoogle:成功用TPUv5集群训练Gemini3,并计划将TPU产品化对外提供算力。AMD/Intel:AMD的M1300系列与Intel的Habana加速器积 rategicDrivers·核心动因：对A算力供给链安全和成本优化的深层考量。第二股力量：开源的浪潮社区力量的崛起：二个协作的超级大国正在形成2025年，一个全球化的、去中心化的协作生态正在生产可与顶级闭源模型相媲美的Al。这股力量被称为“技术平权”,它正在从根本上改变创新模式和竞争格局。 2025:开源浪潮的决定性时刻KeyInsightStatement中国厂商成为主导全球开源生态的“主力军”,2025年，大模型开源浪潮进入高潮。多款顶尖开刻重塑全球Al竞争格局。 QwenDeo性能差距缩小LlamaClaudeGPT GLMMMistral 开源正在获胜：性能直逼甚至超越闭源Mistral01.ai通义千问 onsofOpenSource6亿+下载阿里巴巴通义千间(Qwen):·累计开源模型超过300个。 01.aiYi-34B:全球力量：·由初创团队发布，在多项中英文基准上声称超·法国MistralAl、阿联酋Jais、上海A实验室越LLaMA-7OB等更大参数模型。InternQuote:引用人民网研究院的观点，称开源模型的崛起是中国从Al“大模型跟跑”到“并跑”的标志。通义千问(Qwen):以绝对优势构筑全球第一开源生态数亿次130,000+ 全球累计模型下成为开发者首选基座。衍生模型数量，位居全球首位，形成强大网络效应。Qwen Qwen系列被社区大量二次开发和微调，广泛支持多语言、多模态任务，成为事实上的开源生态核心。 Qwen3系列：全线开源的技术实力 DeepSeek:高效MoE架构，定义性能新标杆以高效的MoE(Mixture-of-Experts)架构著称，在性能上对标顶级闭源模型。DeepSeekR1,DeepseekV3 突破。全球视野：开源创新浪潮中的其他关键力量开源浪潮是全球性的，除了中国厂商，国际上的主要参与者也在持续推动技术边界。 MistralAlShanghaiAlLabIInternLMMeta □·推出Llama4家族*·采用MoE架构并原生 ANotebookLM “全栈开放”的新范式当前的开源浪潮已从单纯的模型权重开放，扩展至覆盖大模型全生命周期的“全栈开放”。技术民主化与全球协作@扇技术民主化全球协作高校与研究机构中小企业(SMEs)(Universities&ResearchInst)开放的生态系统促进了降低顶尖A|技术的使用门开源技术模型进行创新。开源模式为整个人工智能行业注入了前所未有的强劲活力。开源与闭源的角力：双轨市场格局形成目标用户：中小企业、个人开发者(出于成本和定制化考量)。 TheSynthesis:巨头(如微软)也开始拥抱开源，与Meta合作推广Lama,形成竞合关系。结论：2025年两者差距明显缩小，Al市场呈现出清晰的差异化竞争双轨格局。第三股力量：市场的洗牌随着技术地基的变动，市场正在发生剧烈震荡。资本以前所未有的力度向少数头部玩家集中，导致“百模大战”走向“残酷出清”,竞争的终局 ANotebookLM 竞争的终局：生态之战跨界整合与应用裂变(Cross-IndustryIntegration&ApplicationFission) Alibaba(千问+淘宝+钉钉)Microsoft(0penAl+Azure+Office)ElonMusk(xAl+X+Tesla)ByteDance(抖音+头条) 小淘

点击免费查看完整报告

2025年Al大模型资料汇编

2025年大模型发展核心观点

四大结构性转变

巨头攻防战

训练范式革命

智能的异形

数据引擎重构

推理预算

基准的困境

应用新范式

重塑AI格局的四股力量

你可能感兴趣

【风口研报公司】首家对外确认游戏Al大模型备案，这家公司已将Al视频技术应用于研运环节、旗下IP贡献稳定营收，近201 8年以来5次回购股份当前PE仅15倍出头

【电报解读】性能超越GRTz4，OpenAl 竞争对手官宣新款大模型，机构称这一行业有望迎来业务迭代和变革，这家公司Al平台已具备文生视频能力-20240305

[盘中宝] Al大模型知识产权付费或将成为行业趋势，优质语料库产业链价值凸显，相关公司或创造新的营收增长点这家公司在该细分领域版权储备业内领先-20240222

【点金互动易】机器人AI多模态，细分机器人产品在日、法等多国均有交付，在人形机器人领域展开布局，已发布基于多模态超融合技术的大模型，这家公司Al领域储备包括视觉技术、机器人控制技术

[盘中宝]马斯克旗下大模型产品再迎新进展，Grok V1·5或将两周后发布，机构称2024年或是AI应用真正元年，这家企业产品助力多个行业Al场景落地-20240222

王一博：大模型时代下的Al for Science

【风口研报·洞察】 2024年2月国产游戏版号下发共111款游戏获批!分析师认为连续3个月版号数量破百已表明监管支持态度，未来有望持续获益于Al大模型的迭代突破;两会将至应该重点关注哪些产业投资机会

【盘中宝】 Al大模型最佳载体，又一企业发布该新技术产品，微软、AMD、英特尔已纷纷入场，这家企业可提供“一站式”的制造交付服务-20240310

【电报解读】为人工智能夯实“算力底座”!全国已有超40座城市布局智算中心，这5个领域的技术升级有望加速，这家公司Al服务器能够满足当前各类主流AIl场景与Al大模型的训练需求-20240222

【盘中宝】 Al大模型快速崛起驱动这一市场需求激增，政策密集催化下未来行业市场规模或近2000亿，这家企业拥有数以亿计的专业级且获版权许可的细分产品-20240220

2025年Al大模型资料汇编

你可能感兴趣

【风口研报公司】首家对外确认游戏Al大模型备案，这家公司已将Al视频技术应用于研运环节、旗下IP贡献稳定营收，近201 8年以来5次回购股份当前PE仅15倍出头

【电报解读】性能超越GRTz4，OpenAl 竞争 对手官宣新款大模型，机构称这一行业有望迎来业务迭代和变革，这家公司Al平台已具备文生视频能力-20240305

[盘中宝] Al大模型知识产权付费或将成为行业趋势，优质语料库产业链价值凸显，相关公司或创造新的营收增长点 这家公司在该细分领域版权储备业内领先-20240222

【点金互动易】机器人AI多模态，细分机器人产品在日、法等多国均有交付，在人形机器人领域展开布局，已发布基于多模态超融合技术的大模型，这家公司Al领域储备包括视觉技术、机器人控制技术

[盘中宝]马斯克旗下大模型产品再迎新进展，Grok V1·5或将两周后发布，机构称2024年或是AI应用真正元年，这家企业产品助力多个行业Al场景落地-20240222

王一博：大模型时代下的Al for Science

【风口研报·洞察】 2024年2月国产游戏版号下发 共111款游戏获批!分析师认为连续3个月版号数量破百已表明监管支持态度，未来有望持续获益于Al大模型的迭代突破;两会将至应该重点关注哪些产业投资机会

【盘中宝】 Al大模型最佳载体，又一企业发布该新技术产品，微软、AMD、英特尔已纷纷入场，这家企业可提供“一站式”的制造交付服务-20240310

【电报解读】为人工智能夯实“算力底座”!全国已有超40座城市布局智算中心，这5个领域的技术升级有望加速，这家公司Al服务器能够满足当前各类主流AIl场景与Al大模型的训练需求-20240222

【盘中宝】 Al大模型快速崛起驱动这一市场需求激增， 政策密集催化下未来行业市场规模或近2000亿，这家企业拥有数以亿计的专业级且获版权许可的细分产品-20240220

【电报解读】性能超越GRTz4，OpenAl 竞争对手官宣新款大模型，机构称这一行业有望迎来业务迭代和变革，这家公司Al平台已具备文生视频能力-20240305

[盘中宝] Al大模型知识产权付费或将成为行业趋势，优质语料库产业链价值凸显，相关公司或创造新的营收增长点这家公司在该细分领域版权储备业内领先-20240222

【风口研报·洞察】 2024年2月国产游戏版号下发共111款游戏获批!分析师认为连续3个月版号数量破百已表明监管支持态度，未来有望持续获益于Al大模型的迭代突破;两会将至应该重点关注哪些产业投资机会

【盘中宝】 Al大模型快速崛起驱动这一市场需求激增，政策密集催化下未来行业市场规模或近2000亿，这家企业拥有数以亿计的专业级且获版权许可的细分产品-20240220