行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 大模型

2025上半年AI核心成果及趋势报告

信息技术2025-07-30量子位智库王***

AI智能总结

应用趋势

通用类Agent：开始进入主流，深度整合工具使用，交付内容更加丰富，完成场景多样的深度研究类任务。
垂类Agent：开始涌现，自然语言操控功能成为垂类工作流的一部分，例如旅行、设计/创作、时尚等领域。
AI编程：成为最核心的垂类应用领域，头部编程应用收入增长速度创纪录，获得市场有效验证。
模型上下文协议（MCP）：加速大模型应用普及，赋能模型获取大量外部信息、操控现有软件应用，但尚未达到规模化生产级水平。

模型趋势

推理模型能力：在思维链范式下，通过堆积更多算力持续提升模型能力，数理类、代码类问题提升尤其显著。
工具使用能力：大模型开始走向Agentic，对工具使用进行端到端训练集成，可完成更复杂困难的任务。
多模态能力：大模型开始端到端融合视觉和文本走向多模态推理，以语言为中枢逐渐解锁多模态推理的系统。
小模型：大模型图像生成能力全方位增强，普通用户可以仅通过自然语言进行完整创作。
模型评估：模型评估加速演化，传统评估榜单快速饱和，可以动态更新，能在真实世界产生使用价值任务成为重要评估方向。

技术趋势

训练阶段：资源投入向后训练和强化学习倾斜，但预训练仍然有充足的优化空间，二者最终共同决定模型能力。
强化学习：重要性继续提升，算力消耗在未来会超过以自监督学习为核心的预训练，未来会从数学、代码等奖励清晰的领域向其他领域泛化。
多智能体（Multi-Agent）系统：可能成为继思维链推理模型之后的下一个前沿范式，继续提高智能上限。
在线学习：从交互经验中学习有希望成为下一代模型学习方式，可使模型摆脱对人类数据的依赖，提高智能上限。
Transformer模型架构：正在快速迭代，优化主要集中在注意力机制和前馈神经网络等层面，在工业界有多个落地案例。
Transformer混合架构：正在涌现，以RNN变体为主，已经出现在工业界大规模应用先例。

行业趋势

头部玩家差距缩小：头部大模型玩家的计算集群已达到数十万卡规模，并在持续扩张中，头部大模型厂商差距进一步缩小，竞争激烈。
中美大模型竞争差距缩小：中国模型公司在通用大模型之外的其他领域可以达到SOTA水平，尤其多模态领域表现出色。
AI编程成为必争之地：海外和国内头部玩家在AI编程的模型和产品领域密集布局。
国内大模型创业公司路线分化：部分厂商积极发布前沿模型产品追求智能上限，其他厂商专注垂类领域和商业化落地，放缓通用模型投入。

序⾔ •⼈⼯智能可能是⼈类有史以来最重要的发明，我们也正在见证AI的飞速发展，技术突破与场景落地交织推动着⾏业加速演进。量⼦位智库将在本报告中为⼤家介绍2025年上半年，AI领域的关键动态和趋势，旨在为决策者、从业者和创新者提供前沿洞察，帮助他们在竞争激烈的⽣态中把握机遇。本报告将从应用、模型、技术、⾏业4个⽅面进⾏展开： •应用趋势：包括通用类Agent开始进⼊主流、垂类Agent开始涌现、AI编程获得市场验证⾼速增长、模型上下⽂协议（MCP）获得⾏业关注等应用侧核⼼变化 •模型趋势：包括推理模型能⼒进步、⼯具使用能⼒落地、模型多模态能⼒增强、小模型加速应用普及、模型评估加速演化等模型层面的核⼼变化 •技术趋势：包括模型不同训练阶段的重⼼变化、强化学习的重要性、多智能体（Multi-Agent）系统和在线学习的优势、新型模型架构迭代和应用情况等技术范式的核⼼变化 •⾏业趋势：主要介绍AI领域的⾏业核⼼动态，包括头部玩家在模型层的差距正在缩小、OpenAI领先优势缩小，⾕歌和xAI在上半年的竞争中迎头赶上、中美⼤模型的竞争差距缩小、AI编程成为目前必争之地等核⼼动态 AI⾏业发展的底层逻辑是技术范式带来更强的模型能⼒，进⽽解锁更⼤的应用空间，加速价值创造通用类Agent产品深度整合⼯具使用，主打完成场景多样的深度研究类任务，交付内容更加丰富，成为2025上半年应用亮点以视觉操作为核⼼的Computer UseAgent（CUA）开始推向市场，代表了通用类Agent的另⼀条路径，正在与基于⽂本的深度研究类Agent融合分析 •CUA的基本原理是通过截取屏幕图像，利用模型的视觉能⼒，识别图形用户界面（GUI）中的按钮、菜单、⽂本字段等元素，通过虚拟光标和键盘输⼊与界面交互，执⾏点击、输⼊⽂本、滚动等操作 •多样化⼯具使用：让AI模拟⼈是AI接⼊互联⽹最快的⽅式，可以解决当前AI⼯具能⼒匮乏的问题，商业上也可以加快落地，应用基本⽆需改造即可让AI使用•打破数据孤岛：CUA能够访问到在不同应用上的所有信息，收集更多context，帮助用户作出更智能的决策局限 •运⾏成本⾼：依赖模型的视觉能⼒，图片处理导致成本较⾼；异步化难：CUA技术依赖屏幕截取，需要将计算机控制权交给AI（沙盒化虚拟机除外），C端场景下⽆法自动的完成身份验证；准确率不⾼：CUA在简单⽹页任务上表现优异，但在复杂本地操作中仍有短板受益于⼤模型在语义理解、多模态等⽅面的能⼒提升，垂直应用场景开始Agent化，自然语⾔操控功能正在成为垂类⼯作流的⼀部分设计旅⾏ •飞猪推出“问⼀问”功能，多个Agent协同⼯作，例如路线制定、交通票务查询、出⾏攻略以及酒店规划等Agent相互协同•可用自然语⾔在对话框提出、更改各类出⾏需求 •以自然语⾔交互为核⼼，同时整合⼤量专业设计功能，重塑传统视觉的⼯作流，⼀句话即可⽣成接近⽣产级的海报或视频 •以自然语⾔交互为核⼼，通过简单语⾔和图片输⼊，视频创作Agent就能自动分析、构思并⽣成具有专业⽔准、富有观看价值的完整内容，提升了创作效率 •通过自然语⾔描述可以⽣成时尚穿搭，匹配相应的⽣活、⼯作、娱乐场景，让用户看到整体穿搭效果，也可以通过自然语⾔和用户图片⼀键⽣成成套搭配 •技术基础：图像⽣成模型能⼒提升，仅通过自然语⾔就能实现精准的图片⽣成和编辑（例如GPT-4o和Gemini的图像⽣成模型，以及其他3D资产⽣成模型） •技术基础：新⼀代视频⽣成模型有更强的指令遵循、语义理解能⼒和编辑灵活度，⽣成视频的物理规律理解、对象⼀致性更佳 •技术基础：数字⼈技术的成熟、⼤模型语义理解能⼒和世界知识的增强，模型美学效果提升 •技术基础：⼤模型能⼒提升，可以准确调用⼯具查询数据（例如机票、酒店信息），指令遵循能⼒增强可以理解用户意图 AI编程成为当前最核⼼的垂类应用领域，正在从源头改变软件⽣产⽅式，头部编程应用收⼊增长速度创纪录，获得市场有效验证分析 •CursorARR1突破5亿美⾦，证明了AI编程的价值空间，产品演化⼤概分为以下⼏个阶段： •代码补全：通过理解代码上下⽂，预测用户的下⼀步编辑，主要是向后补全 •单⽂件代码编辑：根据最近的修改和上下⽂，提供跨越多⾏的代码建议，适用于编辑单个⽂件或特定区域 •多⽂件同时编辑：自动检索上下⽂，通过自定义的检索模型能够理解整个代码库，减少用户⼿动提供上下⽂的需要。可自动编写运⾏终端命令，创建、删除和修改⽂件，完成更复杂任务4 模型上下⽂协议MCP加速⼤模型应用普及，赋能模型获取⼤量外部信息、操控现有软件应用，打开更⼤应用空间，但尚未达到规模化⽣产级⽔平分析 •MCP可为⼤模型提供标准化接⼝，主打⾼效安全调用外部数据和⼯具，为Agent提供技术底座和⽣态支持。传统的API调用面临调用⽅和被调用⽅之间急剧增加的复杂度，MCP则尝试把规范整合到⼀个通信协议中。MCP⽣态主要有3类玩家：客户端（MCPClient）、服务端（MCPServer）、MCP聚合平台 •MCP⽣态技术侧尚未成熟：在⼤规模的⽣产级场景中落地较少，客户端（MCPClient）现在支持的调用数量相对有限（20-30个调用），服务端（MCPServer）虽然数量快速增加，但稳定性和可靠性参差不齐，限制应用普及局限分析 •激励机制不完善：部分软件供应商希望拥有自⼰的流量⼊⼝和用户关系，并不想成为被MCP抽象的API，没有动机积极开放、打磨自⼰的MCP服务端 •目前海内外头部互联⽹公司，如⾕歌、亚马逊、阿里、字节等公司都在积极推动MCP⽣态发展，构建⽣态社区，随模型能⼒增强MCP将成为AI核⼼⽣态组件模型推理能⼒在思维链范式下，依然可以通过堆积更多算⼒持续提升模型能⼒，数理类、代码类问题提升尤其显著分析 •最近半年模型的智能上限在继续提升，自2024年底以思维链技术为核⼼的推理模型通用推理能⼒持续提升，证明了基于纯自然语⾔进⾏通用推理也能达到极⾼的智能⽔平•此外⾕歌和OpenAI的实验模型已经可以用自然语⾔在IMO2中取得⾦牌⽔平，模型推理能⼒进展迅速⼤模型开始⾛向Agentic，对⼯具使用进⾏端到端训练集成，相比仅基于⽂本的思维链推理有重⼤提升，可完成更复杂困难的任务⼤模型开始端到端融合视觉和⽂本⾛向多模态推理，以语⾔为中枢逐渐解锁多模态推理的系统21慢思考端到端视觉推理⼯作流类视觉推理 •OpenAI的o3模型尤其擅长视觉推理类任务，例如⾛迷宫、推箱⼦、做数独、图片找不同等，可以像侦探⼀样推理，放⼤照片局部细节同时调用⼯具进⾏多次推理检查 •不⾜之处在于模型的性能不稳定，依然会出现较多幻觉问题，可靠性有限 •VisProg：视觉问答框架，通过⼤模型⽣成符号化程序来解决视觉任务，主要利用上下⽂学习能⼒，将复杂问题分解为可执⾏的⼦步骤，调用预定义的视觉⼯具API（如目标检测、图像分割等）来完成任务•ViperGPT：视觉推理框架，利用⼤语⾔模型⽣成可执⾏程序，但与VisProg不同的是，它直接⽣成Python代码，调用预定义的视觉API（如目标检测、图像分割等）来回答基于图像的问题•Visual Sketchpad：多模态语⾔模型框架，模拟⼈类绘制草图辅助推理的⾏为，允许模型通过⽣成代码调用绘图⼯具（如画线、框、标记等）或视觉模型（如目标检测、分割模型）来创建视觉草图，并根据这些草图进⾏动态规划和推理 •多次调整放⼤读取⼿写的量⼦电动⼒学题目，精确提取⽂本和图表和专业公式，再运用思维链进⾏深度推理解决问题 •搜索图像，找到公交车相关信息，放⼤精确读取⽂本，再通过⽹页搜索地理位置和车辆、站点信息，给出车辆通勤频率和运营时间表 •根据图像信息推测真实位置，和⼤模型庞⼤的知识能⼒打通，搜索⽹页进⾏信息核实⽆法Scale 可以scale ⼤模型图像⽣成能⼒全⽅位增强，语⾔理解能⼒升级和审美提升是最⼤亮点，普通用户可以仅通过自然语⾔进⾏完整创作视频⽣成模型整合原⽣配音，可控性和编辑灵活度增加，⽣成视频的物体⼀致性和物理规律协调性增强，AI视频商业化和普及度进展积极模型智能密度持续提升，模型厂商积极推出小模型实现极致性价比，降低模型部署硬性门槛，加速模型应用普及分析模型评估加速演化，传统评估榜单快速饱和，可以动态更新，能在真实世界产⽣使用价值任务成为重要评估⽅向分析 •随着模型能⼒增强，真实反映AI的客观能⼒正变得越来越困难，传统的静态榜单已经趋于饱和，未来将不再是最重要的评估⽅式 •未来的模型评估，除对单纯智能的考验外，也需要⼀套对齐现实世界专家能⼒的实用性任务体系，重点考察实用性任务、商业价值或者经济产出 •推出HealthBench：衡量AI在医疗健康领域能⼒的全新基准测试 •推出xBench：衡量AI在HR、销售等领域落地商业价值的基准测试训练阶段上，资源投⼊向后训练和强化学习倾斜，但预训练仍然有充⾜的优化空间，⼆者最终共同决定模型能⼒强化学习的重要性继续提升，算⼒消耗在未来会超过以自监督学习为核⼼的预训练，未来会从数学、代码等奖励清晰的领域向其他领域泛化分析 •强化学习的关键在于如何设置奖励模型，对于代码、数学等有明确答案的领域，奖励模型的设置相对容易•对于没有清晰反馈的领域，目前采用的⽅法是通过专门的模型对表现进⾏评分•模型在集成复杂的⼯具调用等其他能⼒后，强化学习训练评估的难度也在增加多智能体（Multi-Agent）系统可能成为继思维链推理模型之后的下⼀个前沿范式，继续提⾼智能上限分析 •MultiAgent有如下优势：•分布式处理并⾏⼯作，提⾼效率和计算速度，适合⼤规模动态环境•⾼效利用上下⽂：单个Agent基于局部信息决策，减少对全局信息的依赖，避免上下⽂污染•能⼒多样化：不同Agent有不同的知识、技能，可通过信息共享产⽣更优的解决⽅案•鲁棒性与容错性：单个Agent的故障不会导致整个系统失效 •上下⽂限制：单Agent接收过多上下⽂有⽆法聚焦关键信息的问题 •⼯具调用限制：模型可以调用的⼯具非常多，单个模型很难做出有效调用决策 •领域知识限制：单个模型没有垂直领域的知识建构从交互经验中学习有希望成为下⼀代模型学习⽅式，正在成为核⼼突破⽅向，可使模型摆脱对⼈类数据的依赖，提⾼智能上限在线学习⼤模型核⼼特征 •持续经验流：Agent在长期、连续的经验中学习，⾏为随过往经验自适应调整，可追求长期目标，不局限于短期交互；⾏动和观察能⼒：Agent可自主在现实世界⾏动，通过传感器、⼯具与环境交互，如操作设备、监控数据，⽽非依赖⼈类对话；吸收现实反馈：奖励信号来自环境结果（如健康指标、实验数据、用户反馈），⽽非⼈类预判，可突破⼈类认知局限，且能通过试错灵活调整 •⾼质量数据稀缺：目前模型学习范式⾼度依赖⼤量⼈类⽣成的数据，但⾼质量数据正变得稀缺或难以获取，继续扩展的收益正在边际递减•数据质量存在上限：由⼈类⽣成的数据在智能层面存在上限，难以达到超级智能⽔平 •GoogleDeepmind和强化学习之⽗Richard Sutton联合提出“经验时代（Era of Experience）”，强调从与世界实时交互中学习的重要性 Transformer模型架构正在快速迭代，优化主要集中在注意⼒机制和前馈神经⽹络等层面，在⼯业界有多个落地案例 Transformer混合架构正在涌现，以RNN变体为主，已经出现在⼯业界⼤规模应用先例由于⽣成和验证难度的不对称性，代码验证成为目前AI编程自动化⽔平提升的前沿⽅向，可进⼀步加速软件⽣产自动化 •代码和⽂本需要用户进⾏仔细阅读和推理，有效验证的成本、时间、门槛较⾼•目前解决验证问题思路是把复杂问题拆解成容易验证的多个小问题，例如绘画过程，⼀边作画⼀边进⾏调整，⽣成和验证相互交织解决验证问题的关键原则系统提示词（SystemPrompt）正在成为决定模型用户体验的关键技

点击免费查看完整报告