AI智能总结
序⾔ •⼈⼯智能可能是⼈类有史以来最重要的发明,我们也正在见证AI的飞速发展,技术突破与场景落地交织推动着⾏业加速演进。量⼦位智库将在本报告中为⼤家介绍2025年上半年,AI领域的关键动态和趋势,旨在为决策者、从业者和创新者提供前沿洞察,帮助他们在竞争激烈的⽣态中把握机遇。本报告将从应用、模型、技术、⾏业4个⽅面进⾏展开: •应用趋势:包括通用类Agent开始进⼊主流、垂类Agent开始涌现、AI编程获得市场验证⾼速增长、模型上下⽂协议(MCP)获得⾏业关注等应用侧核⼼变化 •模型趋势:包括推理模型能⼒进步、⼯具使用能⼒落地、模型多模态能⼒增强、小模型加速应用普及、模型评估加速演化等模型层面的核⼼变化 •技术趋势:包括模型不同训练阶段的重⼼变化、强化学习的重要性、多智能体(Multi-Agent)系统和在线学习的优势、新型模型架构迭代和应用情况等技术范式的核⼼变化 •⾏业趋势:主要介绍AI领域的⾏业核⼼动态,包括头部玩家在模型层的差距正在缩小、OpenAI领先优势缩小,⾕歌和xAI在上半年的竞争中迎头赶上、中美⼤模型的竞争差距缩小、AI编程成为目前必争之地等核⼼动态 AI⾏业发展的底层逻辑是技术范式带来更强的模型能⼒,进⽽解锁更⼤的应用空间,加速价值创造 通用类Agent产品深度整合⼯具使用,主打完成场景多样的深度研究类任务,交付内容更加丰富,成为2025上半年应用亮点 以视觉操作为核⼼的Computer UseAgent(CUA)开始推向市场,代表了通用类Agent的另⼀条路径,正在与基于⽂本的深度研究类Agent融合 分析 •CUA的基本原理是通过截取屏幕图像,利用模型的视觉能⼒,识别图形用户界面(GUI)中的按钮、菜单、⽂本字段等元素,通过虚拟光标和键盘输⼊与界面交互,执⾏点击、输⼊⽂本、滚动等操作 •多样化⼯具使用:让AI模拟⼈是AI接⼊互联⽹最快的⽅式,可以解决当前AI⼯具能⼒匮乏的问题,商业上也可以加快落地,应用基本⽆需改造即可让AI使用•打破数据孤岛:CUA能够访问到在不同应用上的所有信息,收集更多context,帮助用户作出更智能的决策 局限 •运⾏成本⾼:依赖模型的视觉能⼒,图片处理导致成本较⾼;异步化难:CUA技术依赖屏幕截取,需要将计算机控制权交给AI(沙盒化虚拟机除外),C端场景下⽆法自动的完成身份验证;准确率不⾼:CUA在简单⽹页任务上表现优异,但在复杂本地操作中仍有短板 受益于⼤模型在语义理解、多模态等⽅面的能⼒提升,垂直应用场景开始Agent化,自然语⾔操控功能正在成为垂类⼯作流的⼀部分 设计 旅⾏ •飞猪推出“问⼀问”功能,多个Agent协同⼯作,例如路线制定、交通票务查询、出⾏攻略以及酒店规划等Agent相互协同•可用自然语⾔在对话框提出、更改各类出⾏需求 •以自然语⾔交互为核⼼,同时整合⼤量专业设计功能,重塑传统视觉的⼯作流,⼀句话即可⽣成接近⽣产级的海报或视频 •以自然语⾔交互为核⼼,通过简单语⾔和图片输⼊,视频创作Agent就能自动分析、构思并⽣成具有专业⽔准、富有观看价值的完整内容,提升了创作效率 •通过自然语⾔描述可以⽣成时尚穿搭,匹配相应的⽣活、⼯作、娱乐场景,让用户看到整体穿搭效果,也可以通过自然语⾔和用户图片⼀键⽣成成套搭配 •技术基础:图像⽣成模型能⼒提升,仅通过自然语⾔就能实现精准的图片⽣成和编辑(例如GPT-4o和Gemini的图像⽣成模型,以及其他3D资产⽣成模型) •技术基础:新⼀代视频⽣成模型有更强的指令遵循、语义理解能⼒和编辑灵活度,⽣成视频的物理规律理解、对象⼀致性更佳 •技术基础:数字⼈技术的成熟、⼤模型语义理解能⼒和世界知识的增强,模型美学效果提升 •技术基础:⼤模型能⼒提升,可以准确调用⼯具查询数据(例如机票、酒店信息),指令遵循能⼒增强可以理解用户意图 AI编程成为当前最核⼼的垂类应用领域,正在从源头改变软件⽣产⽅式,头部编程应用收⼊增长速度创纪录,获得市场有效验证 分析 •CursorARR1突破5亿美⾦,证明了AI编程的价值空间,产品演化⼤概分为以下⼏个阶段: •代码补全:通过理解代码上下⽂,预测用户的下⼀步编辑,主要是向后补全 •单⽂件代码编辑:根据最近的修改和上下⽂,提供跨越多⾏的代码建议,适用于编辑单个⽂件或特定区域 •多⽂件同时编辑:自动检索上下⽂,通过自定义的检索模型能够理解整个代码库,减少用户⼿动提供上下⽂的需要。可自动编写运⾏终端命令,创建、删除和修改⽂件,完成更复杂任务4 模型上下⽂协议MCP加速⼤模型应用普及,赋能模型获取⼤量外部信息、操控现有软件应用,打开更⼤应用空间,但尚未达到规模化⽣产级⽔平 分析 •MCP可为⼤模型提供标准化接⼝,主打⾼效安全调用外部数据和⼯具,为Agent提供技术底座和⽣态支持。传统的API调用面临调用⽅和被调用⽅之间急剧增加的复杂度,MCP则尝试把规范整合到⼀个通信协议中。MCP⽣态主要有3类玩家:客户端(MCPClient)、服务端(MCPServer)、MCP聚合平台 •MCP⽣态技术侧尚未成熟:在⼤规模的⽣产级场景中落地较少,客户端(MCPClient)现在支持的调用数量相对有限(20-30个调用),服务端(MCPServer)虽然数量快速增加,但稳定性和可靠性参差不齐,限制应用普及 局限分析 •激励机制不完善:部分软件供应商希望拥有自⼰的流量⼊⼝和用户关系,并不想成为被MCP抽象的API,没有动机积极开放、打磨自⼰的MCP服务端 •目前海内外头部互联⽹公司,如⾕歌、亚马逊、阿里、字节等公司都在积极推动MCP⽣态发展,构建⽣态社区,随模型能⼒增强MCP将成为AI核⼼⽣态组件 模型推理能⼒在思维链范式下,依然可以通过堆积更多算⼒持续提升模型能⼒,数理类、代码类问题提升尤其显著 分析 •最近半年模型的智能上限在继续提升,自2024年底以思维链技术为核⼼的推理模型通用推理能⼒持续提升,证明了基于纯自然语⾔进⾏通用推理也能达到极⾼的智能⽔平•此外⾕歌和OpenAI的实验模型已经可以用自然语⾔在IMO2中取得⾦牌⽔平,模型推理能⼒进展迅速 ⼤模型开始⾛向Agentic,对⼯具使用进⾏端到端训练集成,相比仅基于⽂本的思维链推理有重⼤提升,可完成更复杂困难的任务 ⼤模型开始端到端融合视觉和⽂本⾛向多模态推理,以语⾔为中枢逐渐解锁多模态推理的系统21慢思考 端到端视觉推理 ⼯作流类视觉推理 •OpenAI的o3模型尤其擅长视觉推理类任务,例如⾛迷宫、推箱⼦、做数独、图片找不同等,可以像侦探⼀样推理,放⼤照片局部细节同时调用⼯具进⾏多次推理检查 •不⾜之处在于模型的性能不稳定,依然会出现较多幻觉问题,可靠性有限 •VisProg:视觉问答框架,通过⼤模型⽣成符号化程序来解决视觉任务,主要利用上下⽂学习能⼒,将复杂问题分解为可执⾏的⼦步骤,调用预定义的视觉⼯具API(如目标检测、图像分割等)来完成任务•ViperGPT:视觉推理框架,利用⼤语⾔模型⽣成可执⾏程序,但与VisProg不同的是,它直接⽣成Python代码,调用预定义的视觉API(如目标检测、图像分割等)来回答基于图像的问题•Visual Sketchpad:多模态语⾔模型框架,模拟⼈类绘制草图辅助推理的⾏为,允许模型通过⽣成代码调用绘图⼯具(如画线、框、标记等)或视觉模型(如目标检测、分割模型)来创建视觉草图,并根据这些草图进⾏动态规划和推理 •多次调整放⼤读取⼿写的量⼦电动⼒学题目,精确提取⽂本和图表和专业公式,再运用思维链进⾏深度推理解决问题 •搜索图像,找到公交车相关信息,放⼤精确读取⽂本,再通过⽹页搜索地理位置和车辆、站点信息,给出车辆通勤频率和运营时间表 •根据图像信息推测真实位置,和⼤模型庞⼤的知识能⼒打通,搜索⽹页进⾏信息核实 ⽆法Scale 可以scale ⼤模型图像⽣成能⼒全⽅位增强,语⾔理解能⼒升级和审美提升是最⼤亮点,普通用户可以仅通过自然语⾔进⾏完整创作 视频⽣成模型整合原⽣配音,可控性和编辑灵活度增加,⽣成视频的物体⼀致性和物理规律协调性增强,AI视频商业化和普及度进展积极 模型智能密度持续提升,模型厂商积极推出小模型实现极致性价比,降低模型部署硬性门槛,加速模型应用普及 分析 模型评估加速演化,传统评估榜单快速饱和,可以动态更新,能在真实世界产⽣使用价值任务成为重要评估⽅向 分析 •随着模型能⼒增强,真实反映AI的客观能⼒正变得越来越困难,传统的静态榜单已经趋于饱和,未来将不再是最重要的评估⽅式 •未来的模型评估,除对单纯智能的考验外,也需要⼀套对齐现实世界专家能⼒的实用性任务体系,重点考察实用性任务、商业价值或者经济产出 •推出HealthBench:衡量AI在医疗健康领域能⼒的全新基准测试 •推出xBench:衡量AI在HR、销售等领域落地商业价值的基准测试 训练阶段上,资源投⼊向后训练和强化学习倾斜,但预训练仍然有充⾜的优化空间,⼆者最终共同决定模型能⼒ 强化学习的重要性继续提升,算⼒消耗在未来会超过以自监督学习为核⼼的预训练,未来会从数学、代码等奖励清晰的领域向其他领域泛化 分析 •强化学习的关键在于如何设置奖励模型,对于代码、数学等有明确答案的领域,奖励模型的设置相对容易•对于没有清晰反馈的领域,目前采用的⽅法是通过专门的模型对表现进⾏评分•模型在集成复杂的⼯具调用等其他能⼒后,强化学习训练评估的难度也在增加 多智能体(Multi-Agent)系统可能成为继思维链推理模型之后的下⼀个前沿范式,继续提⾼智能上限 分析 •MultiAgent有如下优势:•分布式处理并⾏⼯作,提⾼效率和计算速度,适合⼤规模动态环境•⾼效利用上下⽂:单个Agent基于局部信息决策,减少对全局信息的依赖,避免上下⽂污染•能⼒多样化:不同Agent有不同的知识、技能,可通过信息共享产⽣更优的解决⽅案•鲁棒性与容错性:单个Agent的故障不会导致整个系统失效 •上下⽂限制:单Agent接收过多上下⽂有⽆法聚焦关键信息的问题 •⼯具调用限制:模型可以调用的⼯具非常多,单个模型很难做出有效调用决策 •领域知识限制:单个模型没有垂直领域的知识建构 从交互经验中学习有希望成为下⼀代模型学习⽅式,正在成为核⼼突破⽅向,可使模型摆脱对⼈类数据的依赖,提⾼智能上限 在线学习⼤模型 核⼼特征 •持续经验流:Agent在长期、连续的经验中学习,⾏为随过往经验自适应调整,可追求长期目标,不局限于短期交互;⾏动和观察能⼒:Agent可自主在现实世界⾏动,通过传感器、⼯具与环境交互,如操作设备、监控数据,⽽非依赖⼈类对话;吸收现实反馈:奖励信号来自环境结果(如健康指标、实验数据、用户反馈),⽽非⼈类预判,可突破⼈类认知局限,且能通过试错灵活调整 •⾼质量数据稀缺:目前模型学习范式⾼度依赖⼤量⼈类⽣成的数据,但⾼质量数据正变得稀缺或难以获取,继续扩展的收益正在边际递减•数据质量存在上限:由⼈类⽣成的数据在智能层面存在上限,难以达到超级智能⽔平 •GoogleDeepmind和强化学习之⽗Richard Sutton联合提出“经验时代(Era of Experience)”,强调从与世界实时交互中学习的重要性 Transformer模型架构正在快速迭代,优化主要集中在注意⼒机制和前馈神经⽹络等层面,在⼯业界有多个落地案例 Transformer混合架构正在涌现,以RNN变体为主,已经出现在⼯业界⼤规模应用先例 由于⽣成和验证难度的不对称性,代码验证成为目前AI编程自动化⽔平提升的前沿⽅向,可进⼀步加速软件⽣产自动化 •代码和⽂本需要用户进⾏仔细阅读和推理,有效验证的成本、时间、门槛较⾼•目前解决验证问题思路是把复杂问题拆解成容易验证的多个小问题,例如绘画过程,⼀边作画⼀边进⾏调整,⽣成和验证相互交织 解决验证问题的关键原则 系统提示词(SystemPrompt)正在成为决定模型用户体验的关键技