AI智能总结
——模型多模态升级加速端侧AI落地,TPU冲击算力格局 本报告导读: 海外科技《AI迭代提速,互联网增长稳健,板块趋势延续AI迭代提速,互联网增长稳健》2025.11.23海外科技《AI加速呈现C端应用,强现实与强预期不惧扰动》2025.11.16海外科技《自动驾驶与算力扩张共进,巩固AI成长逻辑》2025.11.08海外科技《AI需求明确,半导体产业链各环节持续升温》2025.11.03海外科技《人工智能生态全面加速,算力与应用共振》2025.10.25 模型:预训练Scaling Law仍然成立;算力:TPU助谷歌构建全栈AI生态,长期或与英伟达GPU互补;应用:多模态推理能力为端侧GUI操控提供可能,豆包手机助手率先落地,看好谷歌全栈集成、苹果系统掌控、阿里模型能力。 投资要点: Gemini验证了预训练Scaling Law仍旧成立,谷歌具备全栈技术+全面场景的生态优势。Gemini 3能力的大幅跃迁主要得益于预训练的突破,一方面证明了谷歌预训练上的算力投入不再保守,侧面证明了预训练的Scaling Law依旧成立;另一方面谷歌拥有搜索、YouTube、Chrome等生态产生的独家且不可迁移的用户行为数据,数据构成了理解用户意图和上下文的强大壁垒,侧面验证了谷歌在AI全栈技术+全面应用场景的独特生态优势。 Gemini着重优化多模态能力,屏幕理解能力大幅提升,为GUI操控手机验证可能性,豆包手机助手率先落地。Gemini重点强化多模态能力,屏幕理解表现亮眼(ScreenSpot-Pro测试得分72.7%,远超GPT-5.1的3.5%与Claude Sonnet 4.5的36.2%),逐渐具备视觉智能与界面逻辑理解能力,为端侧AI Agent实现GUI操控提供可能。豆包手机助手已率先落地(如跨APP比价本质即GUI模拟人类操作)。谷歌坐拥安卓系统+模型+Pixel硬件入口+应用全家桶的全栈集成能力,端侧AI落地具备天然优势。 除了TPU惯有的高性价比、扩展性、灵活性优势外,谷歌着重优化了TPU生态,大幅提升了外部可用性。1)谷歌2025年加速优化了TPU生态,原生支持PyTorch,并在vLLM的TPU支持上进行大规模工程投入,接入开放推理生态,大幅提升TPU的外部可用性;2)TCO优势突出,TPUv7内部使用时TCO较GB200服务器低44%,对外租赁时TCO较GB200低30%、较GB300低41%;3)集群扩展性及灵活性领先,集群通过ICI 3D Torus网络支持最大9216颗芯片,OCS技术实现数千种拓扑组合,适配多样并行需求且故障可快速重构。我们认为,TPU对谷歌更为重要的意义在于构建全栈AI生态,而非出售TPU本身:通过芯片与模型架构协同设计,实现算力成本与效率最优,并赋能云业务,利用较低成本的TPU赚取高于其他云服务商的利润。长期竞争格局来看,我们认为TPU完全颠覆英伟达GPU的概率较小,而较大概率作为英伟达GPU的补充,服务特定属性的客户群体:1)英伟达凭借规模优势深度绑定供应链,在获取供应链资源方面具备最强的优先级和议价权;2)谷歌XLA编译器未完全开源,GPU开箱即用属性更受中小客户青睐;3)TPUv8升级幅度有限,而英伟达Rubin系列升级显著,缩小了TCO差距,且英伟达过去已证明了一年一迭代的能力,后续Feynman接力Rubin维持一年一迭代节奏,英伟达技术领先性有望持续领跑。风险提示:AI应用落地不及预期风险;AI资本扩张效率较低风险; 端侧隐私风险。 目录 1.Gemini 3、Banana模型重塑谷歌领先优势,多模态能力实现关键跃升...31.1.推理能力、上下文、代码能力等全方位提升........................................31.2.实现Agent能力全链路突破,开启AI应用新范式..............................51.3.Nano Banana Pro展现多模态推理能力...................................................62.模型多模态能力加速端侧Agent落地...........................................................82.1.API开放程度成为阻碍端侧Agent落地的因素.....................................82.2.多模态推理能力、屏幕理解能力使GUI Agent成为可能的解决方案.92.3.豆包手机助手率先落地,端侧Agent路线逐渐明确...........................122.4.看好谷歌全栈集成、苹果系统掌控、阿里模型能力..........................133.TPU:助力谷歌构建全栈AI生态...............................................................143.1.谷歌加速TPU生态建设,大幅增强易用性.........................................143.2.TPU是谷歌云差异化竞争与增长的核心引擎......................................153.3.TPU或将占据特定客户细分场景,对英伟达GPU份额冲击有限....154.推荐标的........................................................................................................165.风险提示........................................................................................................17 1.Gemini 3、Banana模型重塑谷歌领先优势,多模态能力实现关键跃升 1.1.推理能力、上下文、代码能力等全方位提升 百万token上下文窗口提升输出质量,赋能企业级应用。Gemini 3实现高达1百万tokens超大上下文窗口与64k tokens输出能力,远超竞争对手,配合自研TPU算力支撑,提升长文本理解深度和信息准确性,在法律合同审查、学术文献综述等场景中优势显著。MRCR v2基准测试中,Gemini 3在128k上下文长度下取得77.0%的平均得分,远超Claude Sonnet 4.5(47.1%)和GPT-5.1(61.6%);即使在1M长度下仍保持26.3%的逐点得分,长文本和复杂任务处理方面表现出色。 资料来源:Artificial Analysis Gemini过去薄弱的编程能力得以跃升。Gemini 3Pro展现出接近专业竞赛级程序员的水平。在LiveCodeBench Pro(接近ICPC/Codeforces难度)上,其Elo得分达2439,显著高于GPT-5.1(2243)和Claude 4.5(1418),尤其在高难度算法与数据结构题上表现突出。在更贴近实际工程场景的SWE-bench Verified测试中,Gemini 3 Pro并未登顶(76.2%),与GPT-5.1(76.3%)基本持平,略低于Claude 4.5(77.2%)。跃升顶级模型阵营,实现了代际级的能力跨越。 在由开发者社区运营的实战编码竞技场Design Arena中,Gemini 3 Pro在整体排名中位列第一,并在五个代码赛区中的四个,网站、游戏开发、3D设计和UI组件中都占据榜首。这是自推出Design Arena以来最大的性能差异。在LiveCodeBench上,Gemini 3的分数较第二名Grok 4.1高出200多分。 资料来源:36Kr 资料来源:36Kr 同步发布增强的推理模式Gemini 3 Deep Think,通过多路径探索与验证等结构化“慢思考”实现深度推理。在基础思考能力方面,Gemini 3 Pro在三项基准测试中表现均实现显著超越。在Humanity's Last Exam中,Gemini 3Pro得分37.5%(无工具)和45.8%(带工具),大幅领先于前代及同类模型。在GPQA Diamond中得分91.9%,高于GPT-5.1的88.1%与Gemini2.5 Pro的86.4%。 资料来源:Google官网 ARC-AGI主要考察AI从有限示例中提取核心规律并应用于新情境的通用推理能力,其核心在于衡量流体智力而非知识储备。ARC-AGI-2在初代基础上提升对于AI系统的自适应能力、推理深度和问题解决效率的测试难度,推动AI向低成本高效能方向发展。Gemini 3 DeepThink在该测试中取得45.1%的得分,大幅超越前代Gemini 2.5 Pro(4.9%)与GPT-5.1(17.6%),多模态推理能力领先。 资料来源:ARC-AGI-2官网 在数学能力上,Gemini 3 Pro实现全面突破。其在AIME 2025测试中基础准确率达95%,结合代码执行能力后可实现100%,推理与智能体能力实现深度融合。在新增的MathArena Apex竞赛级基准中,Gemini 3 Pro以23.4%的得分显著超越GPT-5.1(1.0%)、Claude 4.5(1.6%)及前代模型(0.5%)。在综合多项基准测试的Epoch能力指数(ECI)中,Gemini 3 Pro获得154分,超越了GPT-5.1此前保持的151分的最高纪录。 资料来源:Epoch AI 资料来源:Epoch AI 1.2.实现Agent能力全链路突破,开启AI应用新范式 Gemini 3以智能体为核心实现感知、决策与执行的全链路突破。Gemini 3保留了多模态信息综合能力,能无缝处理文本、图像、视频、音频和代码,比如解读不同语言的手写食谱、分析球类比赛录像提供训练计划、或者从学术论文和长视频讲座生成交互式学习卡片,展现出对真实世界复杂信息的深度理解能力。 Gemini 3 Pro在ScreenSpot-Pro测试中得分达72.7%,远超GPT-5.1(3.5%)和ClaudeSonnet4.5(36.2%)。这意味着AI Agent能真正具备视觉智能,理解界面UI和逻辑。另外,其在MMMU-Pro、CharXiv Reasoning、OmniDocBench 1.5、Video-MMMU四项测试中表现均登顶,展现出在跨模态推理、文档解析与动态视觉理解等维度的系统性提升。 Google同时发布了全新的Agentic编程平台Antigravity,可在macOS、Windows和Linux系统部署使用。Antigravity可让多个AI Agent并行执行任务,例如自动写代码、运行终端测试,并自主修复错误,形成端到端处理复杂任务的自主代理,是对Cursor等AI编程工具的直接挑战。 资料来源:Google Antigravity 1.3.Nano Banana Pro展现多模态推理能力 Nano Banana Pro底层架构建立在Gemini 3 Pro之上,拥有强大文字渲染和多模态推理能力。其核心突破在于采用multi-agent架构与思考生成模式,可通过多轮自我修正实现输出质量的显著提升。 参数方面,Nano Banana Pro支持4K分辨率输出,画幅支持从1:1到21:9等十种主流宽高比,并可调整相机角度、色彩分级等专业摄影控制。 文本渲染方面,Nano Banana Pro能够生成细节丰富、拼写准确的文字,并支持多种字体、风格乃至不同语言的精确排版,大幅缓解以往AI生成文本的乱码现象,为制作海报、产品图、信息图等商业物料开辟全新可能性。 资料来源:IT之家 推理方面,依托Gemini 3Pro模型,Nano Banana