您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:模型出现了关键跃迁 - 发现报告

模型出现了关键跃迁

信息技术2025-11-23刘高畅、李可夫国盛证券何***
AI智能总结
查看更多
模型出现了关键跃迁

模型出现了关键跃迁 Gemini 3发布,模型能力全方位突破。谷歌近期连续发布了Gemini 3系列模型、Nano Banana Pro图像模型,以及全新开发平台Antigravity,标志着多模态理解、推理与Agent能力的全面跃迁。1)Gemini 3 Pro多模态理解能力尤其是ScreenUnderStanding能力登顶;推理与长期规划能力显著提升,在Vending-Bench 2长期任务测试中表现最佳;Deep Think模式突破AGI相关推理:ARC-AGI评测高达45.1%;Agentic能力:编程和工具使用能力增强,更可靠执行多步骤任务。2)Nano Banana Pro:具备物理逻辑的图像生成,完美的解决图像生成中文本渲染错误痛点,与现实世界知识结合,支持专业视觉内容制作。3)Antigravity:智能工作台:提供AI驱动IDE与多智能体管理界面,智能体有专属的工作空间。 增持维持) Screen UnderStanding是本次跃迁的关键。我们认为Gemini 3的多模态理解能力,尤其是Screen UnderStanding能力的大幅提高是驱动AI应用落地的关键突破。Gemini 3 Pro在ScreenShot-Pro评测基准大幅领先Claude Sonnet 4.5和GPT 5.1。Gemini 3 Pro能精准解读结构化/非结构化文档,对发票、合同、研究文档等场景意义重大。Screen UnderStanding对未来AI进一步发展具有里程碑意义:(1)通过屏幕理解直接操作GUI,不再依赖API。这意味着AI可操作没有API的软件,Agent能真正执行看屏幕、点按钮的人类工作流程大幅扩展自动化场景。2)通向物理机器人能力的桥梁:模型学会理解屏幕上的按钮并点击与机器人理解世界并行动的逻辑高度同构,未来可自然迁移到机器人对设备面板、仪表、工具界面的识别与操作。 作者 分析师刘高畅执业证书编号:S0680518090001邮箱:liugaochang@gszq.com 分析师李可夫执业证书编号:S0680525060001邮箱:likefu@gszq.com 自定义Agent展望,每个人自己的工作与生活助手。大模型快速迭代,推理与工具调用能力持续增强,催生了越来越强的自定义Agent应用前景。对金融机构尤其是二级买卖方而言,我们展望未来可探索以下方向:1)构建个人投研知识库,支持资料检索、分析和分享汇报;2)打造智能群发助手,实现带称呼的差异化群发及后续自动回复闭环;3)利用Agent整理微信消息、研报、公众号等海量信息,并按个性化规则提炼要点;4)个性化的研究助理,指定大模型的输出风格如分析时需要附上权威信息来源;5)通过简单对话就能靠AI编程能力制作数据分析、合规底稿助手、报销助手等实用工具;6)类似美团(小美”的生活助手,且同时对接竞争厂商平台,实现各种生活服务整合。 相关研究 1、《计算机:AI投资继续加码》2025-11-082、《计算机:软件筹码与景气双见底》2025-11-013、《计算机:国产化景气继续加速》2025-10-26 建议关注 算力:寒武纪、海光信息、东阳光、神州数码、新易盛、中芯国际、华虹半导体、胜宏科技、品高股份、鸿腾精密科技、有方科技、协创数据、中际旭创、沪电股份、兴森科技、中科曙光、浪潮信息、东山精密、云天励飞、伟仕佳杰、宏景科技、中芯国际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文化、青云、大位科技、玉柴国际、亿田智能、弘信电子、圣阳股份、润泽科技、润建股份、深桑达、优刻得、云从科技、太极股份、数据港、首都在线。 Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、金蝶国际、拓尔思、合合信息、税友股份、新致软件、金桥信息、快手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微网络、朗新集团、润达医疗、壹网壹创、万兴科技、用友网络、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得信息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石网络、迪安诊断、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、新大陆、新开普等。 自动驾驶:江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。军工AI:拓尔思、能科科技、普天科技、品高股份、海格通信、中科星图等。 风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 内容目录 Gemini 3发布,模型能力全方位突破.................................................................................................................3Screen UnderStanding是本次跃迁的关键..........................................................................................................6自定义Agent展望,每个人自己的工作与生活助手............................................................................................8建议关注.........................................................................................................................................................10风险提示.........................................................................................................................................................10 图表目录 图表1:Gemini 3 Pro展现了更好的长期能力,与其他前沿模型相比产生了显著更高的回报.............................3图表2:Nano Banana Pro图像生成:为该场景创建一个故事板.......................................................................4图表3:Nano Banana Pro图像生成:制作一张简明易懂的DI信息图,解释太阳能的工作原理.......................5图表4:Antigravity界面..................................................................................................................................5图表5:ScreenShot-Pro评测的部分数据集,包含各类桌面应用和场景............................................................6图表6:腾讯IMA可以创建个人知识库............................................................................................................8图表7:用AI把微信聊天记录做成可视化报告.................................................................................................9图表8:小美”功能...................................................................................................................................10 Gemini 3发布,模型能力全方位突破 谷歌近期连续发布了旗舰模型Gemini 3系列、图像模型Nano Banana Pro,以及创新性的开发平台Antigravity。我们认为这标志着大模型能力的关键跃迁,这些发布不仅在多模态理解和推理能力上设定了新标杆,更在Agent和机器人技术的未来应用方面,展现了重大的潜力: Gemini 3 Pro:多模态推理与卓越的Agent能力 Gemini 3 Pro核心突破体现在以下几个方面: 世界领先的多模态理解:模型能够处理和理解文本、图像、视频、音频乃至代码等多种模态的数据,并在这些复杂数据之间进行推理,达到了前所未有的细致程度。Gemini 3Pro在Screen UnderStanding任务方面表现尤其出色,在ScreenShot-Pro评测基准得分72.7%,大幅领先Claude Sonnet 4.5 36.2%)和GPT 5.1 3.5%)。 卓越的推理和规划能力: 自从Gemini 2开启Agent时代以来,谷歌取得了许多进展,不仅提升了Gemini的编码代理能力,还改进了其在更长时间跨度内可靠规划的能力。Gemini 3在Vending-Bench2上的榜首表现证明了这一点,该测试通过管理模拟的自动贩卖机业务来测试长期规划能力。Gemini 3 Pro在整整一年的模拟运营中,保持了一致的工具使用和决策能力,在不偏离任务的情况下带来了更高的回报: 资料来源:谷歌官网,国盛证券研究所 Gemini 3 Deep Think模式进一步突破了智慧的界限,在测试中,Gemini 3 Deep Think在Humanity’s Last Exam未使用工具的情况下得分41.0%)和GPQA Diamond93.8%)的表现,甚至超越了Gemini 3 Pro原本就令人印象深刻的成绩。它还在ARC-AGI包含代码执行,ARC Prize Verified)上取得了前所未有的45.1%,展现了解决新颖挑战的能力。 增强的Agent能力:Gemini3带来了卓越的指令执行能力,显著改进工具使用和智能编码。更高效的工具使用:同时执行多步骤任务。Gemini3的智能体功能可以构建更实用、更智能的个人AI助手。 Nano Banana ProGemini 3 Pro Image):视觉世界的逻辑与物理 物理感知推理:据视频生成平台Higgsfield官网,Nano Banana Pro超越了简单的扩散模型。它在渲染场量之前进行场景规划,提供原生2K分辨率、物理精确的光照和完美的文本渲染。 生成清晰文本:Nano Banana Pro解决了图像生成中的一大痛点——文字错误。清晰易读的文字有助于制作海报、复杂的图表和精细的产品模型。用户可以描述所需的字体类型,或模拟不同的手写字体。 资料来源:谷歌官网,国盛证券研究所 理解现实世界的知识:利用Gemini模型对现实世界的了解和强大的推理能力,NanoBanana Pro可以生成精准、细致、丰富的图像结果。可以为图片添加注释,将数据转化为信息图表,或将手写笔记转换为图表: 资料来源:谷歌官网,国盛证券研究所 Antigravity:全新的智能开发平台 如果说Gemini 3是大脑”,Antigravity就是让大脑手脚并用的工作台”。Antigravity的开发初衷是,智能体不应该仅仅是侧边栏里的聊天机器人;它们应该拥有自己专属的工作空间。该平台提供了两种与代码交互的独特方式: 编辑