请仔细阅读本报告末页声明 增持(维持)刘高畅执业证书编号:S0680518090001邮箱:liugaochang@gszq.com1、《计算机:潜在爆款Agent一览》2025-05-022、《计算机:为什么Agent对算力需求如此大》2025-3、《计算机:算力长逻辑在修复》2025-04-272024-092025-01计算机沪深300 作者分析师相关研究05-02 P.2请仔细阅读本报告末页声明Agent:金山办公、泛微网络、金蝶国际、鼎捷数智、拓尔思、赛意信息、麦迪科技、用友网络、宇信科技、京北方、中科金财、致远互联、金桥信息、汉得信息、朗新集团、上海钢联、新致软件、同花顺、信雅达、萤石网络、润达医疗中科金财、恒生电子、星环科技、卫宁健康、创业慧康、软通动力、光云科技、科大讯飞、万兴科技、海天瑞声、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。军工AI:品高股份、普天科技、能科科技、海格通信等。风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 P.3内容目录谷歌I/O大会召开,AI生态全面升级.................................................................................................................4Gemini系列模型升级:...............................................................................................................................4多模态模型更新和AI电影工具:................................................................................................................5搜索功能更新:..........................................................................................................................................5AI硬件创新:.............................................................................................................................................6办公应用方面:..........................................................................................................................................7Claude 4发布,最强编码模型能力突破..............................................................................................................8Agent产业发展加速,算力是Agent落地基石..................................................................................................11建议关注.........................................................................................................................................................13风险提示.........................................................................................................................................................13图表目录图表1:2.5 Pro Deep Think在数学、代码和多模态推理能力上表现突出.........................................................4图表2:Search Live功能演示..........................................................................................................................6图表3:Android XR智能眼镜..........................................................................................................................6图表4:Google Beam会通过六个摄像头从不同角度捕捉用户,人工智能以3D显示效果实时渲染画面...........7图表5:Gemini可帮助用户更快地响应,同时还可以简化日程安排和收件箱清理.............................................7图表6:Claude 4模型在SWE-bench Verified上领先,SWE-bench Verified是实际软件工程任务的性能基准...8图表7:Claude 4模型在编码、推理、多模态能力和Agent任务方面出色........................................................9图表8:当获得对本地文件的访问权限时,Claude Opus 4会记录关键信息以帮助改进其游戏玩法...................9 请仔细阅读本报告末页声明 请仔细阅读本报告末页声明谷歌I/O大会召开,AI生态全面升级5月20日谷歌举办2025年度开发者大会(Google I/O),展示了在AI领域的最新进展,从基础模型到应用多方面:Gemini系列模型升级:Gemini 2.5 Pro:3月份谷歌发布了Gemini 2.5 Pro,是谷歌迄今为止最智能的型号,I/O大会谷歌上分享了Gemini 2.5型号系列的更多更新:除了在学术基准测试方面的出色表现外,新的2.5 Pro现在以1415的ELO分数领先于流行的编码排行榜WebDev Arena。它还在LMArena的所有排行榜上处于领先地位,LMArena在各个维度评估人类的偏好。而且,凭借其100万个token的上下文窗口,2.5Pro具有先进的长上下文和视频理解性能。深度思考:谷歌开始测试一种称为Deep Think的增强推理模式,该模式使用新的研究技术,使模型能够在响应之前考虑多个假设。2.5 Pro Deep Think在2025 USAMO上获得了令人印象深刻的分数,这是目前最难的数学基准测试之一。它还在LiveCodeBench(比赛级编码的困难基准测试)上领先,在测试多模态推理的MMMU上得分为84.0%。图表1:2.5 Pro Deep Think在数学、代码和多模态推理能力上表现突出资料来源:谷歌官网,国盛证券研究所Gemini 2.5 Flash升级:Gemini 2.5 Flash专为速度和低成本而设计,现在在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时效率进一步提升,在谷歌的评估中,使用的token减少了20-30%。Gemini 2.5的其他新功能:原生音频输出和Live API的改进:Live API推出了音频视频输入和原生音频输出对话的预览版,可以直接构建对话体验,使用更自然、更具表现力的Gemini。还允许用户控制其语气、口音和说话风格。计算机使用:谷歌正在将计算机使用功能引入Gemini API。 请仔细阅读本报告末页声明思想总结:2.5 Pro和Flash现在将在Gemini API和Vertex AI中包含思维摘要。思维摘要将模型的原始想法整理成清晰的格式,其中包含标题、关键细节以及模型操作信息(例如何时使用工具)。思考预算:旨在通过平衡延迟和质量,让开发者更好地控制成本,可以控制模型在响应之前用于思考的token数量,甚至可以关闭其思考功能。MCP支持:在Gemini API中添加了对模型上下文协议((MCP)的原生SDK支持,以便更轻松地与开源工具集成。谷歌还在探索部署MCP服务器和其他托管工具的方法,让您更轻松地构建代理应用程序。Gemini Diffusion:谷歌新的实验研究模型,是一个文本扩散模型,它学习通过将随机噪声转换为连贯的文本或代码来生成输出,就像目前最先进的图像和视频生成模型的工作原理一样。Gemini Diffusion实验演示版内容生成速度显著快于谷歌迄今为止最快的模型,同时编码性能丝毫不逊色。Gemma 3n:为手机、平板电脑和笔记本电脑优化的设备端AI模型,专为在本地运行的快速、低占用空间的AI体验而设计。能够理解和处理音频、文本和图像,并显著增强视频理解能力,Gemma 3n在移动设备上的响应速度大约提高了1.5倍,质量明显更好(与Gemma 3 4B相比)。多模态模型更新和AI电影工具:推出Veo 3和Imagen 4,以及名为Flow的新电影制作工具。Veo 3:视频与音频的结合。Veo 3是全新的先进视频生成模型,它不仅提高了Veo 2的质量,还首次可以生成带有音频的视频,如城市街道场景背景中的交通噪音、公园里鸟儿的歌唱,甚至人物之间的对话。Imagen 4图像生成模型:Imagen 4在精细细节方面拥有非凡的清晰度,例如复杂的织物、水滴和动物皮毛,并且在照片级写实和抽象风格方面均表现出色。可以创建各种宽高比的图像,分辨率高达2k,更适合打印或演示。它在拼写和排版方面也得到了显著提升,可以更轻松地创作贺卡、海报甚至漫画。Flow:谷歌专为Google最先进的模型Veo、Imagen和Gemini定制的AI电影制作工具,据腾讯科技,它可以把不同的素材(视频、图片等)组合进行编排、生成。用户可以控制镜头、一致性、还可以延展生成。搜索功能更新:AI模式(AI Mode):据36kr,在全新的谷歌搜索中,用户可以直接选择“AI Mode”,通过与Gemini AI对话的方式获取所需信息,并且页面上不再有传统的蓝色搜索链接,Gemini AI将“接管”搜索结果的展示任务。Search Live:今年夏末推出,允许用户根据手机摄像头实时捕捉的内容提出问题。每月有超过15亿人使用Google智能镜头来搜索他们看到的内容。现在,谷歌将ProjectAstra的实时功能引入Google搜索,在多模态方面迈出了下一步。借助Search Live,用户可以使用摄像头与Google搜索来回讨论看到的内容。 请仔细阅读本报告末页声明资料来源:谷歌官网,国盛证券研究所AI硬件创新:Android XR智能眼镜:据界面新闻,谷歌与Xreal、Samsung、Warby Parker和GentleMonster等品牌合作,推出了Android XR智能眼镜。这些眼镜集成了AI助手功能,支持实时翻译、导航和信息提示,是该公司在可穿戴设备领域的新探索。图表3:Android XR智能眼镜资料来源:谷歌官网,国盛证券研究所Google Beam:AI驱动的视频通信平台,利用人工智能来支