AI智能总结
智谱AI发布GLM-4.5V多模态模型,昆仑万维发布业界首个多模态深度调研Agent —计算机行业周报 投资要点 推荐(维持) ▌算力:算力租赁价格平稳,智谱AI发布GLM-4.5V多模态模型 分析师:宝幼琛S1050521110002baoyc@cfsc.com.cn 8月11日,智谱AI正式发布开源视觉推理模型GLM-4.5V,该模型凭借1060亿总参数和120亿激活参数的规模,在41项多模态基准测试中刷新同级别开源模型的性能纪录。基于GLM-4.5-Air文本基座模型构建,GLM-4.5V采用视觉编码器、MLP适配器和语言解码器的三部分架构,并引入三维旋转位置编码(3D-RoPE)技术,显著提升了对空间关系的感知能力。其训练采用预训练、监督微调和强化学习三阶段策略,结合思维链样本和多领域奖励系统,在STEM问题、多模态定位等任务中表现卓越。应用方面,GLM-4.5V不仅能实现精准视觉定位和复杂文档解析,还具备前端复刻和GUI智能体交互能力,这一突破性成果为安全监测、远程遥感等领域提供了高性能多模态解决方案。 ▌AI应用:QuillBot周访问量环比+4.44%,昆仑万维发布业界首个多模态深度调研Agent 资料来源:Wind,华鑫证券研究 8月14日,昆仑万维重磅发布业界首个「多模态深度调研」Agent,可通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能够识别并处理图片、图表等信息,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更加全面、准确的报告。这一套系统性的升级,无疑让Skywork Deep Research Agent V2具备了强通用性、强适应性和强自主性,从而构筑起Agent模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。 相关研究 1、《小马智行(PONY.O):营收增长领跑行业,Robotaxi爆发+全球化布局驱动财务拐点》2025-08-182、《计算机行业周报:GPT-5正式发布,谷歌DeepMind发布新一代通用世界模型Genie3》2025-08-143、《计算机行业点评报告:苹果(AAPL.O):增长双引擎驱动业绩新高,供应链重构与AI技术共振》2025-08-11 ▌AI融资动向:Cohere完成D轮融资5亿美元,企业级AI赛道再添重磅玩家 8月15日,加拿大AI初创公司Cohere宣布完成5亿美元D轮融资,由Radical Ventures和Inovia Capital联合领投,英伟达、AMD Ventures等机构跟投,公司估值跃升至68亿美元。作为专注于企业级大语言模型的开发商,Cohere的Command A模型性能媲美GPT-4,响应速度提升75%,其特色在于支持200页长文档处理及提供安全隔离的本地部署方案。Cohere通过差异化定位在垂直领域建立竞争优势,其2025年预计年化收入超2亿美元的业绩展望,印证了专业AI 解决方案的商业潜力。 ▌投资建议 2025年世界人形机器人运动会于8月14日至17日在国家速滑馆举办,共280支队伍参赛,并产生了26枚金牌。从整体表现来看,宇树科技和北京人形机器人创新中心的机器人表现较为突出。宇树科技的H1人形机器人在田径赛的1500米及400米中夺得冠军,并在100米障碍赛中包揽了前三名。北京人形机器人创新中心的“具身天工Ultra”机器人在100米短跑项目夺得冠军。此外表现良好的还有星动纪元的全尺寸双足人形机器人,其在原地跳高和跳远项目中均夺得冠军。这次大赛暴露出了机器人在算法鲁棒性、执行稳定性、与运动协调性上存在短板,例如在难度较高的100米障碍赛中,仅两组机器人完成了比赛;同时机器人在感知泛化能力及环境适应性方面仍存在不足,其任务执行多依赖于预设规则。本次运动会展现了机器人在智能决策领域的能力及综合性能,我们认为,机器人产业的发展潜力正不断释放,持续看好该板块。 中长期,建议关注临床AI产品成功落地验证的嘉和美康(688246.SH)、已与Rokid等多家知名AI眼镜厂商建立紧密合作的亿道信息(001314.SZ)、加快扩张算力业务的精密零部件龙头迈信林(688685.SH)、持续加码高速铜缆的泓淋电力(301439.SZ)、新能源业务高增并供货科尔摩根等全球电机巨头的唯科科技(301196.SZ)等。 ▌风险提示 1)AI底层技术迭代速度不及预期。2)政策监管及版权风险。3)AI应用落地效果不及预期。4)推荐公司业绩不及预期风险。 正文目录 1、算力动态:算力租赁价格平稳,智谱AI发布GLM-4.5V多模态模型.............................41.1、数据跟踪:算力租赁价格平稳......................................................41.2、产业动态:智谱AI发布GLM-4.5V多模态模型,刷新41项视觉推理基准纪录..............42、AI应用动态:QUILLBOT周访问量环比+4.44%,昆仑万维发布业界首个多模态深度调研AGENT......72.1、周流量跟踪:QuillBot访问量环比+4.44%...........................................72.2、产业动态:昆仑万维发布业界首个多模态深度调研Agent,拥有卓越图文调研能力.........73、AI融资动向:COHERE完成D轮融资5亿美元,企业级AI赛道再添重磅玩家....................114、行情复盘...............................................................................125、投资建议...............................................................................146、风险提示...............................................................................14 图表目录 图表1:本周算力租赁情况...............................................................4图表2:GLM-4.5V技术细节..............................................................4图表3:桌面助手应用预览...............................................................5图表4:2025.8.7-2025.8.13 AI相关网站流量..............................................7图表5:BrowseComp中Skywork Deep Research跑分成绩.....................................8图表6:基准测试集GAIA中,Skywork Deep Research Agent同样刷新SOTA成绩.............8图表7:协同多智能体框架示意图.........................................................10图表8:本周AI初创公司融资动态........................................................11图表9:上周(8.11-8.15日)指数日涨跌幅................................................12图表10:上周(8.11-8.15日)AI算力指数内部涨跌幅度排名................................12图表11:上周(8.11-8.15日)AI应用指数内部涨跌幅度排名................................13 1、算力动态:算力租赁价格平稳,智谱AI发布GLM-4.5V多模态模型 1.1、数据跟踪:算力租赁价格平稳 本周算力租赁价格平稳。具体来看,显卡配置为A100-40G中,腾讯云16核+96G价格为5.73元/时,阿里云12核+94GiB价格为31.58元/时;显卡配置为A100-80G中,恒源云13核+128G价格为6.99元/时;显卡配置为A800-80G中,恒源云16+256G价格为6.03元/时。 1.2、产业动态:智谱AI发布GLM-4.5V多模态模型,刷新41项视觉推理基准纪录 8月11日,智谱AI正式发布了全球领先的开源视觉推理模型GLM-4.5V。该模型以1060亿总参数和120亿激活参数的规模,在41项公开视觉多模态基准测试中取得了同级别开源模型的第一。GLM-4.5V已在GitHub、Hugging Face和魔搭社区同步开源,采用MIT许可协议,支持商业应用,为开发者提供了强大的多模态基础工具。 资料来源:智谱,华鑫证券研究 GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air构建,延续了GLM-4.1V-Thinking的技术路线,在模型架构上由视觉编码器、MLP适配器和语言解码器三部分组成。通过引入创新的三维旋转位置编码(3D-RoPE)技术,模型显著增强了对多模态信息中三维空间关系的感知能力。该模型支持64K tokens的多模态长上下文输入,采用三维卷积提升视频处理效率,并运用双三次插值机制增强对高分辨率及极端宽高比图像的处理稳健性。这些技术创新使GLM-4.5V能够同时处理图像和视频输入,在复杂视觉理解任务中表现出色。 GLM-4.5V在训练策略上采用了三阶段优化方案。预训练阶段利用大规模图文交错多模态语料和长上下文内容,奠定了模型的基础理解能力;监督微调阶段引入显式"思维链"格式训练样本,强化了因果推理和多模态理解深度;强化学习阶段则构建多领域奖励系统,结合可验证奖励强化学习和人类反馈强化学习,使模型在STEM问题、多模态定位和智能体任务等方面获得全面提升。 GLM-4.5V具备全场景视觉推理能力,其应用范围涵盖图像理解、视频分析、文档解析、GUI交互等多个领域。在图像推理方面,模型能进行目标识别和定位,能通过分析植被特征、建筑风格等细微线索推断拍摄地点。在"图寻游戏"全球积分赛中,GLM-4.5V仅用16小时就击败了99%的人类玩家,七天后攀升至全球第66名,展现了强大的视觉推理能力。对于复杂文档处理,模型采用类似人类的视觉阅读方式,能够准确理解数十页图文混排内容,避免了传统OCR加文本模型分析流程中的信息损失。在前端开发方面,GLM-4.5V的"前端复刻"功能可将网页截图或交互视频转化为结构化代码,准确还原布局、样式和交互逻辑,并支持用户通过圈选标记方式提出修改需求,形成完整的视觉交互闭环。在GUI智能体应用方面,模型可以识别屏幕元素并执行相应操作,例如,智谱同步开源的桌面助手应用能够实时处理截屏和录屏信息,辅助完成代码编写、视频分析、游戏解答等任务。 资料来源:智谱,华鑫证券研究 为降低使用门槛,智谱开放平台提供了极具性价比的API服务,调用价格低至输入2元/M tokens、输出6元/M tokens,响应速度达到60-80 tokens/秒。新老用户可获得2000万tokens的免费资源包。同时,开发者可通过智谱清言APP或网页版在线体验模型能力,上传图片或视频开启"推理模式"进行测试。GLM-4.5V高性能、低成本的开源解决方案搭配广泛的应用场景和强大的泛化能力,将有效推动视觉推理技术在安全监测、远程遥感、前端开发等领域的落地应用,这一突破性成果的发布将为全球AI发展贡献重要力量。 2、AI应用动态:QuillBot周访问量环比+4




