您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:计算机行业动态报告:AI应用货币化先锋-GPT5前瞻之多模态 - 发现报告

计算机行业动态报告:AI应用货币化先锋-GPT5前瞻之多模态

信息技术2025-07-29吕伟、白青瑞民生证券大***
计算机行业动态报告:AI应用货币化先锋-GPT5前瞻之多模态

GPT5前瞻之多模态——AI应用货币化先锋 2025年07月29日 ➢GPT5发布在即,有望挑战多模态AI新高度。当前多模态AI正在向“多模态全才”发展,绝大多数多模态大模型仍然停留在L3级别(任务级协同),对于L4范式级协同及L5模态级协同仍然有较大差距,而据早前官方口径,GPT5有望将前期各类模型整合在一起,我们认为强大整合的GPT5有望集推理、多模态、Agent、编程、Deep research等功能于一身,冲击L5级别多模态AI。 推荐 维持评级 ➢全球科技巨头争先入局,多模态或是AI货币化的先锋。据快手官方,2025Q1可灵AI已经实现1亿美元ARR,展现出良好的AI货币化能力,科技巨头纷纷押注多模态AI,如: ➢1)腾讯发布混元3D世界模型,一键生成“我的世界”; 分析师吕伟执业证书:S0100521110003邮箱:lvwei_yj@mszq.com ➢2)阿里通义万相是业界首个使用MoE架构的视频生成模型,总参数量为27B,激活参数14B,还支持电影美学控制系统; 研究助理白青瑞执业证书:S0100124010021邮箱:baiqingrui@mszq.com ➢3)字节在Seed1.6模型系列中探索了Adaptive CoT技术,让模型能够根据问题难度自动触发思考过程,取得了模型效果和推理性能的平衡等。 ➢国内上市公司也在加大多模态AI应用的商业化进程: 相关研究 ➢1)美图:推出了RoboNeo,实现集图像编辑、视频生成、设计创作、网页建站于一体的智能AI Agent; 1.计算机周报20250727:迎接从“互联网+”到“AI+”的伟大跨越-2025/07/272.计算机行业深度报告:稳定币与RWA的全景扫描-2025/07/263.计算机行业2025Q2持仓分析:机构持仓处历史底部,集中度有所降低-2025/07/254.计算机周报20250720:国产AI算力潜力被低估-2025/07/205.计算机周报20250713:金融科技之后,国产算力与AI应用怎么看?-2025/07/13 ➢1)万兴科技:有望对标可灵的天幕2.0即将发布,叠加超媒AI Agent打造一站式AIGC体验; ➢2)快手:快手可灵2.0模型在动态质量、语义响应、画面美学等维度,保持全球领先,2025Q1就已经实现1亿美元ARR的亮眼表现; ➢2)合合信息:扫描全能王的能力范围在加速扩展,延伸至AI鉴真、AI Agent等前沿AI应用; ➢3)福昕软件:福昕智能文档解决方案以多模态解析技术和人工智能技术为基座,构建了从文档解析、知识索引到精准问答的全链条能力。 ➢投资建议:当前全球多模态AI正在向“多模态通才”转变,智能化水平与能力范围不断扩大,美图、快手等多模态AI产品已经体现出较强的AI货币化能力,多模态AI应用或成为AI大模型商业化变现的前锋,建议关注多模态AI相关标的:美图、快手、万兴科技、合合信息、福昕软件等;同时建议关注受益于多模态AI发展的AI应用、AI算力等相关标的。 ➢风险提示:多模态AI技术落地不及预期,行业竞争加剧。 目录 1 GPT5发布在即,有望挑战多模态AI新高度............................................................................................................3 1.1多模态AI的新基准:“多模态通才”...............................................................................................................................................31.2科技巨头纷纷押注多模态AI............................................................................................................................................................5 2.1美图:RoboNeo定义AIGC Agent新范式................................................................................................................................92.2快手:可灵AI货币化进程亮眼.....................................................................................................................................................102.3万兴科技:天幕2.0+超媒Agent切入蓝海市场......................................................................................................................112.4合合信息:扫描全能王的能力范围加速扩展..............................................................................................................................122.5福昕软件:智能文档解决方案加速落地......................................................................................................................................132.6其他多模态AI应用.........................................................................................................................................................................14 插图目录..................................................................................................................................................................17 1GPT5发布在即,有望挑战多模态AI新高度 1.1多模态AI的新基准:“多模态通才” 全新的General-Level提出全新理念:判断一个多模态通用模型是否更强大,不能简单地等同于在基准测试中获得更高的分数,或者与其他模型相比支持尽可能多的多模态任务。2025年5月,十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集,用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足,且多数通用模型未能超越专家模型,真正的通用人工智能需要实现模态间的协同效应。 资料来源:新智元微信公众号,民生证券研究院 General-Level建立了五个层级的评价水平,当前全球范围内多模态模型仍然处于L4阶段。据新智元微信公众号,该评价体系将考察体系分为四个方向: 1)模态理解和同时进行多模态理解和生成:最初阶段,多模态大语言模型(MLLMs)的回复仅限于基于用户提供的多模态输入生成文本输出;后续的多模态大语言模型不仅具备多模态理解能力,还能在各种模态之间生成、编辑内容; 2)支持更广泛的模态:多模态通才需要广泛支持和处理多种模态数据,包括但不限于文本、图像、视频、音频,甚至是三维数据,支持的模态范围反映了一个人工智能系统能力的广度。到目前为止,多模态模型可以将图像与视频结合、视频与音频结合等,最先进的模型甚至可以处理任意模态; 3)支持各种任务和范式:多模态通才必须能够处理各种不同定义和要求的任务,来提高整体的多功能性。例如,早期的视觉多模态大语言模型只能进行粗粒度的图像理解,后续发布的模型能够实现细粒度、像素的图像/视频定位和编辑等。模型的解码组件也必须足够灵活,能够以各种任务格式生成输出,处理不同类型的任务,例如目标定位、像素级修改以及多模态内容创作; 4)多模态智能体与多模态基础模型:刚开始的多模态智能体,就是大语言模型通过调用外部工具和模块(通常是专用模型)来执行特定的多模态任务。后续的研究重点逐渐转向构建联合多模态大语言模型,其中大语言模型与其他模块(如多模态理解组件和多模态生成组件)通过共享嵌入空间紧密集成。 资料来源:新智元微信公众号,民生证券研究院 基于上述考察体系,L1-L5的评价分别要求: 1)L1专家型模型:针对特定任务或特定模态的数据集进行微调,可以看作是针对特定任务的专家模型,包括各种学习任务,例如语言或视觉识别、分类、生成、分割、定位、图像修复等,比如CLIP,Stable Diffusion等; 2)L2支持多任务的通才:模型从专用模型转变为通用模型,需要让系统能够适应各种任务建模方式,支持多种模态类型和输入格式,同时处理各种模型类型和输出格式(可用于理解或生成)。目前,最流行且广泛采用的做法是以大语言模型(LLM)作为核心/智能媒介,整合各种专业模型来构建通用模型,通过现有的编码和解码技术整合各种模型,从而实现多种模态和任务(比如理解和生成任务)的融合与统一; 3)L3出现任务级协同的通才:要从普通的通用模型提升到第3级,系统必须展现出跨任务的协同能力,使得至少两个任务(无论这两个任务是理解类的还是生成类的,都能够共享特征并实现相互性能提升; 4)L4范式级协同的通才:如果一个通用智能体能够达到第4级,也就意味着该系统不仅具备强大的理解能力,而且在进一步学习和训练生成能力时仍能保持 基础性能,比如Morph-Token分离出视觉重建损失用于生成学习,以避免与理解学习损失相互干扰; 5)L5模态级全协同的通才:是通用智能体的最终目标,从某些模态的任务中学到的特征、知识甚至智能可以在一定程度上迁移到其他支持的模态任务中。目前,大多数多模态通用智能体受到架构发展的限制,主要通过语言智能来支持其他模态的智能,要想真正达到第5级,必须实现所有模态之间的协同。 资料来源:新智元微信公众号,民生证券研究院 1.2科技巨头纷纷押注多模态AI 1.2.1腾讯混元3D世界模型:一键构建“我的世界” 腾讯混元3D世界模型是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新的可能性。据腾讯开源微信公众号,该模型核心是语意层次化3D场景表征及生成算法,该算法将复杂3D世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离,不仅生成视觉效果逼真的整体场景,还能输出标准化的3D Mesh资产,兼容Unity、Unreal Engine、Blender等主流工具。用户可对场景内元素进行独立编辑或物理仿真,无缝衔接AIGC技术与传统CG工作流;能够实现只需输入简单指令,模型即可快速生成包含建筑、地形、植被的完整3D场景。输出的Mesh文件可用于游戏原型搭建或关卡设计,还能灵活调整前景物体、更换天空背景,满足个性化创作需求;此外,腾讯混元还披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。