AI智能总结
大模型白热化,应用加速分化 行业投资评级:强于大市维持 陈涵泊/李佩京/王思中邮证券研究所人工智能团队 中邮证券 发布时间:2025-09-03 投资要点 大模型:加速多模态研发,闭源模型逐步逆袭开源。 多模态技术路线尚未收敛,国内外大模型厂商持续刷新SOAT,图片领域,GPT-4o图像生成功能引发热潮后,谷歌Gemini2.5FlashImage登顶多主流图像榜Meta也从Midjourney授权Al图像模型:视频领域,阿里字节等刷新能力高度,谷歌将视频模型推进至实时交互通用世界模型阶段。 Deepseek开源浪潮准动模型平权与应用加速,浪潮后闭源模型逐渐维持性能领先,且借开源策珞打造生态入口。一方面,预训练模型ScallingLaw增速放缓使闭源与开源模型性能差距收窄,但OpenAI、谷歌等闭源厂商凭资源、人才与技术积累仍领先;另一方面,闭源厂商推行“开源+闭源”协同,保留主模型闭源优势的同时,开源上一代或轻量模型,激活开发者并反哺自身闭源模型以维持领先。 算力:海内外资本开支提振,芯片厂加速推出新版本芯片, 海外微软、谷欧、Meta、亚马逊四者合计资本开支在2023Q3后连续多个季度环比上升,同时上调资本开支指引:国内CSP厂商在大模型取得要突破、比肩海外之时,也需通过大量资本开资缩小与海外差距。 为了满足海内外CSP资本开支放量需求,GPU、ASIC竞相角逐新品研发,1)传统芯片大厂:英伟达芯片架构正在由Blackwell向Rubin过渡;AMDMI350系列TrendForce集邦咨询,AlServer需求带动北美四大CSP加速自研ASIC芯片,平均1~2年就会推出升级版本;国内阿里、百度、腾讯等亦推出自研ASIC方案。 应用:海外应用加速分化,聚焦与数据结合的复杂toB场景。复盘今年美股AI应用表现,行情有所分化,股价涨幅较好的公司体现在:具备显著的行业KnoW-how壁垒,同时AI赋能业务放量培长。例如,以PLTR为代表的toB企业,其股价走强的核心逻辑在于AI产品深度赋能主业(如AI提升服务效率,或拓展高价值客户场景),直接推动营收规模快速增长,这一特征在toB领域因商业场景更易落地而表现得尤为显著。toC企业中,创意类挤压工具类、AI替代性显现多模态大模型推动其从“辅助工具”进化为懂需求、能创方案的“创意伙伴”,既强化替代优势,又以低学本、快产出吸引客户,逼近传统专业工具价值核心。 投资建议:建议关注:1)AIAgent:鼎捷数智、视源股份、泛微网络、致远互联、金媒国际、用友网络、汉得信息、赛意信息、迈富时、光云科技、税友股份润达医疗、同花顺、恒生电子、金山办公、万兴科技、福昕软件、科大讯飞、金桥信息、卓易信息、普元软件等:2)A终端:云天励飞、虹软科技、小米集团、联想集团、科大讯飞、乐蓄科技、中科蓝讯等;3)A算力:寒武纪、云天励飞、亿都(国际控股)、工业富联、浪潮信息、曙光数创、超讯通信、华丰科技、和州数码、软通动力、烽火通信、广电运通、拓维信息、四川长虹等;4)AI多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、董石网络、汉仪股份、美图公司、云从科技等。 风险提示:地缘政治冲与贸易风险、技术选代不及预期、国内AIAgent商业化进展不及预期、算力供应不及预期、行业竞争加风险等。 大模型:加速多模态研发,闭源模型遂步逆袭开源算力:海内外资本开支提振芯片厂加速推出新版本芯片应用:海外应用加速分化,聚焦与数据结合的复杂toB场景投资建议与风险提示 三四 目录 大模型:加速多模态研发,闭源模型逐步逆袭开源 1.1多模态技术尚未收敛,国内外大厂涌入刷新SOAT1.2经历开源浪潮后,闭源模型逐渐开始维持性能领先优势 1.1.1多模态技术尚未收敛,生成视频、多模态实时交互为未来方向 多模态大模型融合了多种感知路径和表达形态。能够同时处理文本、图像,语音等多种数据,并进行深度的语义理解和交叉模态处理,具备深度人机交互和全面智能应用的潜力。当前,多模态大模型主要分为理解和生成两种类型,技术路线尚未收敛,成为国内外大模型厂商重点突破方向之一 多模态理解模型:多模态理解模型对齐视觉特征与文本特征实现跨模态的统一理解,分为以下两类技术路线:1)一方面,基于语言大模型底座,配合多类外部专家模型共司实现多模态处理:2)另一方面,通过跨模态特征对齐学习,实现多模态输入的统一和融合,例如OPe门A的CLIP模型通过对比学习,将图像与文本通过客自的与认练模型获得的编码向量在向量空间上对齐,从而理解和推理图像和文本之间的关系。 多模态生成:多模态生成模型基于对不同模态信息的理解。具备文本、图像、视频、语音信息的生成能力,分为两类技术路线:1)一方面,D江结合扩散模型与Transformer优势,成为视频生成模型主流架构;2)另一方面,端到端统一多模态架构,实现跨模态生成与实时交互响应,例如GPT-4o与Gemini均采用端到端原生多模态单体模型的方式学习文本、视觉、语音等不同模态的统一表征,实现跨模态实时交互响应。 1.1.2国内外大厂积极涌入多模态赛道,图片&视频陆续刷新SOAT 图片:继GPT-4o原生图像生成功能掀起使用热潮后。谷欧最新Gemini2.5FlashImage迅速登顶多个主流图像排行榜:Meta也宣布将从初创企业Midiourney授权Al图像模型,以跟随OpenAl与谷歌步伐。 3月底,GPT-4o集成多模态原生图像生成功能,效果良好引爆用户使用热情。GPT-4o原生图像生成,意味着图像生成不再依赖于单独的DALL-E3模型,而是直接集成到了GPT-4o的核心能力中,这种集成带来了更流畅的用户体验和更强大的图像生成、修改能力,具备更好的文本集成、增强的上下文理解、改进的多对象绑定、多样化风格适应等优势。得益于超预期的效果,GPT-4o原生图像功能上线不到72小时,OpenAICEO奥特曼宣布ChatGPT图像生成功能开始暂时受限。 8月底,谷歌发布了最新的图像生成和编辑模型Gemini2.5FlashImage,成为新晋性能冠军,单图片生成成本仅0.039美元。2.5FlashImage相较2.0Flashlmage在图像质量、编辑控制和应用场景上有大幅改进。用户不仅可以对人物和宠物进行精准编辑,保持其特征一致,还能实现多图合成、多轮次修改与风格迁移等复杂操作。在大模型竞技场LMArena的文生图与图像编辑两个场景,谷歌的图像模型均拿下全球第一,在图像编辑榜单上模型表现尤为出色,获得1362的高分, 资料来源:新智元微信公众号,中邮证券研究所请参阅附注免责声明 1.1.2国内外大厂积极涌入多模态赛道图片&视频陆续刷新SOAT 视频:阿里字节等大厂刷新视频生成时长、唢率、一致性等能力高度,谷歌将视频模型迈入支持实时交互的通用世界模型。 6月,字节豆包视频生成模型Seedance1.0pro超越Veo3、可灵2.0等多模态模型,在文生视频、图生视频两项任务上均排名首位(评测榜单ArtificialAnalysis):该模型具备三大特性:无缝多镜头叙事、多动作及随心运镜、稳定运动与真实美感。Seedance支持文字与图片输入,可生成多镜头无缝切换的1080P高品质视频。 8月,阿里通义万相正式开源全新多模态视频生成模型通义万相Wan2.2-S2V,单次生成的视频时长可达分钟级,支持73顺长视频生成,完美匹配口型。7月28日,阿里开源文生视频Wan2.2-T2V-A14B、图生视频Wan2.2-12V-A14B和统一视频生成Wan2.2-IT2V-5B三款模型。其中,文生视频模型和图生视频模型为业界首个使用MoE架构的视频生成模型。此次开源的Wan2.2-S2V则更加偏向音频驱动,专攻图像+音频,让画面和音频更加契合。 8月,谷歌发布首个支持实时交互的世界模型Genie3。相较于前两代产品,它不仅能在720p、24fps的规格下即时生成可交互的三维场景,还把单次交互时长丛几士秒延长到数分钟。并首次加入“可提示的世界事件”和“视觉记忆”等关键特性,使得同一房间里的涂鸦、家具位置等细节在玩家多次往返时依然保持一致,真实感提升。 1.2经历开源浪潮后,1闭源模型逐渐开始维持性能领先优势 25年开年,DeepSeek多款模型通过算法的系列创新提升算力利用率,以成本、低价、性能等特征显著出圈,带来了模型平权和应用加速。 DeepSeek以开源方式加速追赶闭源模型,API低价推动“大模型平权”。2024年12月,深度求索推出的DeepSeek-V3以极低的训练成本,实现了与GPT-4o和ClaudeSonnet3.5等顶尖模型相媲美的性能;2025年1月,DeepSeek推出推理模型DeepSeekR1,在后训练阶段大规模使用了RL技术,在仅有极少标注数据的情况下,在数学、代码、自然语言推理等任务上,性能比肩OpenAlo1正式版。R1APl输出16元/百万tokens,而GPTo1为438元/百万tokens。 模型能力和推理成本迎来拐点,国内Agent应用企业积极接入DeepSeekAPl,把握Al应用需求爆发红利。2月,国内万兴科技、易点天下、泛微网络等AI应用厂商相继宣布自身产品接入DeepSeek模型系列,并取得良好的协同赋能。 资料来源:DeepSeek微信公众号,中邮证券研究所 1.2经历开源浪潮后,1闭源模型逐渐开始维持性能领先优势 历经开源浪潮后,当前大模型生态呈现两大核心特征: 一方面,随若预训练模型ScallingLaw(缩放定律)增速放缓,闭源与开源大模型的性能差距有所收窄,但以OpenAl、Claude、xAl、Google为代表的闭源厂商,凭借资源、人才与技术积累仍占据性能领先地位,持续刷新模型能力上限。例如,OpenAI新推出的GPT5在数学、代码、多模态理解、健康等领域基准测试均获最新SOAT。根据ArtificialAnalysis编制的人工智能综合指数,GPT5以69的综合评分排名第一,Grok4以1分之差位居第二。 另一方面,闭源厂商逐步推行“开源+闭源”协同策略,在保留主模型闭源优势提高商业价值的同时,通过开源上一代或轻量小模型打造生态入口,既激活开发者推动技术改进,也反哺自身闭源模型,助力其维持领先。例如,OpenAl开源两款全新的大语言模型:9pt-oss-120b和gpt-oss-20b,前者可在单块800GB显存的H100上高效运行,后者转为低延迟、本地化或专业场景设计,仅需16GB内存即可在边缘设备上运行:谷歌开源系列Gemma3模型(单云和桌面加速器的Gemma3和Gemma3QAT、实时多模态Al的Gemma3n、轻量化Gemma3270M);xAl在7月发布了Grok4之后,8月开源上一代grok2.5并计划约6个月后年开源Grok3, 算力:海内外资本开支提振,芯片厂加速推出新版本芯片 2.1国内外CSP厂商开启AI军备竞赛,Capex先行提高投入 2.2GPU、ASIC竞相角逐新品研发,满足海内外CSP放量需求 2.1国内外CSP厂商开启AI军备竞赛,Capex先行提高投入 海外:微软、谷歌、Meta、亚马逊四者合计资本开支在2023Q3后连续多个季度环比上升,同时上调资本开支指引 微软:25Q2(2025财年第四财季)资本开支为242亿美元,同比+27%,Q1同比+53%;其中,不动产和设备相关的现金支出171亿美元,同比+23%,Q1同比+52%,目前,微软正在加速建设数据中心,以满足对A/训练和工具激增的市场需求。公司预计,2026财年第一财季有望将资本开支提升至300亿美元以上 谷歌:由于云产品和服务的需求强劲且不断增长,25年capex上调至850亿美元,同比+13%,此前2月份预计全年capex为750亿美元;预计26年capex将进一步增加。 Meta:25Q2,将全年capex的最低水平从上季度的640亿美元上调至66