行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

周观点：模型升级不断，看好硬件投资机遇

信息技术 2026-04-11 佘凌星,钟琳国盛证券张曼迪

周观点：模型升级不断，看好硬件投资机遇

HappyHorse-1.0盲测登顶，40层单流架构高效推理

HappyHorse-1.0在Artificial Analysis视频生成盲测榜单中表现优异，在文本转视频、图像转视频及含音频赛道均位列第一，其中图像转视频Elo分数创下榜单历史纪录。该模型采用40层单流Transformer架构，原生支持音视频同步生成，仅需8步去噪即可输出1080P视频，在H100显卡上生成5秒片段仅需38秒。技术特点包括多模态统一建模、无CFG引导生成等，并原生支持多语种生成能力。

GLM-5.1长程任务领先，自主执行完成工程级交付

GLM-5.1在长程任务执行能力上取得突破，首次实现了开源模型与Claude Opus 4.6的全面对齐，并在SWE-bench Pro基准测试中刷新全球最佳成绩。在CUDA Kernel优化任务中，模型连续工作14小时，将加速比从2.6倍提升至35.7倍；在KernelBench Level 3基准中，取得3.6倍几何平均加速比。在系统级工程构建任务中，模型1小时内可构建完整macOS桌面环境，8小时内完成相当于4人团队一周开发的Linux系统。GLM-5.1的核心支撑来自长程规划、自适应纠错与状态延续三方面能力的提升，代表了AI从“对话者”向“执行者”的能力升级。

Muse Spark多模态突破，预训练效率大幅提升

Meta发布的Muse Spark在多模态理解、工具调用及医疗健康等维度表现突出，在HealthBench Hard中获得42.8分的最高分。相较于Llama 4，Muse Spark在达到相同预训练性能时所需计算量降低了10.3倍。为弥补在编程和Agent类任务上的差距，Meta推出了“Contemplating”沉思模式，通过多Agent协同提升复杂推理能力。Muse Spark当前采用闭源方式上线，API仅向部分合作伙伴开放。

风险提示

下游需求不及预期；2. 研发进展不及预期；3. 地缘政治风险。

周观点：模型升级不断，看好硬件投资机遇 HappyHorse-1.0盲测登顶，40层单流架构高效推理。HappyHorse-1.0在Artificial Analysis视频生成盲测榜单中于文本转视频、图像转视频及含音频赛道均位列第一，其中图像转视频Elo分数创下榜单历史纪录。该模型采用40层单流Transformer架构，原生支持音视频同步生成，仅需8步去噪即可输出1080P视频，在H100显卡上生成5秒片段仅需38秒。增持（维持） GLM-5.1长程任务领先，自主执行完成工程级交付。智谱开源的GLM-5.1首次实现了开源模型与全球顶尖闭源模型Claude Opus 4.6的全面对齐，并在SWE-bench Pro基准中刷新全球最佳成绩。该模型在长程任务执行上取得关键突破：在CUDA Kernel优化中连续工作14小时，将加速比从2.6倍提升至35.7倍；在系统级工程构建中，1小时内从零生成完整macOS桌面环境，8小时内完成相当于4人团队一周开发量的Linux系统。GLM-5.1的核心支撑来自长程规划、自适应纠错与状态延续三方面能力的系统性提升，代表了AI从“对话者”向“执行者”的能力升级。作者 Muse Spark多模态突破，预训练效率大幅提升。Meta在约9个月的技术栈重构后发布了原生多模态推理模型Muse Spark，发布后股价当日上涨约6%。该模型在多模态理解、工具调用及医疗健康等维度表现突出，在HealthBench Hard中取得42.8分的最高分。相较于Llama 4，MuseSpark在达到相同预训练性能时所需计算量降低了10.3倍。为弥补在编程和Agent类任务上的差距，Meta推出了“Contemplating”沉思模式，通过多Agent协同提升复杂推理能力。当前Muse Spark采用闭源方式上线，API仅向部分合作伙伴开放。分析师佘凌星执业证书编号：S0680525010004邮箱：shelingxing1@gszq.com 分析师钟琳执业证书编号：S0680525010003邮箱：zhonglin1@gszq.com 相关研究周观点：AI模型向大参数、MoE架构、长上下文、多模态持续升级，直接驱动AI硬件进入全栈式、高确定性升级周期，是全栈硬件体系的范式重构，产业链高景气具备强持续性与结构性机会。我们看好光+存储+PCB及相关产业链的投资机遇。具体见相关标的。风险提示：下游需求不及预期、研发进展不及预期、地缘政治风险。内容目录一、HappyHorse-1.0盲测登顶，40层单流架构高效推理...................................................................................3二、GLM-5.1长程任务领先，自主执行完成工程级交付......................................................................................5三、Muse Spark多模态突破，预训练效率大幅提升...........................................................................................7四、相关标的..................................................................................................................................................11风险提示.........................................................................................................................................................12 图表目录图表1：Artificial Analysis视频生成榜单——文本转视频（无音频）赛道ELO排名...........................................3图表2：Artificial Analysis视频生成榜单——图像转视频（无音频）赛道ELO排名...........................................3图表3：文本转视频盲测对比（Veo 3.1 Lite vs HappyHorse-1.0）...................................................................4图表4：SWE-bench Pro基准测试成绩排名......................................................................................................5图表5：KernelBench Level 3机器学习负载优化加速比对比.............................................................................6图表6：各模型在人工智能分析指数中的得分对比...........................................................................................7图表7：Muse Spark与主流模型在多维度基准测试中的性能对比.....................................................................8图表8：Muse Spark沉思模式与竞品极限推理模式性能对比............................................................................9图表9：Muse Spark预训练效率对比...............................................................................................................9 一、HappyHorse-1.0盲测登顶，40层单流架构高效推理 HappyHorse-1.0在Artificial Analysis视频生成榜单中取得领先成绩，文本转视频、图像转视频及含音频赛道均位列第一。据Artificial Analysis的AI Video Arena排行榜数据，HappyHorse-1.0在文本转视频（无音频）赛道中Elo分数达到1375，领先第二名Seedance 2.0约100分。在图像转视频（无音频）赛道，该模型Elo分数为1409，创下该榜单历史最高纪录。在有音频赛道中，HappyHorse-1.0同样排名全球第一，领先Seedance 2.0。该榜单采用盲测机制，由真实用户在不知模型来源的情况下对两段生成结果进行偏好比较并计算Elo排名，因此上述分数主要反映用户主观观感层面的相对竞争力。在盲测案例中，HappyHorse-1.0在真实感、画面细节、镜头语言及场景氛围塑造方面表现突出。相较于对比模型，HappyHorse-1.0生成的视频在整体色调控制、镜头设置、人物位置合理性及面部纹理还原等维度上更为自然。具体案例中，新闻发布会场景下的镜头切换流畅度较高，能够较好地还原现场氛围；工作场景中的镜头推进节奏与人物面部细节更接近真实拍摄视频。基于十余个盲测案例的主观体验，该模型在多数对比中更易被用户优先选中，侧面印证了其在最终观感上的竞争力。资料来源：量子位公众号，国盛证券研究所技术架构方面，HappyHorse-1.0采用40层单流Transformer架构，原生支持音视频同步生成，推理效率显著提升。该模型仅需8步去噪即可输出1080P分辨率视频。在推理效率方面，该模型在H100显卡上生成5秒视频片段仅需38秒，较传统模型有明显提速。技术特点包括多模态统一建模、无CFG引导生成等。此外，模型原生支持中文（含粤语）、英语、日语、韩语、德语和法语等多语种生成能力。该模型未来可能采取开放策略，基础模型、蒸馏模型、超分模块及推理代码均有望开源。二、GLM-5.1长程任务领先，自主执行完成工程级交付智谱推出的GLM-5.1被定位为在长程任务执行能力上取得关键突破的开源模型。当前主流大模型大多处于““分钟级交互”阶段，而GLM-5.1的交付单位已转变为““一个完整的项目”。该模型首次实现了开源模型与全球最顶尖闭源模型Claude Opus 4.6的全面对齐，并在被称““软件工程能力试金石”的SWE-bench Pro基准测试中刷新全球最佳成绩，超越Claude Opus 4.6、GPT-5.4等头部模型。HuggingFace CEO公开表示，SWE-Bench Pro中性能最强的模型已开源。海外用户反馈显示，GLM-5.1在体验上与Opus相当，使用额度为Claude Code的三倍，成本仅为三分之一。图表4：SWE-bench Pro基准测试成绩排名资料来源：量子位公众号，国盛证券研究所在具体长程任务案例中，GLM-5.1展现出较强的自主执行能力。在CUDA Kernel优化任务中，模型连续工作14小时，自主发现性能瓶颈、切换技术路径、重新编译并反复测试，最终将加速比从2.6倍提升至35.7倍。该模型在优化初期尝试在现有高层框架内寻找解法，但后面能够主动转向底层C++进行重写，体现出““专家级直觉”。在KernelBenchLevel 3优化基准（涵盖50个真实机器学习负载）中，GLM-5.1进行超过24小时的不间断迭代，自主完成““编译—测试—分析—重写”闭环，取得3.6倍几何平均加速比；作为对比，torch.compile max-autotune模式仅达到1.49倍。模型还能自主编写定制TritonKernel和CUDA Kernel，并采用cuBLASLt epilogue融合、shared memory tiling和CUDAGraph优化等策略，覆盖从高层算子融合到底层微架构调优的完整技术链条。在GPU内核优化这一传统上高度依赖专家经验的领域，AI模型已经展现出从问题分析、方案设计到迭代调优的端到端自主工作能力。资料来源：量子位公众号，国盛证券研究所在系统级工程构建任务中，GLM-5.1同样展现出能力。在输入一份约3000字的PRD后，模型从零开始构建包含窗口管理器、Dock栏调度和模拟底层文件系统的macOS桌面环境，并在1小时内完成基本交付，实现更改桌面背景、Dock缩放、终端命令执行及系统截图等功能。而在智谱官方的demo中，展示了GLM-5.1耗时8小时实现的更加复杂的Linux系统：模型通过1200多步执行，在约8小时内搭建出更复杂的Linux系统，包含桌面、状态栏、应用程序、VPN管理器、中文字体支持和游戏库等模块，对应工作量相当于一个4人团队一周的开发任务。进一步看，在代码重构和向量数据库优化场景中，GLM-5.1也显示出持续自主执行能力：前者可在半小时内完成结构复杂代码的规范化重写，后者则在655轮迭代后将向量数据库查询吞吐从3108 QPS提升至21472 QPS，达到初始正式版本的6.9倍。 GLM-5.1之所以能够支撑上述表现，核心在于三方面能力的系统性提升：第一，更强的长程规划与目标保持能力。它能把一个复杂的大目标，拆解为可执行的多阶段计划，并且在长达十几小时、上千步的执行链路中，始终围绕最终交付目标推进。简单来说，就是干到第十步，还记得第

点击免费查看完整报告

周观点：模型升级不断，看好硬件投资机遇