行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI动态汇总20250818：智元推出机器人世界模型平台genie envesioner，智谱上线GLM-4.5a视觉推理模型

2025-08-25 - 中邮证券善护念

AI动态汇总

智元推出机器人世界模型平台GenieEnvisioner

核心突破：以视频生成为核心的闭环架构，实现机器人从视觉感知到动作执行的端到端推理与执行。
技术架构：包含GE-Base（世界基础模型）、GE-Act（动作解码器）和GE-Sim（动作条件仿真器）三大组件。
性能优势：高效的跨本体泛化能力和长时序任务的精确执行能力，例如GE-Act仅需1小时数据即可在新机器人上实现高质量任务执行。
开源计划：将开源全部代码、预训练模型和评测工具，并计划扩展更多传感器模态。

智谱上线GLM-4.5V视觉推理模型

模型规模：1060亿总参数和120亿激活参数，成为全球100B级效果最佳的开源视觉推理模型。
技术架构：视觉编码器、MLP适配器与语言解码器的三模块设计，引入三维旋转位置编码和双三次插值机制。
性能表现：在41项公开视觉多模态基准测试中全面达到同级别开源模型的SOTA性能。
应用能力：前端复刻功能可生成结构化代码，GUI Agent能力可识别电商页面折扣信息。

字节Seed团队开源VeOmni全模态训练框架

核心突破：通过“以模型为中心”的分布式设计理念，解决传统训练方法在工程复杂度、扩展性和效率上的瓶颈。
技术优势：将模型组件转化为纯粹的“计算模块”，自动处理通信逻辑，支持高达160K超长上下文序列训练。
性能提升：在128卡GPU集群上实现300亿参数MoE模型2800 tokens/sec/GPU的吞吐量，工程耗时降低90%以上。

昆仑万维开源多模态框架Skywork UniPic 2.0

核心能力：在单一模型中深度融合图像理解、文本到图像生成和图像编辑三大核心能力。
技术架构：采用三模块协同设计，构建从理解到生成再到编辑的端到端闭环。
性能突破：以极小参数量实现了越级表现，例如在GenEval生图评估中取得0.89分，超越12B参数的Flux.dev。

企业动态

阿里发布通义Wan2.2-I2V-Flash模型：图生视频技术进入“轻快”时代，12倍推理速度跃升，API调用价格降至0.1元/秒。
昆仑万维上线音频模型Mureka V7.5，并推MoE-TTS语音合成框架：Mureka V7.5深度建模中文音乐文化特性，MoE-TTS实现自然语言驱动的开放描述系统。

AI行业洞察

阿里国际站Accio Agent海外爆火：将传统跨境采购流程压缩至分钟级，通过多智能体协同架构与深度供应链整合重构全球贸易效率。

技术前沿

FlowReasoner:增强查询级元智能体：通过强化学习与外部执行反馈的协同机制，实现针对单个用户查询的个性化多智能体系统自动生成。

风险提示

以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。

发布时间：2025-08-25 研究所金工周报分析师:肖承志SAC登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC登记编号:S1340124100011Email:fengyuwen@cnpsec.com 智元推出机器人世界模型平台GenieEnvisioner，智谱上线GLM-4.5V视觉推理模型——AI动态汇总20250818 ⚫智元推出机器人世界模型平台Genie Envisioner 智元机器人于2025年7月27日在WAIC 2025“智启具身论坛”上正式发布了行业首个动作驱动世界模型开源平台— —GenieEnvisioner（简称GE），并于8月14日进一步向公众推出面向真实世界机器人操控的统一世界模型平台。这一平台彻底颠覆了传统机器人学习中“数据-训练-评估”割裂的流水线模式，创新性地构建了一个以视频生成为核心的闭环架构，使机器人能够在同一世界模型中完成从视觉感知到动作执行的端到端推理与执行。近期研究报告《成长风格显著，中盘表现占优——中邮因子周报20250817》-2025.08.18《融资余额新高，创新药光通信调整，指数预期仍将震荡上行挑战前高——行业轮动周报20250810》-2025.08.11 ⚫智谱上线GLM-4.5V视觉推理模型《基本面因子表现不佳，小盘风格明显— —中邮因子周报20250803》-2025.08.04 智谱AI于2025年8月11日正式发布并开源了新一代视觉推理模型GLM-4.5V，该模型以1060亿总参数和120亿激活参数的规模成为全球100B级效果最佳的开源视觉推理模型，同步在GitHub、Hugging Face及魔搭社区开放下载。《小市值占优，低波反转显著——中邮因子周报20250727》-2025.07.28 ⚫字节Seed团队开源VeOmni全模态训练框架《微盘股的流动性风险在哪？——微盘股指数周报20250720》-2025.07.21 字节跳动Seed团队于2025年8月14日正式开源的全模态PyTorch原生训练框架VeOmni，标志着多模态大模型训练进入“低摩擦时代”。该框架通过“以模型为中心”的分布式设计理念，系统性解决了传统训练方法在工程复杂度、扩展性和效率上的瓶颈，将全模态模型的研发周期从数周缩短至几天，工程耗时降低90%以上，同时在128卡GPU集群上实现300亿参数MoE模型2800 tokens/sec/GPU的吞吐量，支持高达160K超长上下文序列训练。《大金融表现居前助指数突破，GRU行业轮动调入非银行金融——行业轮动周报20250713》-2025.07.14 《低估值高盈利，基本面表现占优——中邮因子周报20250706》-2025.07.07 ⚫昆仑万维开源多模态框架Skywork UniPic 2.0 昆仑万维于2025年8月13日在SkyWork AI技术发布周上正式开源了Skywork UniPic 2.0，这是一款突破性的统一多模态框架，首次在单一模型中深度融合图像理解、文本到图像生成（T2I）和图像编辑（I2I）三大核心能力。该模型基于2B参数的SD3.5-Medium架构，通过创新的渐进式双任务强化策略和轻量化设计，实现了生成质量与部署效率的双重突破，其性能超越多个12B以上参数的同类模型，成为开源多模态领域的新标杆。《基于宏观经济状态划分的BL模型与ETF实践》-2025.07.01 《反转风格显著，小市值回撤——中邮因子周报20250622》-2025.06.23 《关注基本面支撑，高波风格占优——中邮因子周报20250615》-2025.06.16 ⚫风险提示：《结合基本面和量价特征的GRU模型》-2025.06.05 以上内容基于历史数据完成，在政策、市场环境发生变化时存在失效的风险；历史信息不代表未来。目录 1 AI重点要闻..............................................................................41.1智元推出机器人世界模型平台Genie Envisioner...........................................41.2智谱上线GLM-4.5V视觉推理模型........................................................61.3字节Seed团队开源VeOmni全模态训练框架...............................................91.4昆仑万维开源多模态框架Skywork UniPic 2.0............................................112企业动态................................................................................132.1阿里发布通义Wan2.2-I2V-Flash模型...................................................132.2昆仑万维上线音频模型Mureka V7.5，并推MoE-TTS语音合成框架...........................153 AI行业洞察.............................................................................173.1阿里国际站Accio Agent海外爆火......................................................174技术前沿................................................................................194.1 FlowReasoner:增强查询级元智能体....................................................195风险提示................................................................................22 图表目录图表1：Genie Envisioner平台概览......................................................4图表2：GE-Base世界基础模型概述.......................................................5图表3：在预训练期间未见过的新型机器人Agilex Cobot Magic上对GE-Act进行了真实演示......6图表4：GLM-4.5V测评..................................................................7图表5：GLM-4.5V能力对比及RL提升.....................................................8图表6：VeOmni与现有框架对比..........................................................9图表7：omni-modal LLM复合结构.......................................................10图表8：Skywork UniPic 2.0表现对比...................................................12图表9：MoE-TTS架构概览..............................................................16图表10：推理时的任务级元代理与查询级元代理...........................................20图表11：FlowReasoner训练流..........................................................21 1AI重点要闻 1.1智元推出机器人世界模型平台Genie Envisioner 智元机器人于2025年7月27日在WAIC 2025“智启具身论坛”上正式发布了行业首个动作驱动世界模型开源平台——Genie Envisioner（简称GE），并于8月14日进一步向公众推出面向真实世界机器人操控的统一世界模型平台。这一平台彻底颠覆了传统机器人学习中“数据-训练-评估”割裂的流水线模式，创新性地构建了一个以视频生成为核心的闭环架构，使机器人能够在同一世界模型中完成从视觉感知到动作执行的端到端推理与执行。 GE平台的核心突破在于其视觉中心的世界建模范式。不同于主流VLA方法依赖视觉-语言模型将视觉输入映射到语言空间进行间接建模，GE直接在视觉空间中建模机器人与环境的交互动态。这种方法完整保留了操控过程中的空间结构和时序演化信息，实现了对机器人-环境动态更精确、更直接的建模。这一范式带来了两大关键优势：高效的跨本体泛化能力和长时序任务的精确执行能力。在跨平台测试中，GE-Act仅需1小时约250个演示的遥操作数据即可在新机器人平台上实现高质量任务执行，远超同类模型；而在折叠纸盒等超长步骤任务中，其成功率高达76%，显著优于专门优化的π0模型48%的表现。资料来源：AGIBOT，中邮证券研究所技术架构上，GE平台由三大核心组件紧密集成。GE-Base作为多视角视频世界基础模型，采用自回归视频生成框架，通过头部相机和双臂腕部相机的三路视角输入保持空间一致性，并利用稀疏记忆机制增强长时序推理能力。其训练基于AgiBot-World-Beta数据集的3000小时超100万条真机数据，使用32块A100GPU耗时约10天完成。GE-Act作为160M参数的轻量级动作解码器，采用与GE-Base平行的流匹配设计，通过异步推理模式实现实时控制——视频DiT以5Hz运行，动作模型以30Hz运行，可在RTX 4090 GPU上以200毫秒完成54步动作推理。GE-Sim则作为层次化动作条件仿真器，通过Pose2Image条件和运动向量机制将低层控制指令转换为精确的视觉预测，支持闭环策略评估和大规模数据生成。资料来源：AGIBOT，中邮证券研究所在实际应用中，搭载GE-Act的机器人已能流畅完成制作三明治、倒茶、擦桌面、使用微波炉加热、流水线装箱等多项任务，成功率远超行业平均水平。例如在工业场景中，机器人可基于GE的预测能力提前模拟装配过程并优化策略，实现从固定轨迹到自主决策的跨越。这种性能提升源于平台对3000小时真实机器人操控视频数据的深度利用，这些数据建立了从语言指令到视觉空间的直接映射，完整保留了交互的时空信息。智元机器人宣布将开源全部代码、预训练模型和评测工具，并计划未来扩展更多传感器模态以支持全身移动与人机协作。团队还开发了EWMBench评测套件，从场景一致性、轨迹精度等多维度评估世界模型质量。在与Kling、Hailuo等先进模型的对比中，GE-Base在关键指标上均取得最优成绩。这一平台的发布不仅为具身智能开辟了从视觉理解到动作执行的新技术路径，更标志着机器人从被动执行向主动“想象-验证-行动”的智能转变，有望推动智能制造与服务机器人的大规模落地。 1.2智谱上线GLM-4.5V视觉推理模型智谱AI于2025年8月11日正式发布并开源了新一代

点击免费查看完整报告

AI动态汇总20250818：智元推出机器人世界模型平台genie envesioner，智谱上线GLM-4.5a视觉推理模型

AI动态汇总

智元推出机器人世界模型平台GenieEnvisioner

智谱上线GLM-4.5V视觉推理模型

字节Seed团队开源VeOmni全模态训练框架

昆仑万维开源多模态框架Skywork UniPic 2.0

企业动态

AI行业洞察

技术前沿

风险提示

你可能感兴趣

汽车行业周报：首届人形机器人运动会闭幕，智元推出首个机器人世界模型开源平台GE

AI动态汇总：英伟达召开GTC 2025大会，Skywork-R1V、混元T1等推理模型接连上线

影视传媒行业周报：谷歌发布AI世界模型Genie，AI视频生成平台LTX Studio已推出

AI动态汇总20250728：英伟达推出 OpenReasoning-Nemotron 推理模型， Qwen3 Coder 开源

AI动态汇总：Anthropic公开多智能体构建全流程，MiniMax推出推理模型M1

【中邮金工】AI动态汇总：OpenAI发布o3-pro，Mistral推出推理模型Magistral

AI动态汇总：AI模型通过标准图灵测试，智谱发布AI Agent AutoGLM沉思

计算机行业周报：OpenAI发布大模型GPT-5，谷歌推出世界模型Genie 3

计算机行业周报：智元发布世界模型开源平台，Perplexity计划收购Chrome

【风口研报·公司】单季度同比减亏95%展现业绩拐点，这家公司针对机器人推出3类AI视觉新品、正式进驻英伟达机器人平台，全栈自研+技术积累构筑护城河