您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中邮证券]:AI动态汇总20250818:智元推出机器人世界模型平台genie envesioner,智谱上线GLM-4.5a视觉推理模型 - 发现报告

AI动态汇总20250818:智元推出机器人世界模型平台genie envesioner,智谱上线GLM-4.5a视觉推理模型

2025-08-25-中邮证券善***
AI智能总结
查看更多
AI动态汇总20250818:智元推出机器人世界模型平台genie envesioner,智谱上线GLM-4.5a视觉推理模型

发布时间:2025-08-25 研究所 金工周报 分析师:肖承志SAC登记编号:S1340524090001Email:xiaochengzhi@cnpsec.com研究助理:冯昱文 SAC登记编号:S1340124100011Email:fengyuwen@cnpsec.com 智元推出机器人世界模型平台GenieEnvisioner,智谱上线GLM-4.5V视觉推理模型——AI动态汇总20250818 ⚫智元推出机器人世界模型平台Genie Envisioner 智元机器人于2025年7月27日在WAIC 2025“智启具身论坛”上 正 式 发 布 了 行 业 首 个 动 作 驱 动 世 界 模 型 开 源 平 台— —GenieEnvisioner(简称GE),并于8月14日进一步向公众推出面向真实世界机器人操控的统一世界模型平台。这一平台彻底颠覆了传统机器人学习中“数据-训练-评估”割裂的流水线模式,创新性地构建了一个以视频生成为核心的闭环架构,使机器人能够在同一世界模型中完成从视觉感知到动作执行的端到端推理与执行。 近期研究报告 《成长风格显著,中盘表现占优——中邮因子周报20250817》-2025.08.18《融资余额新高,创新药光通信调整,指数预期仍将震荡上行挑战前高——行 业 轮 动 周 报20250810》-2025.08.11 ⚫智谱上线GLM-4.5V视觉推理模型 《基本面因子表现不佳,小盘风格明显— —中 邮 因 子 周 报20250803》-2025.08.04 智谱AI于2025年8月11日正式发布并开源了新一代视觉推理模型GLM-4.5V,该模型以1060亿总参数和120亿激活参数的规模成为全球100B级效果最佳的开源视觉推理模型,同步在GitHub、Hugging Face及魔搭社区开放下载。 《小市值占优,低波反转显著——中邮因子周报20250727》-2025.07.28 ⚫字节Seed团队开源VeOmni全模态训练框架 《微盘股的流动性风险在哪?——微盘 股 指 数 周 报20250720》-2025.07.21 字节跳动Seed团队于2025年8月14日正式开源的全模态PyTorch原生训练框架VeOmni,标志着多模态大模型训练进入“低摩擦时代”。该框架通过“以模型为中心”的分布式设计理念,系统性解决了传统训练方法在工程复杂度、扩展性和效率上的瓶颈,将全模态模型的研发周期从数周缩短至几天,工程耗时降低90%以上,同时在128卡GPU集群上实现300亿参数MoE模型2800 tokens/sec/GPU的吞吐量,支持高达160K超长上下文序列训练。 《大金融表现居前助指数突破,GRU行业轮动调入非银行金融——行业轮动周报20250713》-2025.07.14 《低估值高盈利,基本面表现占优——中 邮 因 子 周 报20250706》-2025.07.07 ⚫昆仑万维开源多模态框架Skywork UniPic 2.0 昆仑万维于2025年8月13日在SkyWork AI技术发布周上正式开源了Skywork UniPic 2.0,这是一款突破性的统一多模态框架,首次在单一模型中深度融合图像理解、文本到图像生成(T2I)和图像编辑(I2I)三大核心能力。该模型基于2B参数的SD3.5-Medium架构,通过创新的渐进式双任务强化策略和轻量化设计,实现了生成质量与部署效率的双重突破,其性能超越多个12B以上参数的同类模型,成为开源多模态领域的新标杆。 《基于宏观经济状态划分的BL模型与ETF实践》-2025.07.01 《反转风格显著,小市值回撤——中邮因子周报20250622》-2025.06.23 《关注基本面支撑,高波风格占优——中邮因子周报20250615》-2025.06.16 ⚫风险提示: 《结合基本面和量价特征的GRU模型》-2025.06.05 以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。 目录 1 AI重点要闻..............................................................................41.1智元推出机器人世界模型平台Genie Envisioner...........................................41.2智谱上线GLM-4.5V视觉推理模型........................................................61.3字节Seed团队开源VeOmni全模态训练框架...............................................91.4昆仑万维开源多模态框架Skywork UniPic 2.0............................................112企业动态................................................................................132.1阿里发布通义Wan2.2-I2V-Flash模型...................................................132.2昆仑万维上线音频模型Mureka V7.5,并推MoE-TTS语音合成框架...........................153 AI行业洞察.............................................................................173.1阿里国际站Accio Agent海外爆火......................................................174技术前沿................................................................................194.1 FlowReasoner:增强查询级元智能体....................................................195风险提示................................................................................22 图表目录 图表1:Genie Envisioner平台概览......................................................4图表2:GE-Base世界基础模型概述.......................................................5图表3:在预训练期间未见过的新型机器人Agilex Cobot Magic上对GE-Act进行了真实演示......6图表4:GLM-4.5V测评..................................................................7图表5:GLM-4.5V能力对比及RL提升.....................................................8图表6:VeOmni与现有框架对比..........................................................9图表7:omni-modal LLM复合结构.......................................................10图表8:Skywork UniPic 2.0表现对比...................................................12图表9:MoE-TTS架构概览..............................................................16图表10:推理时的任务级元代理与查询级元代理...........................................20图表11:FlowReasoner训练流..........................................................21 1AI重点要闻 1.1智元推出机器人世界模型平台Genie Envisioner 智元机器人于2025年7月27日在WAIC 2025“智启具身论坛”上正式发布了行业首个动作驱动世界模型开源平台——Genie Envisioner(简称GE),并于8月14日进一步向公众推出面向真实世界机器人操控的统一世界模型平台。这一平台彻底颠覆了传统机器人学习中“数据-训练-评估”割裂的流水线模式,创新性地构建了一个以视频生成为核心的闭环架构,使机器人能够在同一世界模型中完成从视觉感知到动作执行的端到端推理与执行。 GE平台的核心突破在于其视觉中心的世界建模范式。不同于主流VLA方法依赖视觉-语言模型将视觉输入映射到语言空间进行间接建模,GE直接在视觉空间中建模机器人与环境的交互动态。这种方法完整保留了操控过程中的空间结构和时序演化信息,实现了对机器人-环境动态更精确、更直接的建模。这一范式带来了两大关键优势:高效的跨本体泛化能力和长时序任务的精确执行能力。在跨平台测试中,GE-Act仅需1小时约250个演示的遥操作数据即可在新机器人平台上实现高质量任务执行,远超同类模型;而在折叠纸盒等超长步骤任务中,其成功率高达76%,显著优于专门优化的π0模型48%的表现。 资料来源:AGIBOT,中邮证券研究所 技术架构上,GE平台由三大核心组件紧密集成。GE-Base作为多视角视频世界基础模型,采用自回归视频生成框架,通过头部相机和双臂腕部相机的三路视角输入保持空间一致性,并利用稀疏记忆机制增强长时序推理能力。其训练基于AgiBot-World-Beta数据集的3000小时超100万条真机数据,使用32块A100GPU耗时约10天完成。GE-Act作为160M参数的轻量级动作解码器,采用与GE-Base平行的流匹配设计,通过异步推理模式实现实时控制——视频DiT以5Hz运行,动作模型以30Hz运行,可在RTX 4090 GPU上以200毫秒完成54步动作推理。GE-Sim则作为层次化动作条件仿真器,通过Pose2Image条件和运动向量机制将低层控制指令转换为精确的视觉预测,支持闭环策略评估和大规模数据生成。 资料来源:AGIBOT,中邮证券研究所 在实际应用中,搭载GE-Act的机器人已能流畅完成制作三明治、倒茶、擦桌面、使用微波炉加热、流水线装箱等多项任务,成功率远超行业平均水平。例如在工业场景中,机器人可基于GE的预测能力提前模拟装配过程并优化策略,实现从固定轨迹到自主决策的跨越。这种性能提升源于平台对3000小时真实机器人操控视频数据的深度利用,这些数据建立了从语言指令到视觉空间的直接映射,完整保留了交互的时空信息。 智元机器人宣布将开源全部代码、预训练模型和评测工具,并计划未来扩展更多传感器模态以支持全身移动与人机协作。团队还开发了EWMBench评测套件,从场景一致性、轨迹精度等多维度评估世界模型质量。在与Kling、Hailuo等先进模型的对比中,GE-Base在关键指标上均取得最优成绩。这一平台的发布不仅为具身智能开辟了从视觉理解到动作执行的新技术路径,更标志着机器人从被动执行向主动“想象-验证-行动”的智能转变,有望推动智能制造与服务机器人的大规模落地。 1.2智谱上线GLM-4.5V视觉推理模型 智谱AI于2025年8月11日正式发布并开源了新一代