您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [弗若斯特沙利文]:2025年中国世界模型发展洞察 - 发现报告

2025年中国世界模型发展洞察

信息技术 2025-08-01 弗若斯特沙利文 叶剑锋
报告封面

2025年8月 执行摘要 本报告聚焦“世界模型”(World Models)这一前沿人工智能技术,分析其发展现状、技术路径、市场格局及未来趋势。世界模型是理解现实世界动态(包括其物理和空间属性)的生成式AI模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习,它们能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测,加速物理AI的虚拟世界生成,生成可扩展的增强型数据,从而消除数据瓶颈,实现更高效的基础模型训练。 研究目的 本白皮书的研究目的在于全面梳理世界模型的发展历程、现状、核心技术及其在智能驾驶中的应用,并通过对不同厂商能力的对比分析,探讨世界模型未来的发展趋势。世界模型作为模拟和预测现实世界动态的生成式AI框架,已在自动驾驶、机器人、数字孪生等领域展现出巨大潜力,我们期望为相关领域的研究者、开发者以及企业提供有价值的参考信息,促进技术进步和产业发展。 目录 报告摘要 关键发现 章节一:世界模型概述 ------------------------6 •世界模型定义与基本概念------------------------7•世界模型核心要素------------------------8•世界模型发展历程与现状------------------------9•世界模型关键能力及主流场景------------------------10 章节二:世界模型技术能力分析 •世界模型关键技术与能力•世界模型技术指标概述•世界模型对比及评价•主流世界模型介绍 章节三:世界模型在自动驾驶中的应用 •自动驾驶系统概述------------------------18•自动驾驶发展现状及核心痛点------------------------19•世界模型在自动驾驶中的生成场景------------------------20•世界模型在自动驾驶中的关键能力------------------------21•世界模型在自动驾驶中的价值分析------------------------22•世界模型在自动驾驶中的未来方向------------------------23 目录 章节四:世界模型在具身智能中的应用24 章节五:世界模型厂商竞争格局 •世界模型厂商综合实力评估指标定义------------------------32•中国世界模型厂商总览与简介------------------------34•中国世界模型厂商综合实力评估表现------------------------35•世界模型优秀案例分析------------------------36 7 Key Findings关键发现 多模态感知融合、真实物理世界构建与动态环境预测作为世界模型的核心能力正成为驱动智能系统向高阶感知与决策能力跃升的核心技术支柱。 80% 当前在自动驾驶领域世界模型应用成熟度高于具身智能领域,未来,世界模型将成为具身智能的“认知核心” 超过 自动驾驶算法使用世界模型进行辅助训练 以商汤为代表的 平台型世界模型提供商 世界模型的本质是视觉和空间的认知,最重要的是保证4D数据重建的真实性 通过构建开放通用的产业基座,避免了车企重复自研与科研模型的工程化瓶颈,有效赋能自动驾驶、具身智能等领域的规模化应用与跨场景迁移 目前,中国世界模型领域玩家已经超过10+ 商汤绝影「开悟」世界模型在技术产品、应用能力以及生态建设三方面综合评价位居榜单第一 其中头部玩家正凭借其先发优势与技术能力,与世界领先的厂商同台竞技。 世界模型概述 世界模型定义 正成为驱动智能系统向高阶感知与决策能力跃升的核心技术支柱。 世界模型(World Models, WMs)作为一种生成式AI模型,能够通过构建内部表征理解真实世界的动态规律(涵盖物理特性与空间属性),同时借助文本、图像、视频和运动数据等输入信息生成视频内容。通过从感官数据中学习表征和预测运动、力和空间关系等动态特性,实现对现实环境物理属性的理解并通过生成环境及动作,从而模拟、指导及实施决策。 世界模型基本概念 内部表征的世界模型可以通过概率模型、物理模型等形式存在,它们通过对历史数据的学习和理解,形成对未来事件和状态的预测。 未来预测的世界模型则依赖于生成模型,如扩散模型或视频生成模型,通过模拟连续的时间动态来生成真实场景。 这类模型已在自动驾驶、机器人技术、数字孪生等前沿领域展现出巨大应用潜力, 世界模型核心要素 “世界模型不仅应当感知和建模现实世界,还应具备展望可能存在的未来状态的能力,从而为决策提供指导。” ——Worlds Labs李飞飞 感知与建模 学习与更新 人类的感知能力是世界模型构建的第一步。当我们通过视觉、听觉、触觉等感官获取到外界信息时,大脑就会将这些信息处理并转化为对世界的认知。在机器学习中,这一过程通常通过传感器、图像识别、自然语言处理等技术来实现。 世界模型的另一重要特征是能够通过学习不断更新自己的结构。无论是人类通过经验积累,还是人工智能通过训练数据,世界模型都能够随着新信息的加入而不断优化,以提高其对未来预测的准确性。 动态性与预测能力 状态表示 一旦获取了感知数据,世界模型就需要将这些信息表示为某种形式的状态。比如,在强化学习中,状态通常是对环境某一时刻的抽象表示。在其他领域,状态可能是对事物属性或时间序列数据的集合。 世界模型不仅仅是被动地接收信息,它还具有根据现有数据进行预测和推理的能力。例如,基于过去的经验,世界模型可以预测未来的状态,帮助决策者在面对不确定性时做出更加理性和高效的选择。 世界模型发展历程与现状 •AI世界模型仍处早期阶段,以感知压缩和因果推理为主,闭环尚未稳定成型 。•发展历程从理论提出到产业试点,包括MuZero发布、BEV模型落地和“升格”系统升级。•未来将突破三方面:多模态感知、因果可控生成、与具身智能系统深度融合。 首次在物理机器人上实现高效学习,验证世界模型在具身智能中的泛化与实用性。 Google、Meta、NVIDIA等海外厂商在世界模型持续发力,不断推出新模型,如NVIDIACOSMOS、META V-JEPA2等。 首次构建潜空间世界模型(VAE+RNN),通过“做梦”学习策略,奠定模型式强化学习基础。 商汤发布“开悟”世界模型系统升级 以小鹏、理想为代表的中国厂商,通过结合VLA、VLM与世界模型,推进自动驾驶向无图化、端到端演进。 •从感知压缩到因果推理,世界模型正处于从早期探索走向复杂智能行为生成的关键过渡期 目前,世界模型整体仍处于早期探索阶段,大多集中在感知层面的模拟与压缩,尚未真正实现“感知-预测-决策”一体化的稳定闭环。尽管在自动驾驶领域已有试点应用,但多依赖特定环境与强先验,不具备通用性与长期泛化能力。未来的发展方向将集中在三个方面:一是通过多模态输入增强 对世界状态的理解;二是引入因果建模与可控生成机制,提升预测准确性与行为规划能力;三是将世界模型与具身智能系统深度融合,实现从“观察世界”到“理解并参与世界”的跃迁。 哪些领域将迎来变革? ——世界模型四大应用场景 哪些领域将迎来变革? ——世界模型四大应用场景 一、自动驾驶 世界模型在游戏与虚拟现实中扮演着核心角色。它用于构建虚拟环境的逻辑与物理规则,使玩家能与动态场景互动。通过世界模型,系统可模拟重力、碰撞、光照等真实效果,提升沉浸感。同时,它还支持AI角色的行为决策,推动剧情发展。在VR中,世界模型确保视觉、听觉与动作的实时同步,增强用户体验的真实性与连贯性。 实时感知周围环境,世界模型可以分析其他车辆、行人、非机动车的运动状态和行为意图,预测它们未来的行动轨迹。例如,当识别到骑车人转头的动作时,世界模型能够判断骑车人可能有左拐的意图,从而提前提醒自动驾驶系统做好减速、避让等准备。此外,世界模型还可以模拟不同天气、路况下的驾驶场景,帮助车辆制定更合理的行驶策略,大幅提升自动驾驶的安全性和可靠性,推动自动驾驶技术从辅助驾驶向完全自动驾驶迈进。 四、科学模拟 在科学研究和工程领域,世界模型为复杂系统的模拟和预测提供了强大的工具。通过跨尺度的推演,世界模型帮助科学家和工程师更好地理解和掌控复杂系统,推动科学技术的进步和社会的可持续发展。 二、具身智能 世界模型将彻底改变机器人的应用形态,使其从只能执行简单重复动作的机器,转变为能够完成各种复杂任务的通用劳动力。在家庭服务场景中,机器人可以利用世界模型理解家居环境和用户需求,自主完成打扫房间、整理物品等工作;在工业生产领域,机器人能够根据世界模型规划任务方案,灵活应对不同的生产需求,进行精密装配、质量检测、设备维护等操作。 三、游戏与虚拟现实 世界模型的关键技术与能力 因果推理能力 概念,构建强大的复杂因果推理能力,提升AI在动态环境中的自主决策能力。 因果推理要求AI能够回答“如果A发生,B会怎样?”这类假设性问题,这对模型来说是一个巨大的挑战。因此人工智能不应该仅仅是对于已有知识的复制或检索,而应当具备一种更广泛、更深层次的理解周围环境的能力。 例如:在自动驾驶场景中,需要模拟如果前方突然出现一个行人,车辆采取不同的避让策略会产生怎样的后果;在工业生产中,要预测如果设备某个部件出现故障,整个生产流程会受到哪些影响。 由于生活中大多数数据为动态视觉信息,如何利用图像、视频等视觉输入自发地理解现实概念并实现与人类的交互一直是一大难题, 最先进的视觉问答模型在视觉因果推理方面与人类相比仍存在较大改进空间, 世界模型通过构建视觉感知组件与记忆组件,所学习到的关于环境的表征与对于未来的预测能有效地帮助模型理解现实 场景重建时空一致性 常见的视频生成通常侧重于以单一模态或单一视角生成数据,虽然其已经初步展现出对时空一致性、视觉因果链的建模能力,但受限于物体遮挡、视角信息固定、缺乏3D结构信息等因素,而难以实现真正的 多模数据物理规则描述 时空一致性。 在3D世界中,我们的视角通常会随心所欲地沿着不同路径,向各种各样的方向移动,在这一场景下世界模型需要更强的时空一致性与动态3D环境生成能力。如保持空间结构稳定(如物体形状、位置、遮挡关系)和时间演化连贯(如运动轨迹、因果关系、物理规律)等。 模拟复杂的物理规则仍然是一项极具挑战性的任务,现实世界中的流体运动、物体碰撞等物理现象涉及到大量的参数和变量,具有高度的非线性和不确定性。以流体模拟为例,水的流动受到重力、粘度、表面张力等多种因素的影响,不同场景下的流体行为差异巨大,想要精确模拟十分困难。在物体碰撞模拟中,不仅要考虑物体的材质、形状、质量等属性,还需要准确计算碰撞瞬间的力的传递和能量转换,稍有偏差就会导致模拟结果与现实不符。 当前世界模型通过长期记忆机制、潜在空间建模、对象中心表征等技术在更高维度空间利用潜变量向量代替像素重建,带来泛化能力和样本效率的提升,从而达成更优的时空一致性。 世界模型预测的是3D场景结构,而非简单的像素,这为后续的交互和真实感奠定了基础,因此生成的场景遵循基本的3D几何和物理规则(如物体的遮挡、深度、实体感),避免了传统模型生成视频常出现的扭曲、变形等“梦境般”的不真实感。且生成的世界是稳定的,不会因视角变化或短暂离开而改变,保证了体验的连贯性。 而世界模型通过结合强化学习,可以实现从感知→建模→规划→执行→感知更新→模型修正的动态循环过程,甚至在过程中还可以根据主动干预来验证预测,并利用反馈信号持续优化自身。如在自动驾驶中世界模型可以根据感知建模信息预测行人轨迹,规划避让路径并执行转向操作,再通过更新的感知内容如雷达、视觉等信息修正预测模型。在这个过程中,低延迟响应的实时反馈是实际应用的基础,可以通过轻量化技术与潜空间状态生成等技术实现。 执行与实时反馈 在真实世界中,获取实时的交