您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[《硅谷101》陈茜]:全面解析‘世界模型’:定义、路径、实践与迈向AGI的关键一步 - 发现报告

全面解析‘世界模型’:定义、路径、实践与迈向AGI的关键一步

全面解析‘世界模型’:定义、路径、实践与迈向AGI的关键一步

2026年将会是世界模型全面爆发的一年。如今的AI看起来似乎“无所不能”,它能写深奥的论文、复杂的代码,做出顶级的画面和视频,但它仍然缺乏理解世界、预测世界,以及在世界里推演并行动的能力。 为了解决这个问题,OpenAI、谷歌、微软等大公司,YannLeCun、李飞飞等顶尖学者,都开始抢着研究同一件事情,那就是——世界模型。 微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K很多人认为,随着多模态走向普及和成熟,如果这条技术线完全跑通,它将彻底重塑整个AI格局。但是我们也注意到,“世界模型”的爆火也带来了新的问题,那就是仿佛整个AI圈一夜之间都变成了“世界模型”。做视频生成的是世界模型,做机器人的是世界模型,做自动驾驶的是世界模型,做游戏开发的是世界模型,AR/VR是世界模型,Agent、仿真、训练环境……只要跟“世界”沾点边,几乎都是世界模型。它们看起来完全不一样,但现在全都被叫作同一个名字。我觉得这个也是很多人在神化世界模型的地方。其实很多现在世界模型,它就是一个视频模型。业界看到的这个世界模型,其实它更多的是世界模型的表现形式。如果一个世界模型,我们真的已经解决掉了,那我们现在科研的方向似乎就没有意义了。 那么,世界模型到底是什么?它跟大语言模型有什么样的区别呢?这些看起来完全不同的路线,是在做同一件事情吗?世界模型的到来,又会给各行各业以及整个社会,带来什么样的改变?以及,它会是人类通往AGI的终极密码吗? 大家好,我是《硅谷101》的陈茜。今天这期视频,就让我们一起走进——世界模型。 什么是世界模型呢?关于它的定义,其实目前依然还没有一个非常清晰的、被所有人都认可的说法。但是我们可以先来聊一聊,这个概念的起源,以及它究竟想要去解决什么样的事情。微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K 那么,先从一个再简单不过的问题开始:你是怎么知道,一杯水放在桌边,它可能会掉下去的呢? 科学家们认为,人类之所以能够预测杯子会掉落、门往哪开、球会顺着斜坡滚,是因为从很小的时候,我们就在脑子里面构建了一个“世界怎么运作”的模型。我们能够预判下一秒会发生什么,能够想象“如果我这么做,会怎么样”,并且在脑海中提前排演各种可能性。在认知科学中,这被称之为心智模型(Mental Model)。 早在上个世纪,科学家们就已经开始研究人类的心智模型。1943年,Kenneth Craik在其著作《解释的本质》中就提出,人在对现实作出反应之前,会先在大脑中构建一个“小规模的世界模型”,用它来模拟可能发生的过程,再据此选择行动。也就是说,我们每个人脑子里,都有一个看不见的“小世界”。 微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K那么既然人类智能依赖于这样的内部世界,很多AI研究者也开始追问说,机器要想具备真正的智能,是否也需要一个属于自己的世界呢?于是,在AI和强化学习的早期研究中,这个思想以不同的名字反复出现。比如在1991年,Richard Sutton、Doina Precup和Satinder Singh在论文中提出了后来被称为Dyna架构的设计思路。Dyna的核心在于,智能体在学习行动策略的同时,也要学习model of the world,也就是,当我采取某个动作之后,世界会如何变化。这也是第一次将“世界模型”明确确立为智能体内部的一项基础能力。 在此之后,世界模型并没有沿着单一路线发展,而是在不同研究领域中被不断拆解、强化和改写。比如在强化学习和机器人中,它体现为Forward Model(前向模型);在自动控制和工业系统中,则发展出了Model Predictive Control(模型预测控制)。这些理论的名字虽然不同,但是背后其实共享着同一个核心假设,那就是智能体之所以能够做出更好的决策,不是因为反应更快,而是因为它能在行动之前,在内部世界中先“看到未来”。 微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K在此后很长一段时间当中,世界模型更多停留在偏理论、偏算法的层面。直到深度学习和表示学习逐渐成熟,在2018年,Google Brain的David Ha与深度学习元老级教父JürgenSchmidhuber共同发表了论文《World Models》。这篇论文正式提出了“世界模型”(World models)这个精炼化的名称,同时还给出了一个比较简洁的世界模型理解框架:世界模型等于观察世界(V)加预测世界(M)再加在内部世界中学习行动(C),对应的是视觉(Vision)、记忆(Memory)和控制(Controller)三个核心模块。 我们用一个简单的例子来解释一下。想象一下,你是一个从未打过乒乓球的新手。当你站在球台前,眼睛接收到的是大量复杂的视觉信息。视觉模块V并不会记住每一个像素,而是会自动地提取出对决策真正重要的部分。它将原本上百万像素的画面,压缩成仅有几十个数字的精华编码。记忆模块M接收到这些编码之后,便立即开始内部模拟。经过多次练习,你的大脑已经建立起对乒乓球运动规律的理解。记忆模块就像你内心的“物理引擎”,能够预测“如果我这样做,会发生什么”。所以,当球飞来的时候,视觉模块提取特征,记忆模块模拟方案,而控制模块C,就主要是在记忆模块M所创造的“内部世界”中进行训练。你并不需要真的挥拍一百次试错,而是在记忆模块的“梦境”中,找到最佳策略之后,再在现实中只执行一次最优解。而这种“想象、规划、行动”的认知过程,正是人类智能的核心特征。 在这篇论文当中,他们也做出了一个有意思的Demo,让模型在完全虚拟的小世界当中,学会了玩一款赛车游戏,证明了AI可以像人类一样,通过内部世界的想象来进行学习。微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K 那么,总结下来,世界模型到底是什么呢?研究者们普遍地认为,它们应该具有三大特质: 第一,表示世界(Representation)。也就是说,模型能够理解所处的环境里面有什么、物体在哪儿,以及物与物之间是什么关系。 第二是预测未来(Prediction)。它能够对事件进行模拟和生成:如果我推一下杯子、打开一扇门、往前走两步,世界会发生什么样的改变。 第三是在世界里,规划和行动(Planning & Control)。能够预测接下来会发生什么之后,我应该如何采取行动。 微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K因为它是一个,当你把一个世界抽象到一个潜在的空间里,它是被压缩过的。然后在这个潜在空间里呢,你能够通过学到的物理规律,然后去做对未来的预测,形成对真实世界的一个模拟器。相当于它是一个模拟系统,有点像是一个缩小的平行宇宙。这感觉就是你如果有一个真正的AI大脑,它将能够,就是它有自己的一个AI的世界观。因为你可以做预测,所以你就可以去做未来的推演,然后你可以做决策。 世界模型的本质,就是想让AI从一个“只会回答问题”的语言机器,走向能够真正像人类一样“会观察、会推理、会行动”的真正智能体。 但是问题来了,作为一个上个世纪就开始被研究的概念,为什么突然在最近一段时间火起来了呢?它跟我们现在所熟悉的大语言模型,又有什么样的区别或是联系呢? 让我们把世界模型和大语言模型来做个对比。 从主要任务和预测目标来看,大语言模型的目标是生成在语言维度上最合理的序列,预测的是下一个词或者token。比如说你问杯子会从桌子上掉下来吗,它回答会,因为这是在无数文本里面出现过的正确答案。而世界模型的任务是预测“下一秒世界会变成什么样子”,预测的是下一帧画面、下一步动作、下一次的状态变化。它需要理解物理规律、空间关系和动态变化。 微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K从训练数据上来看,大语言模型主要依赖文本数据,也包括一些图像和视频,数据特点是以静态内容为主。而世界模型则主要依赖视频等动态数据,包括摄像头看到的画面、机器人的传感器反馈、动作的结果、环境的变化,数据特点是动态的、时序性的。 从输出的结果来看,大语言模型输出的是语言或者图像等内容,世界模型输出的是对未来状态的预测、对行为的模拟,以及可执行的行动方案。 从学习方式来看,大语言模型是通过语言间接理解世界,更像是一个“知识容器”;而世界模型是通过交互和推演直接理解世界,不仅能“看见”,还能“预测”和“干预”。 因此,大语言模型更适合对话、写作、翻译、问答,而世界模型对应的则是机器人、自动驾驶、物理模拟和决策系统这些必须进入真实世界的任务。 此前,李飞飞也曾经在采访当中精炼地总结过两者在目的和训练模态上的不同:一种是关于表达,另一种是关于观察和行动。因此,它们本质上是截然不同的模态。大型语言模型的基本单元是词库,无论是字母还是单词,而我们使用的世界模型的基本单元是像素或体素。所以它们是非常不同的语言。 虽然大语言模型和世界模型是两条不一样的技术路线,但是它们的终极目标其实是一致的,那就是要实现通用人工智能。微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K 那么,我们现在为什么要突然这么去关注世界模型呢?是因为大模型这条路线已经走不动了吗? 其实关于这个问题,研究界目前依然存在着不同的观点。一些研究者们旗帜鲜明地提出,大语言模型是死路。这派的代表人物之一就是Yann LeCun。离开工作了12年的Meta后,这位65岁的图灵奖得主、深度学习先驱并没有选择退休,而是回到巴黎创立了一家名为Advanced MachineIntelligence的公司。他要做的事情,与硅谷主流的大模型路线截然不同。 微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K他在最近的采访当中就表示,AI领域的Moravec悖论一直存在。所谓的Moravec悖论,就是指AI可以轻松地处理对人类极其困难的高智力任务,比如说下棋、微积分、读论文,但是直觉性的感知、社交等,人类和动物轻松能够完成的初级技能,对却极为的困难。Yann LeCun认为,这个悖论至今未解决,就是因为我们研究AI的路线错了。人类智能的核心在于不依赖海量数据就能够自主学习。现在的LLM,就是在拟合语言的统计相关性,对现实世界几乎没有直接建模能力。如果继续沿着LLM路线去“堆量”,最多只能做出一个更会说话、更会写字的模型。他甚至放言称,再过5年,GPT之类的大语言模型就不会再有人用了。 而关于大家都在憧憬AGI很快到来,他也认为是一种幻想,最乐观也要5到10年,机器的智能才能勉强接近一只狗。那些吹嘘一两年内就能实现通用人工智能的人,纯粹是痴人说梦,彻头彻尾的妄想 。因为现实世界远比这复杂得多。你不可能通过“将世界token化”和使用大语言模型来解决这个问题,这根本不可能实现。 而除了Yann LeCun之外,学术界当中有不少的大佬级人物也都持有类似的观点。比如说图灵奖的获得者、强化学习之父Richard Sutton:“大语言模型试图在没有目标,也没有‘好坏优劣’这种评价标准的情况下运作,这其实一开始就走错了方向。”李飞飞最近也在密集地发声,她说大语言模型依然是“黑暗中的文字匠人”,能言善辩却缺乏经验,知识渊博却脱离现实。 微信公众号 404K微信公众号 404K微信公众号 404K微信公众号 404K所以,大模型这条路线,是不是真的走不通了?严格来说,现在还没有标准的答案。但是有几件事,大家开始有了越来越多的共识。 首先,单纯把模型做得更大,已经不会再像过去那样带来立竿见影的突破了。规模继续上去当然可以变强,但是在算力、数据、能源、成本这些硬约束下,它的性价比正在迅速地下降。 其次,AI需要更加直接地去接触“真实世界”。语言世界太干净了,它无法提供现实世界里面那种混乱、连续、充满不确定性的因果经验。AI想继续往前走,需要新的输入