世界模型和背景将如何引领可信AI的下一波浪潮 统计上令人印象深刻,但个体上不可靠 对组织而言,这意味着重大影响。背景信息与数据一样,成为了一种资产。在实践中,这正是语义层的作用:它是组织背景信息被结构化、维护并供人工智能系统使用的场所。信任、安全、合规性和稳健性成为可以有意设计的属性。其结果将是用户可以自信依赖的人工智能系统,从而为更广泛的应用打开大门。 “统计上令人印象深刻,但个体上不可靠”——I2O的DARPA总监约翰·兰彻伯里总结了许多人目前对人工智能的感受。尽管总体上令人印象深刻,我们有时仍然不愿意将其托付于关键决策。 拼图缺失的一块是背景信息。对于人类而言,我们往往将背景信息视为理所当然。你不需要告诉你的理发师你的目标是看起来好看;这已是普遍共识。当前的AI需要这种类型的信息被明确说明。为AI模型提供背景信息是防止这些错位问题的关键,从而能带来更好的AI。共享的背景信息是建立信任的基础。 当人工智能系统缺乏适当背景时,与现实世界的脱节是不可避免的。有了背景,我们就能获得一位宝贵的伙伴——这位伙伴不仅统计表现令人印象深刻,而且我们可以信赖。 交通规则 当人工智能缺乏上下文时 扫描障碍物,并在交叉路口寻找安全合法的通行路径。 2025年11月30日凌晨,一辆自动驾驶的Waymo汽车因各种原因创造了历史。这场景仿佛来自好莱坞动作片:警车封锁十字路口,灯火通明,嫌疑人等待被捕。随后一辆白色自动驾驶出租车驶入现场。它随意地接近目瞪口呆的警察,打了个信号,然后继续沿其路线行驶。任何人类都会认出危险并保持安全距离。而人工智能对此人类戏剧毫无察觉。 尽管人工智能取得了令人瞩目的成就,但在某些情况下,它与我们的预期如此脱节,以至于我们开始质疑是否还能信任它。那么,这里到底是怎么回事?为什么人工智能会失败于识别一个任何孩子都能理解的基本情况? 答案直指当今人工智能最大的局限性,并暗示了解锁下一级现实世界性能的潜力。 Waymo的车辆并没有损坏。事实上,它运行得非常完美——遵守交通法规, 为什么世界模型还不够用 尽管“世界模型”可能是行业中的主流术语,但值得我们反思的是,这是否会限制我们的视角,以及“情境”是否可能是一个更全面的术语。 “世界模型”这个词带有更强的物理含义,而它仅仅是我们所讨论内容的一部分。像伦理、法律或社会期望这类议题,对于人工智能而言,其重要性一点也不亚于,比如说,物理定律。 “世界模型”这个词的拥护者会很快(而且正确地)指出,在人工智能圈内,该词被用于更广泛的意义,即我们系统所存在的信息世界。但我们已经有一个词来表示这个意思——背景。 世界模型和上下文模型扮演着互补的角色。世界模型使智能体能够模拟环境可能的演变,从而赋予其预测结果的能力。上下文模型则将智能体锚定在当前时刻,帮助它理解当前情境中什么才是重要的,并作出相关且细致的回应。 本文将自由使用这两个术语。但我们必须牢记,世界模型指的是许多不同的世界,每一个都充满了未知的复杂性。 人工智能领域在过去十年中一直将规模作为优先事项。更大的数据集、更庞大的模型、更深层的网络、更多的参数。其逻辑诱人而简单:如果智能可以通过统计模式匹配来近似,那么更多的模式应该会产生更多的智能。这是一个引人入胜的故事,并且在狭窄的领域内它已经产生了非凡的结果。 AI 中心之处的鸿沟 然而,我们越是推行这一策略,其天花板就越清晰。现代AI系统在熟悉领域看似出色,但一旦世界不再按其训练数据的方式行事,它们就会变得脆弱。它们在信息缺失的情况下会感到困难。当背景信息变化时,它们会自信地产生幻觉。因为人类很少将所有意图都明确表达出来,它们会误解人类的意图。它们的表现就像那些只记住了 phrasebook(短语手册)却从未学习过文化的游客。这些系统缺乏的并非更多原始数据,而是背景信息。 值得信赖的人工智能之路,并非在于模型更大,而在于上下文更好。 背景是那些支配世界行为方式的未成文规则和因果关系,即使没有人费心大声说明。它是赋予实体(人类、动物或人工智能)对其现实运作方式的一种认知。在人工智能领域,这是超越模式识别、迈向实际推理的一个广泛的概念转变。为了达到那个阶段,人工智能需要理解关于世界的一些基本事实。 本文认为,通往值得信赖的人工智能之路并非在于更大的模型,而在于更好的上下文。人工智能的未来在于能够超越其训练分布进行操作的系统:结合统计学习、结构化知识、因果推理、物理约束和符号推理。这些混合系统更像是遵循规则的世界中的参与者,而非自动补全引擎。 第三次人工智能浪潮 2017年,约翰·兰奇贝里(John Launchbury)勾勒了人工智能演进的愿景。第一波手工制作的AI规则将让位于第二波统计学习,最终达到第三波情境适应。在他看来,在第三波中,系统将基于情境来理解数据,从而获得进行抽象推理的能力。从我们目前所处的第二波远端这一视角来看,我们能够看到一些信号,表明第三波正在迅速到来: 安全与合规要求需要系统具备可预测的行为。 机器人与自主系统需要以物理学、空间感知、本体感觉、因果关系等为基础的模型。 企业需要能够与企业业务逻辑、政策、法规和法律相结合的AI。 纯粹扩展大型语言模型(LLM)所带来的收益正在递减。很明显,幻觉是一种特性而非缺陷,并且永远无法通过完全的训练或提示来消除。 决策任务需要因果关系推理,而非相关性推理。 人工智能缺乏实现有意义的伦理控制所需的高级抽象、理解和推理能力。 这些局限性都源于缺乏背景信息。我们现在正进入人工智能的第三波,系统将统计能力与对结构化知识的显式推理相结合。其结果是出现了具有上下文关联、基于现实且能够进行抽象的人工智能。 从规则到推理:人工智能成熟的三个浪潮——改编自约翰·兰奇贝里 人工智能已从僵化、基于规则的系统发展到数据驱动的预测,如今正步入一个语境理解的新时代。 究竟什么是语境? 想象一下,你正计划去一个新城市旅行。出发前,你会查看地图,阅读旅行指南,或许还会向朋友请教建议。你逐渐在脑海中勾勒出这座城市的样貌:地标在哪里,地铁如何运作,哪些社区安全,当地的法律、习俗和礼仪是什么,以及哪里有好吃的食物。这张心理地图不仅仅是一串事实;它是一个动态的模型,帮助你做出决策,比如如何最佳地游览城市,或是如何避免冒犯当地人。 同样地,对于人工智能来说,其背景知识就像一本自身的内部指南,由经验和信息构建而成。它帮助人工智能系统有效地操控其环境、预测接下来可能发生什么,并选择最佳行动方案,即使它之前从未遇到过完全相同的情况。 那是背景的大致情况。现在让我们给出一个精确的定义,这个定义要能将其与人工智能已经能够访问的所有其他数据区分开来。 数据是记录性的观察——被捕获为符号的测量、事件或信号。它本身只描述了被捕获的内容,但并未揭示其含义。 语境是让数据变得可理解、有意义且可行动的框架:它是如何产生的、为了什么目的、基于哪些假设,以及在社会、物理或组织环境中。相同的数据在不同的语境下可能意味着不同的事情。简而言之,语境是一组约束、假设和世界模型,它们决定了这些符号如何被解释和采取行动。在企业系统中,这个框架越来越多地体现在所谓的语义层中:即意义、关系、约束和业务定义被明确管理和定义的层级。 在我们最初讨论的自动驾驶示例中,AI系统可能看到了警车、警察以及地上的那个人。但它也看到了棕榈树、高大的白色建筑和铁丝网。 要理解。我们真正希望AI做到的是像我们一样:理解它们周围环境的完整背景、因果关系和后果,然后根据这种情况行事。 栅栏和各种各样其他的东西。它没有看到需要极度谨慎的情况。事实上,它根本没看到什么“情况”。 这正是语境问题如此重要,且比最初看似的更为难以解决的原因。人们可能会想,这里的解决方案是向Waymo的AI展示一系列警察行动的场景,直到它学会避开警察。这种方法或许能解决这个狭窄的问题,但却可能引发其他未预见的问题,例如不停车让行或为应急车辆让路。它也无法帮助处理其他需要语境判断的视觉模糊情况。 人工智能不会通过更多数据或更好的模式识别来实现人类水平的智能。智能不是一个可以通过蛮力解决的问题。人类之所以聪明,并非因为我们看到了大量数据——而是因为我们能够对所感知的数据进行语境化处理。地球上最聪明的人,不是见过最多事物的人,而是能够消化并联系不同概念的人。 这个星球上最聪明的人,并非是见过最多事物的人,而是那些能够消化并建立不同概念之间联系的人。 幻觉智能 大型语言模型堪称一场 revelation(启示),在其语言操控、生成与翻译的“甜点区”内,它们是无与伦比的。然而,生成式 AI 的表现却制造了一种错觉:即语言表达的流利度等同于概念理解。LLM 并非以人类的方式“理解”。它们编码的是符号之间的关联;但当我们将这种统计基础应用于它们需要推理世界运作方式的场景时,这便成为了一种局限。这种脱节在边缘案例中变得尤为明显: 一个代码生成器,能写出优雅的函数,但却误解了它们周围系统(或:系统本身)的目的和意图。 一个无法将其自身子任务与更广泛的集体战略相连接的计划模型。 该失效模式与一种将世界视为其训练分布镜像的模型一致。当世界偏离(而这种偏离总会发生)时,这种具有变革世界潜力的技术就会陷入连具备最简单情境理解能力的人类也会避免的陷阱。这引入了需要为更广泛的应用而解决的治理挑战。 一个能够优雅地描述物理问题,但无法进行基本因果推理的模型。 值得信赖的人工智能不能依赖概率,寄希望于避免模型假设与现实世界动态之间的错配。 一个自信地回答医疗问题的聊天机器人,但并不遵循公认的临床实践。 七种情境类型——我们的PLANETS框架 构成必要上下文的因素因不同的AI系统而异。上下文可能包含我们PLANETS框架中的任何一个或所有要素: 对错之分,人权,哲学原则,以及不同结果之分量。的不成文期望。 时事、历史先例以及“何人、何事、何地”这些因素,都在改变其他规则的应用方式。 语境不必涵盖整个世界,只需是实体运作的世界即可。自动驾驶出租车无需理解经济学,但确实需要具备物理学、伦理学、社会规范和情境语境的基础。 大就是好吗? 想象一个在简单的生产线上工作的人,把瓶盖拧在瓶子上。这个工人的世界很简单——瓶子、瓶盖和传送带,无需任何外部背景信息就能完美地完成他们的目标。在范围更广的一端,城市规划师或工程师需要一个更庞大的世界模型,包括建筑、农业、地理、经济、政治和长期的人口演变,才能在其专业领域内有效工作。在人工智能领域,对于背景信息来说,同样存在这样的范围。机械臂需要一个关于扭矩、摩擦和重力的物理模型;临床助理需要一个关于疾病、不确定性和人类情感的因果模型。 上下文可以非常笼统,也可以非常具体。关键在于创建与人类期望更契合的人工智能系统,最终使其更加值得信赖。拥有上下文支持的模型将能够: 推演未观测变量 预测行为的结果 模拟假设 从经验中学习,而非死记硬背。 超越其训练分布进行泛化 在人类社会中,优秀的个人助理可以不经请求便拒绝会议、重新安排行程,并做出许多其他决定,因为他们对老板的优先事项、可用性和偏好有着共同的认知。这并非源于“准确性”,而是因为存在一个共享的世界模型。 数据辩论 当我们理解情境基础上的缺失是如何阻碍人工智能发展时,我们也能明白为何对海量数据的追逐并未带来人们预期的性能提升。人工智能的主流叙事通常认为,更多数据和更大模型会直接带来更优的人工智能。但事实上,我们观察到的是收益递减的现象。这很合理。世界是无限的,没有任何数据集能够覆盖它。而且对于医疗健康、机器人技术、国家安全以及涉及黑天鹅事件等诸多领域,数据根本无法收集得更多。 智慧不在于你懂得什么,而在于你不知道时能做什么。 – 让·皮亚杰 瑞士心理学家 当我们理解了支撑我们世界的规则时,我们就不需要那么多的观测数据。为了预测行星的运动,古代文明记录了大量的数据表格,而一旦开普勒和牛顿发现了行星运动定律,所有这些数据都变得多余了。几个简单的方程式在做出预测方面,比