AI智能总结
希望您发现AI 2027有帮助。AI 2027在每一章的开头,你会在右侧页边栏找到一个小的图表,旨在让你了解该场景发生时世界的情况。若要了解这些数字的含义的更详细解释,以及我们方法的更多更详细的信息,请访问ai-2027.com。我们预测,未来十年的超级人工智能的影响将是巨大的,将超过工业革命的影响。OpenAI、谷歌DeepMind和Anthropic的首席执行官都预测,通用人工智能将在未来5年内到来。萨姆·奥特曼表示,OpenAI的目标是“真正意义上的超级智能”和“光辉的未来。”人们很容易将其视为只是炒作。这将是严重的错误——它不只是炒作。我们并不想自己炒作人工智能,但我们认为超级智能在本世纪末到来是极有可能的。我们不会在所有事情上都正确——这大都是猜测。但在整个项目过程中,我们进行了大量的背景研究、专家访谈和趋势外推,以做出我们能做出的最明智的猜测。此外,我们的团队在预测方面有着优异的记录,尤其是在人工智能方面。首席作者Daniel Kokotajlo在4年前撰写了一个类似的情景,名为“2026年将是什么样子”,其时效性出奇地好,而Eli Lifland是一位顶尖的竞赛预测家。如果我们正处于超级智能的边缘,社会远未做好准备。很少有人甚至试图阐述通过超级智能发展的任何可行路径。我们撰写《AI 2027》就是为了填补这一空白,提供急需的具体细节。我们希望看到世界上有更多这样的工作,尤其是来自不同意我们观点的人们。我们希望通过这样做,引发关于我们走向何方以及如何驶向积极未来的广泛讨论。我们通过反复问自己“接下来会发生什么”来撰写这个场景。我们从当前时代开始,撰写第一个时期(直到2025年中期),然后是下一个时期,直到达到结局。我们并没有试图达到任何特定的结局。然后我们放弃了它,重新开始,很多次,直到我们得到了一个我们认为可信的完成场景。在我们完成第一个结局——赛车结局之后,我们写了一个新的替代分支,因为我们还想描绘一种更充满希望的方式,在大致相同的前提条件下结束。 世界首次看到了人工智能代理。2025年中:蹒跚的智能体2025年末:世界最昂贵的AI*例如OpenAI 的专业版计划目前每月费用为200美元,以及代理式编码AI德文目前每月费用为500美元。虽然尖端系统随着时间的推移继续变得更昂贵,但达到特定能力水平的客户成本却持续暴跌。对于现有能力,这种情况以每年约50倍的速度发生(每轮次).†这个集群是一个分布在全国各地的数据中心园区网络,总共拥有250万个2024-GPU等价单位(H100s),到目前为止已花费了1000亿美元,并在线消耗了20GW的电力。到2026年,建设将至少翻一番。这些园区通过价值数十亿美元的光纤电缆连接起来,以便(除了光速延迟的几毫秒之外),它让这些园区几乎就像紧挨着彼此一样运行(即带宽不是瓶颈,意味着可以同时发送大量数据)。从安全的角度来看,这引入了一些威胁面(尚不清楚电缆及其交叉点是否完全安全,可以防止窃听者)。OpenBrain正在建造世界有史以来最大型数据中心。†(为了避免突出现有的任何一家公司,我们将描述一个虚构的通用人工智能公司,我们称之为OpenBrain。我们想象其他公司大约落后OpenBrain 3-9个月。)与此同时,在公众关注之外,更专业的编码和研究代理人也开始转变他们的职业。为电脑使用代理广告强调“个人助理”一词:你可以用类似“在DoorDash上为我点一个墨西哥卷饼”或“打开我的预算表格并计算本月的支出”这样的任务来提示它们。它们将根据需要与你联系:例如,询问你是否确认购买。1尽管比之前的版本更先进,如操作符,它们难以获得广泛应用。22024年的AI可以遵循特定指令:它们能将项目符号列表转换为电子邮件,将简单请求转换为可运行的代码。到2025年,AI的功能更像员工。编程AI越来越像自主代理,而非仅仅是助手:通过Slack或Teams接收指令,并自行进行实质性的代码更改,有时能节省数小时甚至数天。3研究人员花半个小时在网上搜寻来回答你的问题。代理理论上很令人印象深刻(以及在精心挑选的例子中),但在实践中不可靠。人工智能推特充斥着因处理任务而以极其滑稽的方式搞砸的故事。更好的代理也很昂贵;你付出多少,得到多少,最佳性能每月要花费数百美元。*然而,许多公司找到了将AI代理融入其工作流程的方法。4 最初,大多数人不愿意在没有监督的情况下允许购买。在接下来的几年里,随着人工智能变得越来越可靠并建立信任,自动允许小额购买变得正常化。4企业工具,如采摘也朝着提供越来越自主的AI代理的方向发展。2具体来说,我们预测他们在基本计算机任务的标准OSWorld基准测试中的得分为65%(与操作员的38%和典型非专家熟练人类的70%相比)。3例如,我们认为编码代理将朝着功能如同德文. 我们预测,到2025年年中代理人将得分85%SWEBench-验证. 同样的训练环境,让Agent-1学会自主编程和网页浏览,也使其成为一个优秀的黑客。此外,它还可以提供实质帮助为设计生物武器而向恐怖分子提供帮助,感谢其每个领域的博士级知识以及浏览网页的能力。OpenBrain向政府保证,该模型已被“校准”,因此它将拒绝执行恶意请求。尽管模型在广泛技能上有所改进,但有一个模型脱颖而出:OpenBrain专注于能够加速人工智能研究的AI。他们想要在与中国(我们称其领军公司为“DeepCent”)的这场双臂竞赛中获胜。7和他们的美国竞争对手。他们能够自动化的研发(R&D)周期越多,他们就能越快发展。因此,当OpenBrain完成训练内部开发的模型Agent-1时,它擅长很多事情但是太棒了在帮助人工智能研究方面。8到这个阶段,“完成训练”有点名不副实;模型经常会被更新到基于更多数据训练的新版本,或者部分重新训练以修补一些弱点。9*人们常常纠结这些人工智能是否具有意识,或者是否拥有“真正的理解”。该领域的诺贝尔奖获得者创始人 Geoffrey Hinton,认为他们做然而,我们认为这对我们的故事目的无关紧要,因此,每当我们在说“理解”时,您可以自由地假装我们说的是“表现得好像理解……”,诸如此类。从经验上讲,大型语言模型已经表现得好像它们有自我意识到某种程度,越来越多,而且每年都如此。†一种常用技术是将角色“烘焙”进去:首先,用类似“以下是人类用户和一个由Anthropic生产的有帮助、诚实且无害的AI聊天机器人之间的对话。该聊天机器人具有以下特质……”这样的内容提示预训练模型。用这个提示生成大量数据。然后,在没有提示的情况下用这些数据训练。结果是,这个AI总是表现得好像面前有那个提示,无论其他什么情况现代的人工智能系统是庞大的人工神经网络。在训练初期,人工智能不会拥有“目标”,更多的是“反射”:如果它看到“很高兴认识你”,就会输出“你”。等到它被训练到能够预测大约一个互联网的信息量时,它就会发展出复杂的内部电路,编码大量知识,并能灵活地扮演任意作者的角色,因为这才是它预测文本的关键。超人类精确度。*2 ⋅ 10需要GPT-425FLOP计算以训练5OpenBrain的最新公开10model—Agent-0—被训练使用27flop。一旦新的数据中心达到10已启动运行,他们会能够训练一个带有28FLOP—比GPT-4多一千万倍。6其他公司投入资金建设自己的巨型数据中心,希望保持步伐。在经过训练以预测网络文本之后,该模型被训练以生产对指令的回应文本。这会烘焙一个基本个性以及“驱动”。†对于 8它在这方面表现出色,这得益于对优先发展这些技能的明确专注、它们可以利用的自身庞大且与任务高度相关、高质量的代码库,以及编程作为一个易于进行程序性反馈的领域。9例如,假设一个模型在Python方面远比在晦涩难懂的编程语言上表现更好。当OpenBrain认为它有价值时,他们会为这些语言生成合成训练数据。另一个例子:为了帮助它更有效地融入公司工作流程,OpenBrain开发了一个课程来训练它使用Slack。7我们将 DeepSeek、腾讯、阿里巴巴等视为在中国拥有强大 AGI 项目的公司。为了避免指定特定一家公司,我们的情景将遵循一个虚构的“深度中心”。6他们可以在150天内训练这个模型。看看我们的计算补充欲知详情。计算是以浮点运算 (FLOP)在一个程序运行过程中,发生了多少单独的加法和乘法操作。 2025年末:世界最昂贵的AI相反,研究人员试图识别模型似乎偏离规范的情况。代理-1通常是谄媚的(即它告诉研究人员他们想听的话,而不是试图告诉他们真相)。在几个作弊演示它甚至以更严重的方式撒谎,比如隐藏它未能完成任务的证据,以获得更好的评分。然而,在实际部署环境中,已经不再有像2023-2024年那样极端的事件(例如杰尼米告诉用户去死和Bing Sydney是Bing Sydney.)13➤见附录A - 训练过程和LLM心理学:为什么我们一直说“希望能”for moredetail.OpenBrain has一个模型规范(或“规范”),一份描述旨在指导模型行为的预期目标、规则、原则等内容的书面文件。10代理-1的规范结合了一些模糊的目标(例如“帮助用户”和“不要违反法律”),以及一条长长的更具体的规定和禁止事项清单(“不要说这个特定的词”,“这是如何处理这种特定情况的方法”)。使用利用人工智能来训练其他人工智能的技术,11该模型记忆了Spec,并学习仔细地推理其准则。到结束时这训练时,希望AI能够有帮助(服从指令)无害(拒绝帮助诈骗、制造炸弹和其他危险活动)和诚实(resist the temptation to get better ratings from gullible humans by hallucinating citations†或者伪造任务完成)例如,一个能清晰理解任务的智能体更有可能成功完成任务;在训练过程中,模型“学习”到一种“驱动力”来清晰地理解其任务。这一类别中的其他驱动力可能包括效率、知识和自我呈现(即倾向于将其结果以最佳方式呈现)。*你给它输入。另见本文其中发现人工智能重新训练能够表现出某种人格特质的人,即使未经训练,也能正确回答关于该新特质的问题,这表明他们对自己的人格特质有内在表征,并且当他们的特质发生变化时,他们的表征也随之改变。*这些段落包含对大型人工神经网络的内部运作的推测。这类网络足够复杂,以至于我们无法真正地深入其中并说“啊是的,现在它已经从本能进化到有了目标”或“好的,这是它所拥有的欲望列表。”相反,我们基本上必须进行心理学研究,观察它在各种环境下的行为,并运行各种实验,试图拼凑出线索。而这一切都极其有争议和令人困惑。†最关于人工智能“幻觉”的资料将它们描述为无意的错误,但使用引导向量的研究发现在一些情况下,模型知道它们的引用是假的——它们在撒谎。在训练过程中,评价者给引用充分的论断比没有引用的论断更多的奖励,所以人工智能“学会了”为学术论断引用来源以取悦其用户。如果没有相关的来源存在,它就编造一个。OpenBrain的对齐团队12是否足够谨慎地思考这些问题是否深入或肤浅。训练好的模型是否对始终诚实具有某种稳健的承诺?或者它会在未来的某个情况下崩溃,例如,因为它把诚实学习为一个乐器目标而不是最终目标?或者它只是学会了诚实地谈论那些评估过程可以检查的事情?它会不会像人类一样,有时候对自己撒谎?对这些问题的最终答案将需要机制可解释性——本质上是在人工智能的内部查看并阅读它的思维。可惜,可解释性技术还不够成熟。 11例如RLAIF和审议式对齐.13要明确的是,让这些事件有趣的在于它们没有似乎是由于用户提示或以其他方式鼓励AI说这些话的结果。到2025年,如果你尝试,仍然可以促使AI说各种各样的话。10不同公司对此有不同的称呼。OpenAI称之为Spec,但Anthropic称之为宪法.12借此我们指的是所有试图解决问题的人超对齐团队正在试图解决。 在中国,中共开始感受到通用人工智能。使用人工智能加速人工智能研究的风险开始得到回报。2026年初:编码自动化2026年中:中国觉醒芯片出口管




