AI智能总结
大型语言模型 , 如 OpenAI 的 o1电气化了关于实现人工将军的辩论智能。但他们不太可能达到这个自己的里程碑。作者 : Anil Ananthaswamy OpenAI最新的人工智能(AI)系统于九月发布,带来了大胆的承诺。该公司推出的聊天机器人ChatGPT展示了其最新的大型语言模型套件o1,并声称具有“新的AI能力水平”。总部位于加利福尼亚州旧金山的OpenAI表示,o1的工作方式更接近人类思考的方式,而非 其他模型。 以前的 LLM 。 为什么 AGI 的辩论改变了 数十亿条语言、科学文本和编程代码片段——直到模型能够可靠地预测遮蔽的标记。到这一阶段,模型参数已经捕捉到了训练数据的统计结构及其其中的知识。然后固定这些参数,模型利用它们来预测新的标记,当给定新的查询或“提示”时(这些查询或提示可能不在其训练数据中),这一过程称为推理。 包括生成用于解决自然语言描述的问题的计算机程序、总结学术文章以及回答数学问题。 大型语言模型(LLMs)——例如o1、Claude(由位于旧金山的Anthropic构建)和Google的Gemini——依赖于一种称为下一个标记预测的方法,在此方法中,模型会被反复输入被切分成称为标记的文本片段样本。这些标记可以是一整个单词或仅仅是字符集。序列中的最后一个标记会被隐藏或“遮蔽”,并要求模型预测该标记。然后,训练算法将预测结果与遮蔽的标记进行比较,并调整模型参数以使其在下一次能够做出更好的预测。 在这一过程中,还出现了其他新的能力,尤其是在大型语言模型(LLMs)规模增加的情况下,这使得通用人工智能(AGI)也可能仅仅通过LLMs达到足够大的规模而自然涌现。一个例子就是链式思考(Chain-of-Thought, CoT)提示。这种方法涉及向LLM展示如何将问题分解为较小的步骤来解决,或者只是要求LLM一步一步解决问题。链式思考可以引导LLM正确回答之前困扰它们的问题。但这种方法在小型LLMs上并不奏效。 使用一种被称为变换器的神经网络架构类型的应用,已经将大型语言模型(LLMs)显著超越了以往的成就。变换器允许模型学习某些令牌在其他令牌中具有特别强的影响,即使它们在文本样本中相隔甚远。这使得LLMs能够以似乎模仿人类处理语言的方式解析语言——例如,在这句话中区分单词“bank”的两种含义:“当河流的岸边被洪水淹没时,水损坏了银行的自动取款机,使得无法提取金钱。”这种方法最终被证明是极其有效的。 该过程继续 - 通常使用 你没看到一种真正的大机构语言模型。 “ LLM 的限制 CoT提示已经被集成到o1的工作中,根据OpenAI的说法,这构成了模型卓越能力的基础。Francois Chollet,他曾是加利福尼亚州门洛帕克市Google的一名AI研究人员,并于11月离职创办了一家新公司,认为 Feature 该模型包含一个CoT生成器,能够为用户查询生成多个CoT提示,并具备从这些选项中选择合适提示的机制。在训练过程中,o1不仅学习预测下一个标记,还学习为给定查询选择最佳CoT提示。增加CoT推理能力解释了为什么,例如,o1-preview(o1的高级版本)在国际数学奥林匹克资格考试中正确解决了83%的问题,这一成绩比该公司之前最强大的语言模型GPT-4高出许多。根据OpenAI的说法,GPT-4的得分为仅为13%。 inside LLM. In one study5研究人员Wes Gurnee和Max Tegmark位于马萨诸塞州剑桥市的麻省理工学院声称,在对包含这些地点信息的数据集进行训练时,广泛使用的开源LLM家族构建了对世界、美国和纽约市的内部表示。然而,其他研究人员在X( formerly Twitter)上指出,并没有证据表明这些LLM使用世界模型进行模拟或学习因果关系。在另一项研究中6肯尼斯·李,哈佛大学剑桥分校的一名计算机科学家及其同事报告了证据表明,一个小规模的语言模型(LLM),基于玩家在棋盘游戏独乐棋中所做的走法记录进行训练,能够内部表示棋盘的状态,并利用这一能力正确预测出下一步合法的走法。 Wilson 表示,“这些是我们真正需要实现通用学习的一些关键要素”。尽管 Wilson 认为超人工智能目前还遥不可及,但他指出,使用变压器架构的大型语言模型和其他 AI 系统具备一些类似超人工智能的关键特性。 然而,也出现了迹象表明基于转换器的LLM(大型语言模型)存在局限性。首先,用于训练这些模型的数据正在枯竭。位于旧金山的研究机构Epoch AI的研究人员估计,4现有的公开可用文本数据存量用于训练可能会在2026年至2032年间耗尽。此外,也有迹象表明,大规模语言模型(LLMs)所取得的进步可能会受到数据存量限制的影响。 但是,尽管具备这些复杂性,o1 仍存在局限性,并不能构成强人工智能(AGI),卡姆班帕蒂和乔莱特如是说。例如,在需要规划的任务中,卡姆班帕蒂的研究团队表明,虽然 o1 在需要最多 16 步规划的任务上表现出色,但当步骤数量增加到 20 至 40 步时,其性能迅速下降(参考文献 2)。乔莱特在挑战 o1-preview 进行抽象推理和泛化能力测试时也发现了类似的限制。该测试以视觉谜题的形式进行。解决这些谜题需要观察示例来推导出抽象规则,并使用该规则解决新的类似谜题实例,而人类在这方面相对容易做到这一点。 然而 , 其他结果表明 , 当今人工智能系统学习的世界模型可能是不可靠的。在一项这样的研究中7哈佛大学计算机科学家KeyonVafa及其同事使用了纽约市出租车行程中转弯数据的巨大数据集来训练一个基于变压器的模型以预测序列中的下一个转弯,并且其准确率几乎达到了100%。 You can get there. "通过分析模型生成的变化,研究人员能够展示出模型构建了一个内部地图以得出答案。然而,这个地图与曼哈顿(见《AI不可能的街道》)几乎没有相似之处,“包含着物理方向不可能的道路和位于其他街道上方的立交桥”,作者写道。“尽管模型在某些导航任务中表现良好,但它是在使用一个不连贯的地图上做得好。”瓦法说。当研究人员调整测试数据,加入未在训练数据中出现的不可预见的绕行时,模型未能预测下一个转弯,这表明它无法适应新情况。 随着它们规模的扩大,增长的幅度并没有以前那么大,尽管尚不清楚这是否与数据中新奇元素减少有关(因为现在已经被广泛使用),或者是否存在其他原因。后一种情况对LLMs来说可能是不利的。 Chollet认为,无论大小,LLMs(大型语言模型)在解决需要重组所学知识以应对新任务的问题时能力有限。“LLMs无法真正适应新颖性,因为它们没有能力基本上获取知识,然后在现场进行相对复杂的知识重组以适应新情境。” Raia Hadsell,伦敦谷歌DeepMind的研究副总裁,提出了另一个问题。强大的基于变换器的大规模语言模型(LLMs)被训练以预测下一个标记,但她认为这种单一的关注点过于局限,无法实现强人工智能(AGI)。她说,能够一次性或分块生成解决方案的模型可能会让我们更接近AGI。这些有助于构建此类模型的算法已经在一些现有的非LLM系统中发挥作用,例如OpenAI的DALL-E,它可以根据自然语言的描述生成现实且有时令人着迷的图像。但这些系统缺乏LLMs广泛的多种能力。 LLM 可以提供 AGI 吗 ? 所以,语言模型(LLMs)是否最终能够实现通用人工智能(AGI)?支持这一观点的一点是,底层的变压器架构不仅可以处理和在文本中找到统计模式,还可以处理其他类型的信息,如图像和音频,只要有一种适当的方法将这些数据进行分词。纽约大学(位于纽约市)的研究机器学习的安德鲁·威尔逊及其同事表明,这可能是因为不同类型的这些数据都共享一个特征:这些数据集具有较低的“柯尔莫哥洛夫复杂性”,定义为生成这些数据所需的最短计算机程序的长度。3研究人员还表明,变换器在学习具有低柯尔莫哥罗夫复杂性的数据模式方面非常合适,而且这种适配性随着模型规模的增大而增强。变换器有能力建模广泛的可能情况,从而增加了训练算法发现适当解决方案的机会,这种“表现力”随着模型规模的增大而增强。这些是, 反馈的重要性 今天,大型语言模型(LLMs)的一个重要缺失特征是内部反馈机制,加利福尼亚州门洛帕克谷歌深度思维公司AGI研究团队成员Dileep George如是说。人类大脑充满了反馈连接,使信息能够在神经元的各个层之间双向流动。这使得信息能够从感觉系统流向大脑的更高层次,从而构建反映我们环境的世界模型。这也意味着,来自世界模型的信息可以反向传递并指导进一步感官信息的获取。这种双向过程,例如,在感知过程中,大脑利用世界模型来推断感官输入的可能原因;在规划过程中,世界模型被用来模拟不同的行动方案。 给我建立一个世界模型 突破性进展以实现AGI所需的直觉来源于神经科学家。他们认为我们的智能是大脑能够构建“世界模型”的结果,这是一种对我们周围环境的表征。这种“世界模型”可以用来想象不同的行动方案及其后果,从而进行规划和推理。此外,它还可以通过模拟不同场景来将某一领域习得的技能泛化到新任务中。 But current LLM are able to use feedback only in a tacked - on way. In the case of o1, the 在 Lugano - Viganelllo 的 Dalle Molle 人工智能研究所 , 瑞士报道9构建一个能够高效构建人工环境世界模型的神经网络,然后使用该模型来训练AI进行虚拟赛车。 如果你认为具有这种自主程度的AI系统听起来令人恐惧,你并非孤身一人。除了研究如何构建AGI(通用人工智能)之外,Bengio还是将安全因素融入AI系统设计与监管的研究倡导者。他认为研究应集中于训练能够确保自身行为安全的模型——例如,通过设置计算模型违反特定安全约束概率的机制,并在该概率过高时拒绝执行行动。此外,政府还需要确保安全使用AI。他表示:“我们需要一个民主过程来确保个人、公司,甚至军队,在使用和开发AI时采取的方式都是对公众安全负责的。” 那么,我们是否最终能够实现AGI呢?计算机科学家表示,没有理由认为这是不可能的。“不存在理论上的障碍,”乔治如是说。新墨西哥州圣塔菲研究所的计算机科学家梅丽安·米切尔也表示赞同。“人类及其他某些动物的存在证明了可以达到这一目标,”她说道。“我认为生物系统与由其他材料组成的系统相比,并没有什么特别之处会从根本上阻止非生物系统变得智能。” AI 的不可能的街道 构建环境表示的能力,即世界模型,有助于人类进行推理和规划。据认为,如果人工智能系统要发展到与人类相当的智能水平,它们也需要这种能力。以一个被训练预测纽约曼哈顿出租车行驶路线的人工智能系统为例,其内部地图并不像真实世界那样。在后续测试中,这导致了它无法处理训练数据中不存在的绕行情况。 AI 系统的地图包含不可能的方向的街道和不存在的桥梁。 但是,尽管有可能存在这种技术,但对于它的到来可能有多近并没有太多共识:估计的时间范围从几年内到至少十年后不等。如果创建了一个AGI系统,乔治说,我们会在看到它时知道这一点。Chollet怀疑它会悄悄地接近我们。“当AGI到来时,它不会像你想象的那样明显或具有革命性,”他说。“AGI实现其全部潜力将需要时间。首先,它会被发明出来。然后,你需要扩大其规模并应用它,才能开始真正改变世界。” 内部CoT(批判性思维)提示机制似乎正在发挥作用——在这种机制中,生成的提示帮助回答查询,并在LLM产生最终答案之前反馈回去。但这并不保证能够确保无懈可击的抽象推理能力,如Chollet对o1的测试所显示的那样。 使用他所谓的生成流网络,将允许单个AI系统学习如何同时构建世界模型以及用于推理和规划所需的模块。 另一个阻碍大语言模型(LLMs)发展的重大障碍是它们对数据的高需求。伦敦大学学院理论神经科学家卡尔·弗里斯顿建议,未来的系统可以通过赋予它们决定从环境采