
走向可以学习、记忆、推理、计划的人工智能系统,有常识,但可操纵和安全 Yann LeCun 纽约大学Meta-基础AI研究 华盛顿大学 机器学习糟透了!(与人类和动物相比) 监督学习(SL)需要大量的标记样本。强化学习(RL)需要大量的试验。 自我监督学习(SSL)效果很好,但是... 生成预测仅适用于文本和其他离散模态 动物和人类: 可以学习新任务非常快速。了解世界是 如何运作的,可以推理一个计划 人类和动物有常识行为是由目标驱动的(驱动) 我们需要人类级别的AI来实现智能助理 智能眼镜 通过语音、视觉、显示、肌电图接口(EMG)进行通信 智能抵抗 可以回答我们所有的问题帮助我们在我们的日常生活了解我们的喜好和兴趣 “她”(2013) 为此,我们需要有常识的机器 了解世界如何运作的机器能够记住,推理,计划的机器。 未来的AI助手需要人类层面的AI AI助手将需要(超)人类水平的智能 就像有一群聪明的“人”为我们工作 但是,我们今天还远远没有达到人类水平的AI 任何17岁的孩子都可以在20小时的训练中学习驾驶任何10岁的孩子都可以学会一次清理餐桌任何家猫都可以计划复杂的行动 我们错过了什么? 学习如何世界工作(不只是从文本)世界模型。常识记忆,推理,分层规划 适用于AMI(高级机器智能)的Desiderata 从感官输入中学习世界模型的系统 例如。从视频中学习直观的物理 大规模联想记忆 可以计划行动的系统 为了实现一个目标 通过设计,而不是通过微调。 目标驱动的AI架构 自我监督学习已接管世界 用于理解和生成文本,图像,视频,3D模型,语音,蛋白质,... 通过去噪/重建进行自我监督学习 去噪自动编码器[Vincent 2008],BERT[Devlin 2018], RoBERTA[Ott 2019] 没有语言留下(NLLB) 202种语言之间的语言翻译 在40602的任何方向 训练集:针对2440种语言方向的180亿对句子大多数对的句子少于100万个 https: / / ai. facebook. com / research / no - language - left - behind / 一个单一的神经网络540亿个参数随着更多语言的增加,性能会变得更好已添加依靠自我监督学习和回译。 没有语言留下(NLLB) 无缝M4T 语音或文本输入:100种语言文本输出: 100种语言 语音输出:35种语言 无缝表达:实时,保留语音和表达https: / / ai. meta. com / blog /无缝- 深度学习将人们与知识和彼此联系起来 Meta(FB,Instagram),谷歌,YouTube,亚马逊,围绕深度学习构建 把深度学习从他们身上拿出来,他们就崩溃了。DL帮助我 们应对信息泛滥搜索、检索、排名、问答需要机器理解内容翻 译/转录/可访问性 语言↔语言;文本↔语音;图像→文本人们会说数千种不同的语言,如今有30亿人无法使用技术。8亿文盲,3亿视力受损 在线内容审核 过滤掉非法和危险内容 什么是可接受的内容?Meta并不认为自己具有决定的合法性,但是在没有法规的情况下,它必须这样做。 Facebook上令人反感的内容类型 (先发制人和患病率降低%,2022年第一季度) 仇恨言论(95.6%,0.02%),暴力煽动(98.1%,0.03%),暴力(99.5%,0.04%),欺凌/骚扰(67%,0.09%),儿童危害(96.4%),自杀/自伤(98.8%),裸露(96.7%,0.04%),恐怖主义(16M件),假帐户(1.5 B),垃圾邮件(1.8 B) https: / / transparency. fb. com / data / community - standards - enforcement AI是解决方案,而不是问题 讨厌Facebook上的语音抑制/排名下降 在我们为仇恨言论采取行动的违规内容中,在人们举报之前,我们发现了多少并采取了行动? https: / / transparency. fb. com / reports / community - standards - enforcement / hate - speech / facebook / 蛋白质折叠和反向折叠(蛋白质设计) 蛋白质折叠: 从氨基酸序列到3D结构 [跳线21,河流19] 蛋白质生成[Lin et al. 2021] ESM宏基因组图谱(FAIR + NYU) 6.15亿种具有预测3D结构的蛋白质交互式网站 https: / / esmatlas. com / 纸张: [Lin et al. 2022]用一种语言预测原子级蛋白质结构的进化尺度模型https: / / www. biorxiv. org / content / 10.1101 / 2022.07. 20.500902 生成AI和自回归大型语言模型 自回归生成体系结构 输出一个又一个“令牌” 令牌可能代表单词,图像补丁,语音片段... 自回归大型语言模型(AR - LLM) 令牌可能代表单词或子单词 编码器/预测器是一种变压器架构 用于对话框/文本生成的LLM: 开放:BlenderBot,卡拉狄加,LlaMA,Llama - 2,Code Llama(FAIR),Mistral - 7B(Mistral),Falcon(阿联酋),Alpaca(斯坦福),Yi(01. AI).... 专有:Meta AI(Meta),LaMDA / Bard(Google),ChatGPT(OpenAI)... 表现令人惊叹...但是...他们犯了愚蠢的错误 事实错误、逻辑错误、不一致、有限推理、毒性... LLM对潜在现实的知识有限 他们没有常识,他们不能计划他们的答案 Llama - 2:https: / / ai. meta. com / 开放源代码/免费和开放模型/可以在Azure,AWS,HuggingFace,...上商用。 Meta AI:基于Llama - 2技术的免费公共聊天机器人 与Messenger应用程序和WhatsApp中的“Meta AI ”连接。 28个专门的Facebook聊天机器人:例如,史努比狗作为地牢大师。 自回归生成模型吸! 自动回归LLM注定要失败。它们不能被制成真实的、无毒的等。他们无法控制任何生成的令牌接受的概率e我们在正确答案集之外,长度为n的答案是正确的可能性:P(正确)=(1 - e)n这呈指数级发散。它是不可修复的(没有重大的重新设计)。 另请参阅[Dziri... Choi, ArXiv: 2305.18654] 自回归生成模型吸! AR - LLM 输入和输出之间具有恒定数量的计算步骤。表示能力弱。不要真正的理由。不要真正的计划,没有常识 Noema杂志,2023年8月 LLM的局限性:没有计划! 自回归LLM(充其量)近似于大脑中Wernicke和Broca区域的功能。前额叶皮层呢? ArXiv: 2301.06627 ArXiv: 2206.10498 自动回归LLM吸! 自回归LLM对 写作协助,初稿,文体润色。代码写作协助 他们对什么不好: 产生事实和一致的答案(幻觉!) 考虑到最近的信息(在最后一次训练之前)行为正常(他们模仿训练集中的行为)推理,计划,数学 使用“工具”,如搜索引擎,计算器,数据库查询... 我们很容易被他们的流利程度所迷惑。 但是他们不知道世界是如何运作的。 当前的AI技术(仍然)远离人类水平 机器不学习世界是如何工作的,就像动物和人类一样,自动回归LLM无法接近人类水 平的智能流利,但有限的世界模型,有限的计划,有限的推理。 大多数人类和动物知识是非语言的。 我们仍然缺少达到动物智能的重大进展 AI在某些狭窄领域是超人 毫无疑问,机器最终将在所有领域超越人类智能 人类的总智力将会增加,我们应该欢迎它,而不是害怕它。 我们缺少的东西真的很大! 没关系,人类,猫和狗可以做惊人的壮举 机器人的情报并没有接近 任何10岁的孩子都可以学会清理餐桌并在几分钟内装满洗碗机。 我们没有机器人可以做到这一点。 任何17岁的孩子都可以在20小时的练习中学习驾驶汽车 我们仍然没有无限的5级自动驾驶 任何家猫都可以计划复杂的行动 我们不断碰到Moravec的悖论 对人类来说容易的事情对AI来说是困难的,反之亦然。 数据带宽和容量:LLM vs子。 LLM 训练1.0 E13令牌(0.75 E13字),每个令牌2个字节,数据量2.0 E13字节。 人类需要170, 000年才能阅读(8h /天,250w /分钟) 人类儿童 在前4年(YouTube上传30分钟)的16, 000个小时的唤醒时间为200万根光神经纤维,每根约10字节/秒。 数据量:1.1 E15字节 一个四岁的孩子看到的数据是LLM的50倍! AI和机器学习的三个挑战 1.使用自监督学习学习世界的表示和预测模型从视频和其他感官输入 学习以非特定任务的方式表示世界学习预测世界模型以进行规划和控制 意识计算。 使推理与学习相容。 作为能量最小化的推理和规划。 3.学习计划复杂的行动以实现目标 学习行动计划的分层表示 我们错过了什么? 从感官输入中学习世界模型的系统 例如。从视频中学习直观的物理 具有持久性内存的系统 大规模联想记忆 可以计划行动的系统 为了实现人类的“系统2 ”这样的客观原因 可控制和安全的系统 通过设计,而不是通过微调。 目标驱动的AI架构 目标驱动的AI系统 人工智能可以学习,推理,计划,然而是安全和可控的 “自主机器智能之路”https: / / openreview. net / forum? id = BZ5a1r - kVsf [YouTube上这个演讲的各种版本] 面向目标驱动AI的模块化认知架构 目标驱动的AI 感知:计算世界状态的抽象表示,可能与内存中先前获取的信息相结合 世界模型:预测由想象的动作序列产生的状态 任务目标:措施与目标的差异 护栏目标:确保安全的不可变客观术语 操作:查找最小化目标的动作序列 目标驱动的AI:多步/递归世界模型 在多个时间步骤应用的相同世界模型应用于整个状态轨迹的护栏成本这与通过最小化目标的模型预测控制(MPC)动作推断相同使用基于梯度的方法,图搜索,DP,MCTS,.... 目标驱动的AI:非确定性世界模型 世界不是确定性的或完全可预测的 潜在变量参数化一组似是而非的预测 结果的不确定性可以预测和量化 目标驱动的AI:分层规划 分层世界模型和规划 较高的级别以更抽象的表示进行长期预测较高的级别的预测状态定义较低级别的子任务目 标护栏目标确保每个级别的安全 目标驱动的AI:分层规划 机器如何从感官输入中学习世界模型? 与自我监督学习 机器如何像动物和人类一样学习? 具有自我监督训练的生成世界模型? 创成式体系结构不适用于图像 因为世界只是部分可预测的预测模型应表示多个预测概率模型在高模糊连续域中很难处理。生成模型必须预测世界的每一个细节 我的解决方案:联合嵌入预测架构 [Henaff,Canziani,LeCun ICLR 2019] 体系结构:创成式与联合嵌入 生成:预测y(所有的细节,包括无关的) 联合嵌入:预测y的抽象表示 a)生成架构示例:VAE、MAE... 联合嵌入体系结构 计算x和y的抽象表示 尝试使它们彼此相等或可预测。 世界架构模型:JEPA JEPA:联合嵌入预测架构。 a:行动 C ():代理成本 基于能源的模型 通过能量函数捕获依赖关系 基于