AI智能总结
主流叙事:通往AGI的捷径 普遍观点认为,在大型语言模型(LLM)之上规模化强化学习(RL)是实现AGI的最直接路径。 通过在大量RL环境中预先“烘焙”各种技能,我们可以打造出具备超人能力的Al。 这种方法被视为力量的象征,是通往AGI的最后冲刺。 现实的第一个警钟:机器人难题 从根本上说,机器人技术是一个算法问题,而不是硬件或数据问题。一个人类只需少量训练就能操作现有硬件完成有用工作 少量训练,直接掌握,动作精准。 思考题:如果我们真的拥有了类人学习器,机器人技术的大部分问题将迎刃而解。 现实:我们之所以还需要在成千上万个家庭中,进行上百万次捡盘子、叠衣服的练习,恰恰证明了我们缺乏真正的类人学习能力。这暴露了一个基础能力的缺失。 还是无奈之举?预烘焙”技能:这是优势。 技能预烘焙(Pre-bakingSkills) 可能一:模型很快就能在工作中自主学习,这将使所有这些“预烘焙”工作变得毫无意义。可能二:模型无法做到这一点,这意味着AGI并非迫在眉睫。 现状:存在一个完整的产业链,专门构建RL环境,教模型如何使用特定软件。 一个生物学家的困境:问题的缩影 一位生物学家需要判断幻灯片上的点是巨噬细胞还是伪影。一位AI研究员认为这是个“教科书级别的深度学习问题”。 关键症结 问题不在于能否训练一个模型来完成这个任务。 问题在于,为这个实验室的特定制片方式创建一个定制训练流程,然后再为下一个实验室的微任务创建另一个流程,这样做在经济上是否可行? 人类工作者的价值恰恰在于我们不需要为他们工作中的每一个微小部分都建立专门的训练循环。他们能够通过语义反馈和自主经验进行学习和泛化。 万亿美元的差距:如果能力已经足够,钱在哪里? 全球知识工作者年薪数十万亿美元 当前AI模型年收入数十亿美元 这种巨大的差异并非市场渗透缓慢,而是模型能力与人类知识工作者之间真实能力的巨大差距的直接体现。 技术扩散缓慢”的论调只是一种自我安慰(Cope) 有人说AI尚未广泛部署只是因为新技术需要时间来扩散。我们的回应是:如果模型真的像“服务器上的人类”,它们的扩散速度将难以置信地快。 ·比人类更容易整合:几分钟内读完公司所有文档,无缝技能复制:立即吸收其他A员工的所有技能·没有“柠檬市场”问题:无需担心招聘到不合适的“员工” 部署缓慢不是市场问题,而是产品能力问题。 我们为什么有理由“移动球门” 当模型已经解决了我们过去认为对AGI来说“足够”的瓶颈(如常识、推理、小样本学习)时…..但它们仍然未能产生AGI级别的经济影响.. ..那么一个理性的反应就是:“哦,原来智能和劳动比我之前想象的要复杂得多。” 根据新的证据更新我们对AGI的定义,这不是自相矛盾,而是科学的思维方式。事实表明,我们之前的定义过于狭隘了。 规模化的幻觉:并非所有Scaling都生而平等 强化学习 (RL) 预训练 (Pre-training) 一条清晰、普适的提升轨迹,其可预测性几乎像物理定律。 没有任何公开、可靠的ScalingLaW。人们只是在“借用"预训练的声望。 令人警醒的数据 “TobyOrd通过稀疏的公开数据点分析得出结论:‘我们需要将RL的总计算量扩大约100万倍,才能获得相当于一次GPT级别迭代所带来的提升。" 每笔交易都亏钱。但我们靠走量来弥补 逻辑漏洞:这个所谓的“自动化研究员”连儿童所具备的基本学习能力都没有,却要指望它去解决一个人类顶尖智慧百年来都未能攻克的难题(AGI算法)?这极其不合情理。 一个流行的反驳观点:我们现在做这些笨拙的RL,是为了构建一个超人的AI研究员,然后让成千上万个它的复制品去解决稳健、高效的经验学习问题。 缺失的一环:持续学习(Continual Learning) ·来自语义反馈(Fromsemanticfeedback)·来自自主导向的经验(From self-directedexperience) 当前范式预先烘焙一套固定的技能。 未来范式 赋予模型动态学习新技能和适应新环境的能力。 我们目前所扩展的,是模型执行预定义任务的能力,而不是它们自我完善和学习的元能力(meta-capability)。 AGI的未来:一个学习中的蜂巢思维(Hive Mind) BaronMilligan提出的未来构想(AfuturevisionproposedbyBaronMilligan) 现实的路径:不会有“一而就”的奇迹 类比情境学习’(In-context Learning):GPT-3在2020年就展示了其强大能力,但我们至今仍在不断完善它。 进展将是渐进的。要达到人类水平的在职学习能力,可能还需要5到10年的时间来逐步完善。 不要期待第一个破解持续学习的模型会带来失控式的收益。它将是一个逐步部署和迭代的过程。 为什么竞争将持续激烈 “赢家通吃”的论点为何站不住脚:以往被认为是“飞轮效应”的因素(如用户交互数据)并未阻止模型公司之间的竞争愈发激烈。 硅谷的“谣言工厂”(The SF rumor mill) 硅谷的现在中路正文的年产广韬介关于对,也要把静利谣言会谣言。 常规的逆向工程 人才挖角(Talentpoaching) (Normal reverse engineering)常规的逆向工程相在逆向工程中常规过程辗作,三大研轮全公司的平面导上的一希望,过功和上的实验公司暂时领先优争。 三大模型公司是中轮动貌流现象和人才挖角的现象,号入在同附模型的投资尚上,这种挖角凳同至今有效的型,在其重气任面前一个不载模型之激烈。 每隔几个月,三大模型公司就会轮流登上榜首。这种动态平衡至今有效地中和了任何单一实验室罐三可能拥有的暂时领先优势。 真正重要的问题不是“何时”而是“什么 我们不应再纠结于AGI何时到来。 规模化学习的能力(Scaling the Ability to Learn) 更具建设性的问题是:“我们到底在规模化什么? 对这个问题的回答,将决定我们未来的道路和投资方向。