您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[复旦大学]:2024年大语言模型是实现AGI的必由之路吗? - 发现报告

2024年大语言模型是实现AGI的必由之路吗?

2024-03-12-复旦大学E***
AI智能总结
查看更多
2024年大语言模型是实现AGI的必由之路吗?

张奇 复旦大学 2024.3.12 这近乎是个哲学问题 什么是AGI AGI(ArtificialGeneralIntelligence),中文翻译为“通用人工智能”,亦被称为强AI,任何可以想象的人类的专业领域内,具备相当于人类智慧程度的AI,一个AGI可以执行任何人类可以完成的智力任务。 围棋AI的五子棋能力为0 AGI要具备的能力 AGI要具备哪些能力呢 1.语言:使用自然语言交流2.知识:常识知识、专业知识3.推理:演绎、归纳、溯因4.学习:根据历史进行自我学习 “推理能力”是AGI的核心 推理能力包含哪些 演绎推理(Deductive reasoning):就是从一般性的前提出发,通过推导,得出具体陈述或个别结论的过程。 例如经典的三段论推理: 前提:人皆会死前提:苏格拉底是人结论:苏格拉底会死 推理能力包含哪些 归纳推理(Inductive reasoning):是论证的前提支持结论但不确保结论的推理过程。它基于对特殊的代表(token)的有限观察,把归结到类型;或基于对反复再现的现象的模式(pattern)的有限观察,公式表达规律。 例如: 观察:我们每次看到的有翅膀的动物都是鸟 观察:我们又看到了一个有翅膀的动物 结论:这个动物应该是也是鸟 推理能力包含哪些 溯因推理(Abductive reasoning,也译作反绎推理):是从事实推理到最佳解释的过程。换句话说,它是开始于事实的,并推导出其最佳解释的推理过程。例如: 观察:这个车不能启动了,在发动机下看到了一滩液体。 结论:这个车不能启动的原因大概率是因为发动机有漏油。 归纳-演绎法在我们认识世界过程中,扮演重要作用 演绎推理能力如何? 演绎推理有比较好的数学工具,目前大模型模型效果较好 2023年5月版本并不能很好的解决演绎推理 通过强化学习,分步骤的推理评分,可以很好的解决演绎推理问题,但是仍然是当做单独的任务进行单独优化。 当前的版本复杂逻辑题仍存在问题 大模型对于分布外数据集处理扔有待提高 ChatGPT和GPT-4都擅长解决著名的逻辑推理阅读理解基准,但在处理分布外数据集方面很困难。它们在需要逻辑推理的自然语言推理任务上的性能仍有待提高。 真实应用中的演绎推理怎么样? Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models,Juetal.,Arixv2024 真实应用中的演绎推理怎么样? 大模型在多跳知识问题的推理中可能应用了在预训练阶段学习到的事实捷径。 大模型在预训练阶段可能直接学习到下一届奥运会在亚洲举办这一跨步知识,当采用知识编辑方法将下一届奥运会举办国由日本改为法国后,模型可能仍然认为下一届奥运会在亚洲举办。 Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models,Juetal.,Arixv2024 大模型对知识运用能力怎么样? 关注四个能力 •检索:What is person A’s attribute X?•分类:Is A’s attribute X even or odd?•比较:Is A greater than B in attribute X?•逆向搜索:Which person’s attribute X equals T? 大模型对知识运用能力怎么样? 大模型对知识运用能力怎么样? 语言模型难以完成比较和分类任务。 Physics of Language Models:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,Arixv2023 MeatAI/FAIRLabs 大模型对知识运用能力怎么样? 语言模型无法进行逆向知识搜索,除非知识以逆序出现在预训练数据中 Physics of Language Models:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,Arixv2023 MeatAI/FAIRLabs 演绎推理做为单独任务可以优化演绎推理能力在其他任务中并不能自动获得是否具备归纳推理能力需要仔细思考 归纳推理能力如何? 归纳推理的能力如何呢? 乘法的步骤: Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 当任务复杂程度增大时,模型的准确率接近为0 Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 归纳推理的能力如何呢? GPT3 models on∼1.8Mmultiplication pairs GPT3 finetuned exhaustively on task-specificdatauptoacertainproblemsize.Theblueregionrepresentsthein-distributionexamplesandtheredregionreferstoOODexamples. Theyconsiderallk1-by-k2digitmultiplicationswith1≤k1,k2≤4andk1·k2≤9; Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 训练过程中简单加入过程作用也十分有限 Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 数学计算评测 Yuanetal.,“How well do Large Language Models perform in Arithmetic tasks?”,Arxiv2023 如果不能解决推理问题大模型成为AGI是不可能的 现阶段降低对推理的诉求 可以确认的大模型能力长上下文建模、更好的语义表示、多任务学习、跨语言迁移性 谢谢!