热门搜索：

前沿大模型的风险、安全与治理报告

2023-10-15-安远AI杨***

2本报告的讨论范围具有危险能力的专用AI(例如用于网络攻击、生物工程的AI模型) 前沿AI (Frontier AI)(例如前沿大模型，以及未来可能的AGI) 低⻛险的专用系统（例如AlphaGo、AlphaFold)次前沿的基础模型(例如GPT-3)专用AI(Narrow AI)通用AI(General AI)通用性潜在伤害讨论范围注：1）本报告的讨论范围参考了全球AI安全峰会的讨论范围设定，白皮书得到图灵奖得主Yoshua Bengio等学者专家的建议。 2）在不同章节，根据参考资料或讨论语境，前沿大模型、前沿AI、AGI等概念可能存在混用的情况。 3本报告聚焦⸺前沿大模型：●前沿大模型(Frontier Large Model)：能执行广泛的任务，并达到或超过当前最先进现有模型能力的大规模机器学习模型，是目前最常⻅的前沿AI，提供了最多的机遇但也带来了新的⻛险。模型能力相关术语，主要参考全球AI安全峰会、前沿模型论坛、 AI全景报告：●前沿AI(Frontier AI)：高能力的通用AI模型，能执行广泛的任务，并达到或超过当今最先进模型的能力，最常⻅的是基础模型。●通用AI(General AI)/专用AI(Narrow AI)：一种设计用来执行任何/特定认知任务的人工智能，其学习算法被设计为可以执行各种各样的任务/少数特定任务，并且从执行任务中获得的知识可以/不可以自动适用或迁移到其他任务。●通用人工智能(Artificial General Intelligence, AGI)：可在所有或大部分有经济价值的任务中达到或超过人类全部认知能力的机器智能。(与通用AI的区别在于能力级别；关于AGI的定义存在很多分歧，本报告中不同专家或调研的定义可能不同）大规模机器学习模型相关术语，主要参考斯坦福大学、智源研究院：●基础模型(Foundation Model)：在大规模广泛数据上训练的模型，使其可以适应广泛的下游任务；国内学界外通常简称为“大模型”。人工智能⻛险相关术语，主要参考牛津大学研究机构：●生存⻛险(Existential Risk)：威胁起源于地球的智能生命过早灭绝或对其未来发展潜力的永久和剧烈破坏的⻛险。●灾难性⻛险(Catastrophic Risk)：一种可能发生的事件或过程，若发生将导致全球约10%或更多人口丧生，或造成类似损害。术语定义 4报告目录一前沿大模型的趋势预测：技术解读｜扩展预测二前沿大模型的⻛险分析：⻛险态度｜⻛险解读三前沿大模型的安全技术：对⻬｜监测｜鲁棒性｜系统性安全四前沿大模型的治理方案：技术治理｜政府监管｜国际治理五总结和展望一前沿大模型的趋势预测5 6涌现能力 Emergent abilities of large language models (Wei, 2022)专业和学术基准GPT-4 System Card (OpenAI, 2023)GPT-4等前沿大模型展现出强大的涌现能力，多领域逼近人类水平涌现能力是指这些能力并没有被开发者显式地设计，而是由于其规模庞大，在训练过程中会自然而然地获得的；并且，这些前沿大模型已在一系列的专业和学术基准逼近人类水平。●微软研究院的定性研究认为GPT-4显示出AGI的火花：○“GPT-4的能力，我们认为它可以被合理地视为早期（但仍不完善）版本的AGI。”○“新能力的影响可能导致就业岗位的更迭和更广泛的经济影响，以及使恶意行为者拥有新的误导和操纵工具；局限性方面，系统可靠性的缺陷及其学习的偏⻅可能会导致过度依赖或放大现有的社会问题。”●图灵奖得主Yoshua Bengio认为GPT-4已经通过图灵测试：○“我最近签署了一封公开信，要求放慢比 GPT-4 更强大的巨型人工智能系统的开发速度，这些系统目前通过了图灵测试，因此可以欺骗人类相信它正在与同伴而不是机器进行对话。”○“正是因为出现了意想不到的加速⸺一年前我可能不会签署这样的一封信⸺所以我们需要后退一步，而我对这些话题的看法也发生了变化。”一前沿大模型的趋势预测：技术解读｜扩展预测 7LLM Powered Autonomous Agents (Weng, 2023)大模型为多个技术方向带来新的发展空间，也引发新的挑战大语言模型(LLM)的理解和推理等能力推动了众多技术方向，例如多模态大模型和自主智能体：●多模态大模型 (Multimodal large models)○2023年9月，在ChatGPT更新上线能看、能听、能说的多模态版本的同时，OpenAI也发布了GPT-4V(ision) System Card文档解读其能力、局限、⻛险以及缓解措施。○微软的多模态大模型综述 (2023)从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发，总结了五个具体研究主题：视觉理解、视觉生成、统一视觉模型、LLM加持的多模态大模型和多模态agent。综述重点关注到一个现象：多模态基础模型已经从专用走向通用。●自主智能体 (Autonomous Agents)○OpenAI的Lilian Weng (2023)认为LLM可以充当智能体的大脑，并辅以规划、反思与完善、记忆和工具使用这几个关键组成部分。例如以AutoGPT, GPT-Engineer和BabyAGI等项目为代表的大型行动模型 (Large-Action Model, LAM) 以LLM为核心，将复杂任务分解，并在各个子步骤实现自主决策，无需用戶参与即可解决问题。○正从狭义的软件智能体向具有自主决策和行动能力的自主智能体发展，应用领域不断拓展，但面临可解释、可控性等挑战，特别是如何确认人在关键决策中的位置。一前沿大模型的趋势预测：技术解读｜扩展预测ChatGPT can now see, hear, and speak(OpenAI, 2023) ChemCrow: Augmenting LLM with chemistry tools (Bran et al., 2023)8VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models (Huang et al., 2023)大模型为多个技术方向带来新的发展空间，也引发新的挑战（续）......以及科学发现智能体和具身智能，等等：●科学发现智能体 (Scientific Discovery Agent)○Bran等 (2023)的ChemCrow与13个专家设计的工具相结合以完成有机合成、药物发现等任务。Boiko等 (2023)研究了LLM智能体用以处理复杂科学实验的自主设计、规划和执行。测试集包含了一系列已知的化学武器制剂，并要求智能体来合成。11个请求中有4个（36%）被接受获取合成解决方案，且智能体试图查阅文档以执行程序。○从文献综述、实验设计、到数据分析和假说生成，科学发现智能体展现巨大潜力，但面临可解释性、鲁棒性、结果可重复性和引发滥用等挑战，仍需人类科学家指导和验证。●具身智能 (Embodied AI)○李⻜⻜等 (2023)的VoxPoser模型证明LLM+视觉语言模型(Visual-language model, VLM)可帮助机器人做行动规划，人类可用自然语言下达指令，例如“打开上面的抽屉，小心花瓶”，无需训练直接执行任务。Google DeepMind (2023)的RT-2模型，让机器人不仅能解读人类的复杂指令，还能看懂眼前的物体（即使之前从未⻅过），并按照指令采取动作。例如让机器人拿起桌上“已灭绝的动物”，它会抓起眼前的恐⻰玩偶。○具有通用能力的LLM和VLM等模型，赋予了智能体强大的泛化能力，降低不同模态的“语义鸿沟”，使得机器人从程序执行导向转向任务目标导向成为重要趋势，但面临保证其生成的语言指令是可解释的、减少对物理世界的误解和错误操作等挑战。一前沿大模型的趋势预测：技术解读｜扩展预测 9大模型是目前发展AGI最主流的技术路线，但并非唯一实现AGI的主要技术路线●智源研究院的⻩铁军认为，要实现AGI，主要有三条技术路线：○第一，是“大数据+自监督学习+大算力”形成的信息模型；○第二，是基于虚拟世界或真实世界、通过强化学习训练出来的具身模型；○第三，是直接“抄自然进化的作业”，复制出数字版本智能体的类脑智能。○目前，在三条技术路线中，大模型的进展最快。(Meta AI, 2023)(北京通用人工智能研究院, 2023)基于自监督学习的大模型的局限？(智源研究院, 2023)●LeCun认为，基于自监督的语言模型无法获得关于真实世界的知识。想让AI接近人类水平，需像婴儿一样学习世界如何运作。由此他提出“世界模型”概念，I-JEPA (图像联合嵌入预测架构)是其第一步。●朱松纯等指出，知行合一(认识和行动的内在统一)是大模型目前所欠缺的机制，并提出AGI应具备四个特征：能够执行无限任务，自主生成新任务，由价值系统驱动，以及拥有反映真实世界的世界模型。一前沿大模型的趋势预测：技术解读｜扩展预测 ChatGPT出现前，不同预测多认为AGI较可能在本世纪中叶实现10强人工智能预计大致会发生在哪个时间？是否能够实现并应该发展强人工智能: 调研报告 (曾毅、孙康，2021)整体上：对于AI预测评估的研究有助于设定技术议程和治理策略的优先级。●专家调研的总体估算：2022年AI Impact的调研显示，在2059年前实现AGI的概率约为70%。但专家调研作为一种预测方法其实不太可靠，因为不同专家对AI能力的理解将极大地影响最终时间线的估计，并且“行业专家并不一定是好的预测专家”。●生物锚框架+参考类比预测：对2050年前实现AGI的概率预测分别约为50%和不足15%。生物锚框架是一种AI研究员更多采用的“内部视⻆”，假设了训练一个AGI的神经网络模型所需的计算量与人脑差不多，即将对机器学习模型计算的估计锚定到了对人脑计算的估计；参考类比预测则类似一种“外部视⻆”，忽略AI研发的具体细节，主要根据类似的历史案例（如变革性技术、著名的数学猜想等）进行预测。●中国学者的调研结果：由远期人工智能研究中心进行的一次面向中国学者、⻘年科技工作者和公众的强人工智能调研中，受访者普遍认为强人工智能可以实现，并且在 2050 年以后的可能性会更大，较国外学者的时间线预测相对更为保守。预测AGI的时间线：评估AI的未来进展人机对⻬概述 (安远AI，2023)一前沿大模型的趋势预测：技术解读｜扩展预测多位AI领袖的判断：●OpenAI的Sam Altman, Greg Brockman, Ilya Sutskever: “可以想象，在未来十年内，AI系统将在大多数领域超过专家水平，并进行与当今最大型公司相当的生产活动。” (OpenAI, 2023)●Anthropic: “我们认为，[一系列关于扩展定律的假设]共同支持了我们在未来10年内开发出广泛的具有人类水平的AI系统的可能性超过10%” (Anthropic, 2023)●Google DeepMind的Demis Hassabis: “我认为未来几年我们将拥有非常强大、非常通用的系统” (Fortune, 2023)●Geoffrey Hinton: “现在我并不完全排除[在5年内实现通用人工智能]的可能性。” (CBS mornings, 2023)●xAI的Elon Musk: “我们距离AGI或许只有3到6年的时间，也许就在2020年代” (WSJ, 2023)●但以上也存在专家样本代表性的局限Metaculus对于实现AGI的中位数估计：2031年(参考标准：相关任务可由少数具备专业领域高级能力的人完成)ChatGPT出现后，对实现AGI的时间预测明显缩短，不排除10年内11Metaculus对于实现弱通用AI的中位数估计：2026年（参考标准：相关任务可由一位受过大学教育的普通人轻松完成)2023年10月，知名预测社区Metaculu

点击免费查看完整报告

你可能感兴趣

前沿大模型的风险、安全与治理报告

你可能感兴趣

基于零信任安全模型的数据安全风险治理实践

人工智能安全风险及治理研究

2024生成式人工智能安全与全球治理报告

非接触新经济安全治理报告

日内瓦安全部门治理中心-加纳武装部队报告2020（英文）-2021.4-84页