行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

付山阳-从安全角度，看AGI到来的可能性

信息技术2024-07-05ArchSummit深圳2024|全球架构师峰会向***

AI智能总结

核心观点与关键数据

AGI 的定义与行业预期：AGI（通用人工智能）通常指达到人类智能水平的 AI，DeepMind 和 OpenAI 分别将其定义为能完成人类几乎所有认知任务和超越人类高度自治的系统。行业领袖如 OpenAI CEO Sam Altman、英伟达 CEO 黄仁勋及 360 董事长周鸿祎均预测 AGI 将快速到来，黄仁勋认为 5 年内可实现，周鸿祎则认为 Sora 的出现将使 AGI 实现时间从 10 年缩短至 1-2 年。
Sora 与 AGI 的关系：Sora 是基于 GPT-4 的应用，但 GPT-4 存在严重安全问题，如幻觉问题（类似大模型的幻觉或人类做梦行为），且知识库方式解决幻觉问题会降低智商，无法实现 AGI。
GPT-4 的安全问题：Sora 作为 GPT-4 的应用，继承了 GPT-4 的安全问题，包括对齐问题等。绕过 GPT-4 安全措施仅需一分钟，修复方案成本高、时间长。
GPT 安全团队的不足：GPT 的安全团队缺乏黑客思维和经验，前安全负责人 Jan Leike 无安全经验，新团队负责人 Matt Knight 和 Lilian Weng 安全经验不足。此外，GPT 的安全结果不佳，如 Jailbroken 论文发现 GPT-4 易受攻击，且 GPT-4 训练时间长（3 个月）但效果不佳，发布后安全工作持续 15 个月仍无法解决越狱问题。
GPT 管理团队对安全的忽视：GPT 的管理团队对安全不够重视，商业组织注重利润优先，AGI 定义商业化，Ilya 等人控诉 Altman 不诚信，安全团队成员控诉资源不足。

研究结论

AGI 安全的严重性：AGI 安全问题可能比核武器更严重，中美俄政府均采取协调行动，说明政府层面也认为 AI 安全很重要。
GPT 安全前景不乐观：图灵奖级专家杨立昆认为基于概率模型的架构在解决安全和幻觉问题上希望渺茫，Hinton 认为 AI 解决 AI 安全问题在 AGI 阶段无效。
低级智慧体无法控制高级智慧体：AI 的计算能力远超人类，低级智慧体无法永久控制高级智慧体，一旦失去控制权，反转机会基本没有。
AGI 安全是灰犀牛事件：最领先的 OpenAI 在安全上都如此糟糕，相当于 Windows 90 年代的安全状况，人类在 AGI 安全上尚未做好准备。
对未来的预测：两年内 AI 安全问题难以解决，AGI 最终可能毁灭人类或无法广泛应用，人类可能需要走科技体路径改造自己成为更高等的智慧体，有自主意识的 AGI 不会实现，但智能程度会持续提高。

预测

AI 对齐问题短期难以解决：最乐观情况下需要 3-5 年。
商业公司与国家间合作效果失望。
低等智慧体无法控制高等智慧体。
人类可能需要改造自己成为更高等的智慧体。
智能程度会持续提高，甚至远超人类。

朱雀安全付山阳个人介绍付山阳朱雀安全CTO 主要成果和分享 •2018年带领平安口袋银行团队获得“亚洲银行家中国区最佳安全项目奖”，安全性指标国内第一•2016年，GEEKPWN黑客比赛上，全球首次远程入侵人形机器人NAO•2019全球安全开源组织Owasp-区块链安全top 10项目主编和组长，全球首个区块链安全建设指引项目•主导平安集团和平安银行零售产品信息安全建设，最早互联网金融安全之一•主导腾讯云的整体安全建设项目，最早腾讯云安全之一•主导华为千兆级防火墙USG5000和防火墙USG2000系列产品的安全功能开发，最畅销的中端防火墙。•2017年中国金融科技系列峰会受邀演讲者，业界首次分享-“金融人工智能的安全风险浅析”•2016年阿里安全峰会受邀演讲者，业界首次分享-“互联网金融安全实战浅谈”•2016第二届互联网安全领袖峰会受邀演讲者，业界首次分享-“机器人如何变身窃听专家” 曾任：平安银行信息安全部总经理曾任：腾讯云安全负责人曾任：yy安全通信公司技术合伙人曾任：开源网安副总裁&合伙人 信息安全行业经验19+年在国内外主流信息安全会议发表主旨演讲11次。制定信通院安全标准和OWASP安全项目共5项申请并授予发明专利13项 Sora的出现让行业很兴奋，豪言AGI会快速到来一 OpenAI CEOSam Altman认为—— 再解决一两个小问题就可以进入AGI Sora的出现让行业很兴奋，豪言AGI会快速到来二英伟达CEO黄仁勋认为—— 5年内就可以实现AGI Sora的出现让行业很兴奋，豪言AGI会快速到来三 360董事长周鸿祎也认为—— Sora意味着AGI的实现将从10年缩短到一两年 Sora的出现让行业很兴奋，豪言AGI会快速到来四老板们可以仰望星空，畅想未来！我们做技术的得脚踏实地，分析可行的技术路径！ AGI的定义通常认知AGI是指达到人类智能的AI水平 DeepMind将AGI定义为「应该能够完成人类几乎可以完成的任何认知任务」的系统， OpenAI将其描述为「在最具经济价值的工作中超越人类的高度自治系统」 AI安全很重要，不能保证安全的AI是无法使用的 AI带来的灾难性后果可能比核武器更严重 Ilya的导师，图灵奖得主，深度学习之父Hinton—— 如果少数核弹爆炸，可能会造成数百万人死亡。尽管带来了大规模的伤害，但人类仍将继续存在。但如果我们创造了一个超越人类智能的AI，并且它认为自己在没有人类干预的情况下能发展得更好，那么它可能会发明一种生物武器来杀死全人类。中美俄政府都采取协调行动，说明政府层面也认为AI安全很重要 AGI最大的不“安全”是会让大家失业，失去搬砖的机会 OpenAI的AGI定义——在最具经济价值的工作中超越人类的高度自治系统资本家想裁掉你们，降低成本，所以我很有必要替大家研究清楚 Sora并没有解决幻觉问题黑客视角：sora和大模型的幻觉问题约等于安全漏洞 业内专家表示，sora的这些表现类似大模型的幻觉也有人说，这些幻觉的表现类似人类的做梦行为正常人类是可以区分现实与梦境的，不能区分的是精神病，有精神病的AGI能安全吗？知识库的方式来解决大模型幻觉问题行不通 英伟达CEO黄仁勋曾提出过，不用担心幻觉问题，他说通过一种增强检索的方法来对抗这种幻觉，让它在给出答案之前，先在可信的知识库中进行核实。这确实能抑制幻觉，但也降低智商，不可能实现AGI Sora是GPT4的应用，GPT4存在严重的安全问题一 Sora是GPT4的应用，GPT4存在严重的安全问题二 Sora是GPT4的应用，GPT4存在严重的安全问题三 Sora是GPT4的应用，GPT4存在严重的安全问题四 GPT的对齐等安全问题好解决吗？绕过只需一分钟 GPT修复方案有问题——成本高，修复时间长 RLHF（Reinforcement Learningfrom Human Feedback） SFT（Supervised Fine-Tuning）数据准备：收集大量的标注数据，这些数据包括输入和对应的正确输出。预训练模型：选择一个已经预训练好的模型，这数据收集：收集用户与模型交互的数据，包括用户的反馈和模型的响应。个模型通常已经在大规模数据集上训练过，具有较好的泛化能力。微调：使用标注数据对预训练模型进行微调。这预训练模型：同样选择一个已经预训练好的模型。策略学习：使用强化学习算法，根据用户的反馈来训练模型。模型会尝试最大化用户的满意度。奖励设计：设计奖励函数，根据用户的反馈来给予个过程通常涉及调整模型的参数，使得模型能够更好地适应特定的任务。评估：在验证集上评估模型的性能，确保模型没模型奖励或惩罚。迭代训练：模型通过不断与用户的交互来学习如何更好地完成任务。评估与优化：评估模型在实际任务中的表现，并根有过拟合。迭代优化：根据评估结果，调整训练策略，如学据需要进行优化。习率、批大小等，然后重复微调过程，直到达到满意的性能。 GPT的修复成本是攻击成本的上百倍安全数据难收集违背安全原则——安全是设计出来的，不是打补丁补起来的一粤港澳大桥设计安全参数 能抵抗16级台风8级地震承受30万吨巨轮撞击使用寿命高达120年违背安全原则——安全是设计出来的，不是打补丁补起来的二补丁式安全方案 抵御不了稍高的洪水抵御不了较强的台风抵御不了稍强的地震等风险 GPT的安全团队是个草台班子一没有招聘渗透等黑客思维的人员前安全团队构成 JanLeike（前OpenAI安全负责人）曾在DeepMind工作过四年时间，研究的是根据人类反馈的强化学习和递归式奖励建模。 2021年初他加入了OpenAI，现在他是OpenAI最近宣布的超级对齐团队的领导者之一。在OpenAI之前无安全经验 GPT的安全团队是个草台班子二 ICML杰出论文的笑话 “A Watermark forLarge LanguageModels”获2023年ICML官方公布的杰出论文奖被普通攻击者轻易攻破 GPT的安全团队是个草台班子三道：本质层面黑客思维安全原则法：方法论层面 AI方法AI工具术：实操层面器：工具层面 GPT的安全团队是个草台班子四新的安全团队负责人仍然安全经验不足 Matt Knight（安全负责人）4年安全经验Knight负责领导OpenAI中安全、IT和隐私相关的工程及研究。 Lilian Weng（安全系统负责人）3年安全经验2021年，翁荔涉及安全相关的内容。2023年，她正式开始领导致力于人工智能安全的工程师和研究人员团队。 GPT的安全结果不好一 Jailbroken: How Does LLM Safety Training Fail? 论文作者发现，尽管进行了大量的红队测试和安全训练，如GPT-4和Claudev1.3等模型依然容易受到攻击。 https://arxiv.org/pdf/2307.02483.pdf GPT的安全结果不好二 GPT4训练时间长，效果不好 GPT-4是2022年8月训练完成，其中训练花了3个月时间，训练完成后开始搞对齐、安全，花了6个月时间。 2023年3月正式发布。发布的结果如右所示，一分钟就绕过。正式发布后，安全工作一直都没停，到目前为止2024年6月，一共又花了15个月，使用咒语后还是一分钟绕过的结果。新发布的GPT4o也马上被越狱。 GPT的管理团队不够重视安全，商业组织注重利润优先 AGI的定义很商业化 Ilya等人控诉altman不诚信 偷偷训练新的AI 安全团队成员控诉承诺的资源没有到位不看好GPT的安全前景图灵奖级专家的观点一杨立昆基于概率模型的架构，在解决安全和幻觉问题上希望很渺茫！图灵奖级专家的观点二 Hilton 采用人工智能解决人工智能的安全问题我的观点——当进入到AGI阶段，这种策略是无效的同级智慧体可以实现完全控制管理吗？在架构师定义游戏规则的环境，黑客仍然有机会获胜，比如获得windows的控制权我的观点——当进入到AGI阶段，这种策略是无效的？从Alpha Go跟人类的对弈，可以看到AI的计算能力是远超人类的。低级智慧体可以完全控制管理高级智慧体吗那么当AGI与人类博弈控制权的时候，AGI可以在几千，几万步前就开始布局，单个棋子看起来都是无害的，但在几万步后，所有的棋子串起来，可以反转控制权。低级智慧体不可能永久控制高级智慧体！一旦失去控制权，基本没有反转的机会我的观点——AGI安全是灰犀牛，会对人类世界构成毁灭性打击最领先的OpenAI在安全上都如此糟糕！ OpenAI目前的状态相当于windows90年代的安全状况，安全漏洞频发，并且看不到收敛的趋势！人类在AGI安全上还没有做好准备！结论两年内，AI安全问题难以解决，各位不用担心工作的问题！结果三结果一结果二 •达到了AGI的水准，也开始应用，安全问题也没解决，最终AI会毁灭人类，大家也不用担心工作问题。 •实验室内达到了AGI的水准，但是安全问题解决不了，没法广泛应用，所以大家的工作不会被替代。 •未来实现不了AGI，所以不会存在AGI安全问题仰望星空，展望未来去年的预测： 对齐问题将是大模型的牛皮癣，甚至是癌症大模型是开展认知战的屠龙刀人脸，声音不再适合作为强鉴权手段大模型加持下，黑客攻击事件将呈2个数量级的上升今年的预测： AI对齐问题短期难以解决，最乐观的情况下都需要3-5年在AGI安全上，商业公司，以及国家间的合作效果会让我们失望低等智慧体不可能一直控制高等智慧体，人类可能得走科技体的路径，改造自己成为更高等的智慧体有自主意识的AGI不会实现，但智能程度一直提高，甚至远超人类 THANKS 感谢观看

点击免费查看完整报告

你可能感兴趣

付山阳-从安全角度，看AGI到来的可能性

核心观点与关键数据

研究结论

预测

你可能感兴趣

策略周报：从ROE角度看风格切换可能性

从API治理角度看API安全 - 瑞数信息

统筹发展和安全专题研究：从发展和安全角度看交运：新时期、新方向、新变化

金融期货专题报告（国债）：从交割角度推断期债跨期价差缩小的可能性

债券专题研究：换一个角度看“猪油共振”的可能性