AI智能总结
朱雀安全付山阳 个人介绍付山阳 朱雀安全CTO 主要成果和分享 •2018年带领平安口袋银行团队获得“亚洲银行家中国区最佳安全项目奖”,安全性指标国内第一•2016年,GEEKPWN黑客比赛上,全球首次远程入侵人形机器人NAO•2019全球安全开源组织Owasp-区块链安全top 10项目主编和组长,全球首个区块链安全建设指引项目•主导平安集团和平安银行零售产品信息安全建设,最早互联网金融安全之一•主导腾讯云的整体安全建设项目,最早腾讯云安全之一•主导华为千兆级防火墙USG5000和防火墙USG2000系列产品的安全功能开发,最畅销的中端防火墙。•2017年中国金融科技系列峰会受邀演讲者,业界首次分享-“金融人工智能的安全风险浅析”•2016年阿里安全峰会受邀演讲者,业界首次分享-“互联网金融安全实战浅谈”•2016第二届互联网安全领袖峰会受邀演讲者,业界首次分享-“机器人如何变身窃听专家” 曾任:平安银行信息安全部总经理曾任:腾讯云安全负责人曾任:yy安全通信公司技术合伙人曾任:开源网安副总裁&合伙人 信息安全行业经验19+年在国内外主流信息安全会议发表主旨演讲11次。制定信通院安全标准和OWASP安全项目共5项申请并授予发明专利13项 Sora的出现让行业很兴奋,豪言AGI会快速到来一 OpenAI CEOSam Altman认为—— 再解决一两个小问题就可以进入AGI Sora的出现让行业很兴奋,豪言AGI会快速到来二 英伟达CEO黄仁勋认为—— 5年内就可以实现AGI Sora的出现让行业很兴奋,豪言AGI会快速到来三 360董事长周鸿祎也认为—— Sora意味着AGI的实现将从10年缩短到一两年 Sora的出现让行业很兴奋,豪言AGI会快速到来四 老板们可以仰望星空,畅想未来! 我们做技术的得脚踏实地,分析可行的技术路径! AGI的定义 通常认知AGI是指达到人类智能的AI水平 DeepMind将AGI定义为「应该能够完成人类几乎可以完成的任何认知任务」的系统, OpenAI将其描述为「在最具经济价值的工作中超越人类的高度自治系统」 AI安全很重要,不能保证安全的AI是无法使用的 AI带来的灾难性后果可能比核武器更严重 Ilya的导师,图灵奖得主,深度学习之父Hinton—— 如果少数核弹爆炸,可能会造成数百万人死亡。尽管带来了大规模的伤害,但人类仍将继续存在。 但如果我们创造了一个超越人类智能的AI,并且它认为自己在没有人类干预的情况下能发展得更好,那么它可能会发明一种生物武器来杀死全人类。 中美俄政府都采取协调行动,说明政府层面也认为AI安全很重要 AGI最大的不“安全”是会让大家失业,失去搬砖的机会 OpenAI的AGI定义——在最具经济价值的工作中超越人类的高度自治系统 资本家想裁掉你们,降低成本,所以我很有必要替大家研究清楚 Sora并没有解决幻觉问题 黑客视角:sora和大模型的幻觉问题约等于安全漏洞 业内专家表示,sora的这些表现类似大模型的幻觉也有人说,这些幻觉的表现类似人类的做梦行为正常人类是可以区分现实与梦境的,不能区分的是精神病,有精神病的AGI能安全吗? 知识库的方式来解决大模型幻觉问题行不通 英伟达CEO黄仁勋曾提出过,不用担心幻觉问题,他说通过一种增强检索的方法来对抗这种幻觉,让它在给出答案之前,先在可信的知识库中进行核实。 这确实能抑制幻觉,但也降低智商,不可能实现AGI Sora是GPT4的应用,GPT4存在严重的安全问题一 Sora是GPT4的应用,GPT4存在严重的安全问题二 Sora是GPT4的应用,GPT4存在严重的安全问题三 Sora是GPT4的应用,GPT4存在严重的安全问题四 GPT的对齐等安全问题好解决吗?绕过只需一分钟 GPT修复方案有问题——成本高,修复时间长 RLHF(Reinforcement Learningfrom Human Feedback) SFT(Supervised Fine-Tuning) 数据准备:收集大量的标注数据,这些数据包括输入和对应的正确输出。预训练模型:选择一个已经预训练好的模型,这 数据收集:收集用户与模型交互的数据,包括用户的反馈和模型的响应。 个模型通常已经在大规模数据集上训练过,具有较好的泛化能力。微调:使用标注数据对预训练模型进行微调。这 预训练模型:同样选择一个已经预训练好的模型。策略学习:使用强化学习算法,根据用户的反馈来训练模型。模型会尝试最大化用户的满意度。奖励设计:设计奖励函数,根据用户的反馈来给予 个过程通常涉及调整模型的参数,使得模型能够更好地适应特定的任务。评估:在验证集上评估模型的性能,确保模型没 模型奖励或惩罚。迭代训练:模型通过不断与用户的交互来学习如何 更好地完成任务。评估与优化:评估模型在实际任务中的表现,并根 有过拟合。迭代优化:根据评估结果,调整训练策略,如学 据需要进行优化。 习率、批大小等,然后重复微调过程,直到达到满意的性能。 GPT的修复成本是攻击成本的上百倍 安全数据难收集 违背安全原则——安全是设计出来的,不是打补丁补起来的一 粤港澳大桥设计安全参数 能抵抗16级台风8级地震承受30万吨巨轮撞击使用寿命高达120年 违背安全原则——安全是设计出来的,不是打补丁补起来的二 补丁式安全方案 抵御不了稍高的洪水抵御不了较强的台风抵御不了稍强的地震等风险 GPT的安全团队是个草台班子一 没有招聘渗透等黑客思维的人员 前安全团队构成 JanLeike(前OpenAI安全负责人) 曾在DeepMind工作过四年时间,研究的是根据人类反馈的强化学习和递归式奖励建模。 2021年初他加入了OpenAI,现在他是OpenAI最近宣布的超级对齐团队的领导者之一。 在OpenAI之前无安全经验 GPT的安全团队是个草台班子二 ICML杰出论文的笑话 “A Watermark forLarge LanguageModels”获2023年ICML官方公布的杰出论文奖 被普通攻击者轻易攻破 GPT的安全团队是个草台班子三 道:本质层面 黑客思维安全原则 法:方法论层面 AI方法AI工具 术:实操层面 器:工具层面 GPT的安全团队是个草台班子四 新的安全团队负责人仍然安全经验不足 Matt Knight(安全负责人)4年安全经验Knight负责领导OpenAI中安全、IT和隐私相关的工程及研究。 Lilian Weng(安全系统负责人)3年安全经验2021年,翁荔涉及安全相关的内容。2023年,她正式开始领导致力于人工智能安全的工程师和研究人员团队。 GPT的安全结果不好一 Jailbroken: How Does LLM Safety Training Fail? 论文作者发现,尽管进行了大量的红队测试和安全训练,如GPT-4和Claudev1.3等模型依然容易受到攻击。 https://arxiv.org/pdf/2307.02483.pdf GPT的安全结果不好二 GPT4训练时间长,效果不好 GPT-4是2022年8月训练完成,其中训练花了3个月时间,训练完成后开始搞对齐、安全,花了6个月时间。 2023年3月正式发布。发布的结果如右所示,一分钟就绕过。 正式发布后,安全工作一直都没停,到目前为止2024年6月,一共又花了15个月,使用咒语后还是一分钟绕过的结果。 新发布的GPT4o也马上被越狱。 GPT的管理团队不够重视安全,商业组织注重利润优先 AGI的定义很商业化 Ilya等人控诉altman不诚信 偷偷训练新的AI 安全团队成员控诉承诺的资源没有到位 不看好GPT的安全前景 图灵奖级专家的观点一 杨立昆 基于概率模型的架构,在解决安全和幻觉问题上希望很渺茫! 图灵奖级专家的观点二 Hilton 采用人工智能解决人工智能的安全问题 我的观点——当进入到AGI阶段,这种策略是无效的 同级智慧体可以实现完全控制管理吗? 在架构师定义游戏规则的环境,黑客仍然有机会获胜,比如获得windows的控制权 我的观点——当进入到AGI阶段,这种策略是无效的 ?从Alpha Go跟人类的对弈,可以看到AI的计算能力是远超人类的。 低级智慧体可以完全控制管理高级智慧体吗 那么当AGI与人类博弈控制权的时候,AGI可以在几千,几万步前就开始布局,单个棋子看起来都是无害的,但在几万步后,所有的棋子串起来,可以反转控制权。 低级智慧体不可能永久控制高级智慧体!一旦失去控制权,基本没有反转的机会 我的观点——AGI安全是灰犀牛,会对人类世界构成毁灭性打击 最领先的OpenAI在安全上都如此糟糕! OpenAI目前的状态相当于windows90年代的安全状况,安全漏洞频发,并且看不到收敛的趋势! 人类在AGI安全上还没有做好准备! 结论 两年内,AI安全问题难以解决,各位不用担心工作的问题! 结果三 结果一 结果二 •达到了AGI的水准,也开始应用,安全问题也没解决,最终AI会毁灭人类,大家也不用担心工作问题。 •实验室内达到了AGI的水准,但是安全问题解决不了,没法广泛应用,所以大家的工作不会被替代。 •未来实现不了AGI,所以不会存在AGI安全问题 仰望星空,展望未来 去年的预测: 对齐问题将是大模型的牛皮癣,甚至是癌症大模型是开展认知战的屠龙刀人脸,声音不再适合作为强鉴权手段大模型加持下,黑客攻击事件将呈2个数量级的上升 今年的预测: AI对齐问题短期难以解决,最乐观的情况下都需要3-5年在AGI安全上,商业公司,以及国家间的合作效果会让我们失望低等智慧体不可能一直控制高等智慧体,人类可能得走科技体的路径,改造自己成为更高等的智慧体有自主意识的AGI不会实现,但智能程度一直提高,甚至远超人类 THANKS 感谢观看