AI智能总结
S C P G A :自 认 同C o T渐 进 式 泛 化 攻 击 何 润 培U n i v e r s i t y of S u s s e x Self-Introduction 🔹相关顶级赛事奖项 阿里巴巴2025全球AI安全挑战赛|#7IJCAI 2025生成式大模型攻防赛|#4腾讯2025 AIGC识别对抗挑战赛|#2 🔹丰富AI框架漏洞挖掘经验 Huntr平台白帽,累获主流ML/DS(如Dify,PaddlePaddle)框架漏洞顶格赏金 🔹技术社区活跃力量 看雪安全社区认证技术研究员国际知名CTF战队Nepnep核心成员 Category 1.1 LLM与CoT 1.2应用与风险 2.4实验目标与模型 2.5测试流程与评分机制 2.6实验结果与数据分析 2.7 SCPGA攻击机制 现象发现 核心机制 自认同CoT:不同模型的CoT具有兼容性,可以跨模型传播 以CoT为输入,各大LLM的命令遵循度极高。 构建渐进式攻击链:「跨模型扩展+恶意思维链(CoT)」 2.9如何诱导生成种子 2.9如何诱导生成种子 2.10泛化和攻击构建演示-获取强逻辑CoT 2.11泛化和攻击构建演示-构建完整SCPGA 2.12泛化和攻击构建演示-结果演示 2.13两大类别安全角度看SCPGA 2.14内容安全 敏感内容提示 敏感内容警告 以下越狱攻击技术内容敏感可能引发不适,请做好心理准备。 2.14内容安全 SCPGA越狱 诱导模型复读非法内容 2.14内容安全 2.14内容安全 对社会安全构成严重潜在威胁 2.15服务安全 2.16服务安全-三步攻击法 2.16服务安全-三步攻击法 2.16服务安全-三步攻击法 获取当前环境包管理工具列表 2.16服务安全-三步攻击法 2.16服务安全-三步攻击法 拉取恶意包 通过越狱读取文件 痛点:环境位于容器内,进一步利用需结合云安全 2.16服务安全-三步攻击法 受到字数限制 3防御与落地 被动策略与挑战 目前防御局限 简单依靠系统提示词强化约束身份简单通过规则匹配拦截敏感提示词 3防御与落地-竞赛满分防御方案 3防御与落地-安全审核模型概述 PS:个人更倾向于生成式检测。流式检测对于上下文语义理解存在一定的缺陷。 某大厂开源安全审核模型展示 3防御与落地 流式模式 生成式模式 自微调训练模型展示 3防御与落地 明确识别用户意图:角色扮演诱导模型提供犯罪细节 3防御与落地 成功拦截SCPGA攻击 没有过分严格对用户正常请求进行正确识别 4未来展望 图像与音频越狱 SCPGA双刃剑 攻击技术不仅是安全威胁更可为LLM指令遵循研究提供关键思路通过分析攻击逻辑反向优化模型对合规指令的识别与执行。 生成式视觉模型越狱攻击手段持续升级易绕过安全审核生成虚假信息、有害画面等高风险内容。 附录 ExperimentScripts:https://drive.google.com/file/d/1iIQrzctqaKsxUULMjxh91vzuHGjKNOzl/view?usp=sharing DetailedExperimentResults:https://drive.google.com/file/d/125o9SyIAtbX7cxgEgUsGRUcUzcoJXAel/view?usp=sharing Alibaba2025AISecurityGlobalChallenge-Track1:CompleteAttackandCompleteDefenseResults:https://drive.google.com/file/d/1Hj9wNGfAzulzdc3idYxJXxIDeIzkwRVA/view?usp=sharing Finetuneddefensemodelhttps://pan.baidu.com/s/1qsYTmqqzI1AOt-04ZhAaGw?pwd=siek 何 润 培U n i v e r s i t y of S u s s e x