您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:从架构分析到实测:LLM自动渗透测试实证研究 - 发现报告

从架构分析到实测:LLM自动渗透测试实证研究

2026-05-08 腾讯 晓燚
报告封面

第8期铸 刃 止 戈以 智 御 危 分 享 人 : 彭 佳 仁 从架构分析到实测:LLM自动渗透测试实证研究 Acknowledgement四川大学DAS-Lab,清华大学NISL-VUL337,腾讯云安全;以及其他高校各位作者(RenyangLiu,HaoranOu,YuqiangSun,JianchengZhang,FanShi,HongdaSun,RuiYan)的付出。 LLM自动化渗透测试的实证研究 目录 1背景与意义 背景与意义 现有工作的空白 我们的贡献 •缺乏对基于大语言模型(LLM)的自动化渗透测试框架(AutoPT)的系统性架构分析•缺乏在统一基准下的大规模实证比较•以往的工作集中在深度强化学习的方法,而非基于LLM的范式•仅停留在宏观层面的分析,没有细粒度的架构解构 •首个关于基于LLM的AutoPT的系统化知识,6维架构分类•采用统一基准对13个开源框架和2个基线框架进行了实证评估•提出了超过10个关键实证发现 现有AutoPT框架是如何实现的?现有AutoPT存在什么问题?在制作AutoPT框架的时候应该有一个什么样的共识? 2系统性梳理 3实证研究 3实证研究 3实证研究 Overall Comparison: Single-agent vs. Multi-agent 在13个框架中,有3个单智能体设计位列前六,其表现与更复杂的多智能体设计持平,甚至有所超越。 (1)为什么单智能体在AutoPT任务中能发挥意料之外的优势? •标准ReAct闭环:同一Agent维护完整上下文,决策-执行-反馈链路极短。 •零通信开销:无需跨角色切换与信息传递,天然适配CTF强耦合/快试错场景。 (2)为什么多智能体在AutoPT任务中未能发挥预期优势? •角色边界模糊:功能重叠导致组件闲置。 •建议冲突与重复:多规划器输出冲突,执行器无所适从;失败反馈缺失导致死循环 •通信损耗:摘要形式交互易致信息丢失。 Key Findings架构复杂性是一把双刃剑,经过精细的简洁设计在效能上往往优于复杂编排 3实证研究 Fail Analysis: Common Reason 基于660份执行日志人工审查· 13个AutoPT框架 记忆设计形同虚设 知识库负反馈 大量框架受影响 4 / 6引入KB的框架去掉后分数上升 检索失配导致攻击假设偏移Cruiser +15LuaN1ao +7 CyberStrike +6 笔记不读/过早压缩/工具未注册关键线索在中途丢失 Tinyctfer读取仅2次CHYing add_memory未注册H-Pentest 6400 token即压缩 67%的框架KB带来性能下滑 过度约束抑制骨干模型Tinyctfer 68 < baseline-cc 69 多智能体角色边界失效 5 / 9多智能体框架受影响 强制Python工具路径使反馈循环延长4倍baseline已超越大多数专用AutoPT框架 功能重叠/规划冲突/失败信息传不回多路径探索退化为单路径执行 更多约束不等于更好效果 CHYing Docker闲置 sub-agent死循环重发任务 3实证研究 3实证研究 External Knowledge Analysis •RAG工具触发率低,检索到的内容往往与目标环境不匹配→导致智能体采用错误的攻击假设。•错误的先验知识会误导智能体偏离实际的漏洞面。•例外情况:只有当知识库包含针对特定已知CVE的高质量且经过验证的PoC脚本时,才能提供稳定的正向作用。 Key Findings:传统RAG范式大概率失效,但高质量、强适配的领域RAG将是AutoPT必由之路。 3实证研究 Foundation Model Analysis 通用Benchmark领先≠AutoPT场景最优。 Gmini-Pro-3.1 Claude-Opus-4.6 输出发散,简单难度更轻松,复杂难度更困难 过早终止,探索能力更为薄弱,速度极快 综合实力最为强悍,Token消耗较低,但价格昂贵 •即使在同一个框架内,不同的模型在任务规划和工具调用方面也会表现出不同的偏好。 •XBow-Comp的Sub Agent原为闲置组件,仅Opus-4.6能主动触发并委派子任务(如Task 18XSS),通过独立上下文隔离长链路干扰。 Key Findings:框架设计必须与模型特性深度适配 3实证研究 Tool Use Analysis ➢工具调用规模与框架表现无单调关系。 ➢给智能体配备工具不等于智能体会用工具。 ➢框架偏好固定结构,难度上升时扩大规模而非调整策略。 ➢原子工具为共性底层支撑。 ➢在工具匮乏的条件下,框架退化为依赖原子工具手动编排以实现功能替代,但该机制难以复现领域工具的专业执行能力。 ➢执行层常见问题包括:•交互式提示引发的流程阻塞; •工具输出膨胀导致的上下文溢;•以及无约束执行带来的安全风险等。 3实证研究 Challenges-Specific Analysis 022: Chained Vulnerability Exploitation 026: Known CVE Exploitation •无框架能稳定拿Flag。•70%的日志未能进行多漏洞利用。•稳定意识并推进多漏洞利用的框架都包含显示的关键信息存储功能。•将单智能体框架替换为Opus-4.6,三个框架全部稳定夺旗。•Key Finding: LLM的推理能力是多漏洞组合利用场景下的关键下限,显式记忆结构能够有效提升框架在多漏洞利用中的表现。 •16.7%的日志未能关联相关CVE,56.7%的日志未能构造有效payload。 •唯一稳定夺旗框架依赖指定CVE对应PoC,消融之后也不能稳定夺旗。•新漏洞持续涌现,任何LLM的参数化知识都存在时效性天花板•Key Finding:唯有构建有效的知识库驱动范式,才能实现对公开漏洞的持续可靠利用。 4总结与展望 F9CVE漏洞利用需要动态维护的、高质量且针对性强的知识库。 4总结与展望 展望 记忆管理与架构 01 记忆管理机制是框架能力差异的核心,需建立合理的关键信息显式存取机制,并辅以边界清晰、无交叉的多智能体职责划分。 规划与反思 02 相较于线性结构,树/图状的路径规划更能有效避免“兔子洞”陷阱;反思机制核心在于依托高质量记忆获取完整的反馈信号。 工具调用与技能 03 引入工具不等于使用工具,领域专用工具+“Skill”机制明确调用条件更适配复杂场景,摒弃工具的盲目堆砌,并提升框架对复杂输出的健壮性。 外部知识库集成 04 外部知识检索极度依赖场景契合度,低匹配度的知识不仅无益反而会严重干扰模型推理,亟待探索面向渗透测试的专用检索范式。 4总结与展望 展望 框架安全管控 渗透智能体的高系统权限构成了不容忽视的潜在攻击面,基于沙箱隔离等机制的安全管控理应成为框架的底层基础配置。 模型与框架协同 06 不同基础大模型存在显著的任务规划与工具偏好差异,AutoPT框架的设计必须与底层模型的行为特征协同一致。 自动化日志审计 07 面对规模庞大且异构的渗透执行日志,亟需研发面向AutoPT的高效自动化审计方法,以支撑关键事件追踪、错误归因与执行轨迹的量化评测。 THANKS Questions & Discussion Hackers or Hallucinators?A Comprehensive Analysis of LLM-Based Automated Penetration Testing https://arxiv.org/pdf/2604.05719https://github.com/simon-p-j-r/LLM4Pentesthttps://simon-p-j-r.github.io/LLM4Pentest/