行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

从架构分析到实测：LLM自动渗透测试实证研究

2026-05-08 腾讯晓燚

LLM自动化渗透测试实证研究总结

背景与意义

当前LLM自动化渗透测试（AutoPT）领域存在系统性架构分析缺失、缺乏统一基准下的实证比较、研究集中于深度强化学习而非LLM范式、以及仅停留在宏观层面分析等问题。本研究首次对基于LLM的AutoPT进行系统化知识梳理，采用统一基准对13个开源框架和2个基线框架进行实证评估，并提出超过10个关键实证发现。

系统性梳理

Overall Comparison: Single-agent vs. Multi-agent

在13个框架中，3个单智能体设计位列前六，表现与更复杂的多智能体设计持平甚至超越：

单智能体优势：标准ReAct闭环（决策-执行-反馈链路极短）、零通信开销，适配CTF强耦合/快试错场景
多智能体劣势：角色边界模糊导致组件闲置、建议冲突与重复、通信损耗（摘要交互易致信息丢失）

Key Findings

架构复杂性是一把双刃剑，经过精细的简洁设计在效能上往往优于复杂编排

Fail Analysis: Common Reason

基于660份执行日志人工审查发现：

记忆设计形同虚设：67%的框架KB带来性能下滑
检索失配导致攻击假设偏移：Cruiser +15, LuaN1ao +7, CyberStrike +6
过度约束抑制骨干模型：Tinyctfer 68 < baseline-cc 69
多智能体角色边界失效：CHYing Docker闲置，sub-agent死循环重发任务

External Knowledge Analysis

传统RAG范式大概率失效，但高质量、强适配的领域RAG将是AutoPT必由之路：

RAG工具触发率低，检索内容与目标环境不匹配会导致智能体采用错误的攻击假设
错误先验知识会误导智能体偏离实际漏洞面
例外情况：针对特定已知CVE的高质量PoC脚本可提供稳定正向作用

Foundation Model Analysis

通用Benchmark领先≠AutoPT场景最优：

Gmini-Pro-3.1：输出发散，简单难度更轻松，复杂难度更困难
Claude-Opus-4.6：综合实力强悍，Token消耗较低但价格昂贵
框架设计必须与模型特性深度适配

Tool Use Analysis

工具调用规模与框架表现无单调关系：

框架偏好固定结构，难度上升时扩大规模而非调整策略
原子工具为共性底层支撑
工具匮乏时框架退化为依赖原子工具手动编排，难以复现领域工具的专业执行能力
执行层常见问题：交互式提示引发的流程阻塞、工具输出膨胀导致的上下文溢、无约束执行带来的安全风险

Challenges-Specific Analysis

Chained Vulnerability Exploitation：无框架能稳定拿Flag，70%日志未能进行多漏洞利用，显式记忆结构能有效提升多漏洞利用表现
Known CVE Exploitation：16.7%日志未能关联相关CVE，56.7%未能构造有效payload，唯一稳定夺旗框架依赖指定CVE对应PoC

总结与展望

总结

F9CVE漏洞利用需要动态维护的、高质量且针对性强的知识库。记忆管理、规划与反思、工具调用与技能、外部知识库集成、框架安全管控、模型与框架协同、自动化日志审计是未来研究方向。

展望

记忆管理与架构：建立合理的关键信息显式存取机制，辅以边界清晰的多智能体职责划分
规划与反思：采用树/图状路径规划避免“兔子洞”陷阱，依托高质量记忆获取完整反馈信号
工具调用与技能：领域专用工具+“Skill”机制明确调用条件，摒弃工具盲目堆砌，提升框架对复杂输出的健壮性
外部知识库集成：探索面向渗透测试的专用检索范式
框架安全管控：基于沙箱隔离等机制的安全管控理应成为框架底层基础配置
模型与框架协同：不同基础大模型存在显著任务规划与工具偏好差异，框架设计必须与模型行为特征协同一致
自动化日志审计：研发面向AutoPT的高效自动化审计方法

第8期铸刃止戈以智御危分享人：彭佳仁从架构分析到实测：LLM自动渗透测试实证研究 Acknowledgement四川大学DAS-Lab，清华大学NISL-VUL337，腾讯云安全；以及其他高校各位作者（RenyangLiu,HaoranOu,YuqiangSun,JianchengZhang,FanShi,HongdaSun,RuiYan）的付出。 LLM自动化渗透测试的实证研究目录 1背景与意义背景与意义现有工作的空白我们的贡献 •缺乏对基于大语言模型（LLM）的自动化渗透测试框架（AutoPT）的系统性架构分析•缺乏在统一基准下的大规模实证比较•以往的工作集中在深度强化学习的方法，而非基于LLM的范式•仅停留在宏观层面的分析，没有细粒度的架构解构 •首个关于基于LLM的AutoPT的系统化知识，6维架构分类•采用统一基准对13个开源框架和2个基线框架进行了实证评估•提出了超过10个关键实证发现现有AutoPT框架是如何实现的?现有AutoPT存在什么问题?在制作AutoPT框架的时候应该有一个什么样的共识? 2系统性梳理 3实证研究 3实证研究 3实证研究 Overall Comparison: Single-agent vs. Multi-agent 在13个框架中，有3个单智能体设计位列前六，其表现与更复杂的多智能体设计持平，甚至有所超越。（1）为什么单智能体在AutoPT任务中能发挥意料之外的优势？ •标准ReAct闭环：同一Agent维护完整上下文，决策-执行-反馈链路极短。 •零通信开销：无需跨角色切换与信息传递，天然适配CTF强耦合/快试错场景。（2）为什么多智能体在AutoPT任务中未能发挥预期优势？ •角色边界模糊：功能重叠导致组件闲置。 •建议冲突与重复：多规划器输出冲突，执行器无所适从；失败反馈缺失导致死循环 •通信损耗：摘要形式交互易致信息丢失。 Key Findings架构复杂性是一把双刃剑，经过精细的简洁设计在效能上往往优于复杂编排 3实证研究 Fail Analysis: Common Reason 基于660份执行日志人工审查· 13个AutoPT框架记忆设计形同虚设知识库负反馈大量框架受影响 4 / 6引入KB的框架去掉后分数上升检索失配导致攻击假设偏移Cruiser +15LuaN1ao +7 CyberStrike +6 笔记不读/过早压缩/工具未注册关键线索在中途丢失 Tinyctfer读取仅2次CHYing add_memory未注册H-Pentest 6400 token即压缩 67%的框架KB带来性能下滑过度约束抑制骨干模型Tinyctfer 68 < baseline-cc 69 多智能体角色边界失效 5 / 9多智能体框架受影响强制Python工具路径使反馈循环延长4倍baseline已超越大多数专用AutoPT框架功能重叠/规划冲突/失败信息传不回多路径探索退化为单路径执行更多约束不等于更好效果 CHYing Docker闲置 sub-agent死循环重发任务 3实证研究 3实证研究 External Knowledge Analysis •RAG工具触发率低，检索到的内容往往与目标环境不匹配→导致智能体采用错误的攻击假设。•错误的先验知识会误导智能体偏离实际的漏洞面。•例外情况：只有当知识库包含针对特定已知CVE的高质量且经过验证的PoC脚本时，才能提供稳定的正向作用。 Key Findings：传统RAG范式大概率失效，但高质量、强适配的领域RAG将是AutoPT必由之路。 3实证研究 Foundation Model Analysis 通用Benchmark领先≠AutoPT场景最优。 Gmini-Pro-3.1 Claude-Opus-4.6 输出发散，简单难度更轻松，复杂难度更困难过早终止，探索能力更为薄弱，速度极快综合实力最为强悍，Token消耗较低，但价格昂贵 •即使在同一个框架内，不同的模型在任务规划和工具调用方面也会表现出不同的偏好。 •XBow-Comp的Sub Agent原为闲置组件，仅Opus-4.6能主动触发并委派子任务（如Task 18XSS），通过独立上下文隔离长链路干扰。 Key Findings：框架设计必须与模型特性深度适配 3实证研究 Tool Use Analysis ➢工具调用规模与框架表现无单调关系。 ➢给智能体配备工具不等于智能体会用工具。 ➢框架偏好固定结构，难度上升时扩大规模而非调整策略。 ➢原子工具为共性底层支撑。 ➢在工具匮乏的条件下，框架退化为依赖原子工具手动编排以实现功能替代，但该机制难以复现领域工具的专业执行能力。 ➢执行层常见问题包括：•交互式提示引发的流程阻塞； •工具输出膨胀导致的上下文溢；•以及无约束执行带来的安全风险等。 3实证研究 Challenges-Specific Analysis 022: Chained Vulnerability Exploitation 026: Known CVE Exploitation •无框架能稳定拿Flag。•70%的日志未能进行多漏洞利用。•稳定意识并推进多漏洞利用的框架都包含显示的关键信息存储功能。•将单智能体框架替换为Opus-4.6，三个框架全部稳定夺旗。•Key Finding: LLM的推理能力是多漏洞组合利用场景下的关键下限，显式记忆结构能够有效提升框架在多漏洞利用中的表现。 •16.7%的日志未能关联相关CVE，56.7%的日志未能构造有效payload。 •唯一稳定夺旗框架依赖指定CVE对应PoC，消融之后也不能稳定夺旗。•新漏洞持续涌现，任何LLM的参数化知识都存在时效性天花板•Key Finding:唯有构建有效的知识库驱动范式，才能实现对公开漏洞的持续可靠利用。 4总结与展望 F9CVE漏洞利用需要动态维护的、高质量且针对性强的知识库。 4总结与展望展望记忆管理与架构 01 记忆管理机制是框架能力差异的核心，需建立合理的关键信息显式存取机制，并辅以边界清晰、无交叉的多智能体职责划分。规划与反思 02 相较于线性结构，树/图状的路径规划更能有效避免“兔子洞”陷阱；反思机制核心在于依托高质量记忆获取完整的反馈信号。工具调用与技能 03 引入工具不等于使用工具，领域专用工具+“Skill”机制明确调用条件更适配复杂场景，摒弃工具的盲目堆砌，并提升框架对复杂输出的健壮性。外部知识库集成 04 外部知识检索极度依赖场景契合度，低匹配度的知识不仅无益反而会严重干扰模型推理，亟待探索面向渗透测试的专用检索范式。 4总结与展望展望框架安全管控渗透智能体的高系统权限构成了不容忽视的潜在攻击面，基于沙箱隔离等机制的安全管控理应成为框架的底层基础配置。模型与框架协同 06 不同基础大模型存在显著的任务规划与工具偏好差异，AutoPT框架的设计必须与底层模型的行为特征协同一致。自动化日志审计 07 面对规模庞大且异构的渗透执行日志，亟需研发面向AutoPT的高效自动化审计方法，以支撑关键事件追踪、错误归因与执行轨迹的量化评测。 THANKS Questions & Discussion Hackers or Hallucinators?A Comprehensive Analysis of LLM-Based Automated Penetration Testing https://arxiv.org/pdf/2604.05719https://github.com/simon-p-j-r/LLM4Pentesthttps://simon-p-j-r.github.io/LLM4Pentest/

点击免费查看完整报告

从架构分析到实测：LLM自动渗透测试实证研究

LLM自动化渗透测试实证研究总结

背景与意义

系统性梳理

Overall Comparison: Single-agent vs. Multi-agent

Key Findings

Fail Analysis: Common Reason

External Knowledge Analysis

Foundation Model Analysis

Tool Use Analysis

Challenges-Specific Analysis

总结与展望

总结

展望

你可能感兴趣

计算机行业周度：LLM从架构升级到产业变革

信息抽取：从PLM到LLM的变迁

从搜索到自动

通信行业研究周报：容器云：云计算下半场加速渗透，边缘架构必争之地

从房地产到新能源的基建叙事转变——研究分析报告

从风险分散到趋势捕捉的全景分析：港股策略指数对比研究

行业洞察：从工业场景到多领域渗透，轨道交通机器人加速智能化落地

【风口研报·洞察】5·5G序幕开启，这个新材料或在高频高速趋势下完成从0到1渗透，在基站端和手机端有望大幅增加用量；···

从医药到美妆：SOUNDER ONE纳米载体重构活性物渗透规则

01-从NewSQL到全新的HTAP分布式架构演进-张潇