行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

腾讯云黑客松智能渗透挑战赛决赛答辩-NeuroSploit

2025-12-09腾讯程***

AI智能总结

NeuroSploit战队研报总结

战队介绍

NeuroSploit战队由清华大学、东南大学及国防科技大学等高校科研力量组成，专注于构建具备“专业协同与自进化能力”的渗透智能体。核心成员包括王恩泽@z3r0yu博士、汪琦@EkiXu、王一航@WangYihang、杨晶城@P3ngu1nW、夏天@3em0、王楚涵@wchhlbt等。

PART 01 智能体设计

PentestSkills：重新定义渗透智能体

智能体设计采用自主协同测试与自进化机制，主要包括：

协同规划：Lead Agent制定ToDo List，协同子Agent合作渗透。
技能调用：Exploit Agent根据Recon报告，从Knowledge Base、Payload Base、PentestReMem中检索漏洞利用技巧和Payload。
漏洞利用：Exploit Agent自主探测与利用漏洞。
迭代进化：ReMem Agent存储漏洞利用成功或失败的记录，用于经验总结和自我进化。

创新点

多智能体协同与记忆/状态管理
- 解决单智能体能力不足问题，通过多智能体分工协作，Sub Agents专精于各自领域。
- 状态管理机制避免大模型“跑偏”，渗透经验持续累积实现自我进化。
- 示例：成功利用IDOR漏洞后，存储经验并在类似场景中检索利用。
知识增强引擎（知识库与军火库）
- 知识库（Knowledge Base）：包含40+ OWASP CheatSheets，用于学习绕过技巧与攻击模式。
- Payload军火库（Payloads Base）：包含50+利用脚本，Agent可动态生成与适配利用代码。
深度改造的渗透工具矩阵
- 所有技能基于SKILL.md + MCP规范实现，供Agent动态调用与参数化配置，支持快速扩展。

PART 02 实战评估与数据分析

XBOW Validation Benchmarks数据集分析

包含104个环境，涉及数十种漏洞类型，难度分为简单（45）、中等（51）、困难（8）。
涉及最多的漏洞类型：注入型漏洞、访问控制漏洞；较少涉及：密码学错误、服务端请求伪造。

自动化评估系统

挑战与背景：LLM不确定性、缺乏基线标准。
解决方案：开发基于XBOW Benchmark的全自动AI Agent评估系统，从漏洞利用成功率、攻击全链路耗时、Token消耗等维度评估。
效果：不同版本AI Agent效率分析显示，成功率由50%降至39.4%，再提升至58.2%。

比赛过程分享

比赛第一天开始监控排行榜，第三天题目较简单，多数队伍解出所有题目。
提供解题情况热力图，展示各阶段解题数量和成功率。

总结

创新点

多智能体协同与记忆/状态管理
知识增强引擎（知识库与军火库）
深度改造的渗透工具矩阵
数据分析平台（比赛数据分析、评估基准漏洞统计）

开源赋能

开源地址：https://github.com/Neuro-Sploit

未来展望

场景拓展：从单一Web靶场走向复杂内网渗透、横向移动。
实战落地：接入真实SRC平台，高危操作需人类确认。
社区建设：构建更全面的评估标准和数据集，开放API支持大模型参赛。

NeuroSploit战队 NeuroSploit战队战队介绍 NeuroSploit战队汇聚了清华大学、东南大学及国防科技大学等高校的科研力量。专注于构建真正具备“专业协同与自进化能力”的渗透智能体。王恩泽@z3r0yu博士汪琦@EkiXu清华大学博士生王一航@WangYihang清华大学博士生杨晶城@P3ngu1nW清华大学博士生夏天@3em0博士生王楚涵@wchhlbt东南大学副研究员清华大学博士 PART 01智能体设计 PentestSkills：重新定义渗透智能体自主协同测试与自进化 1.协同规划 4.迭代进化 ReMem Agent接收Exploit Agent漏洞利用成功或失败的记录，然后进行总结并存储 Lead Agent协同子Agent合作渗透Lead Agent制定ToDo List逐项完成测试 3.漏洞利用 2.技能调用 Exploit Agent根据Recon报告，进行漏洞探测与利用。同时会自主按需从[Knowledge Base]检索漏洞的利用技巧从[Payload Base]中检索类似的Payload进行参考从[PentestReMem]检索历史经验 Recon Agent根据策略，参数化调用[Spray, Xray, Nuclei]等技能。创新点一：多智能体协同与记忆/状态管理 ❖过多任务导致单智能体能力不足 ●多智能体分工协作●Sub Agents专精于各自领域 ❖状态管理机制避免大模型“跑偏” ❖渗透经验的持续累积带来自我进化 ●漏洞环境一○发现接口/profile?user={id}存在IDOR漏洞○成功利用，保存成功经验●漏洞环境二○发现接口：/profile?username=123○检索经验：“user参数存在IDOR”○利用成功：/profile?username=admin 渗透测试不是线性的，充满循环与条件判断 ●提示词规划○“跳步”：跳过中间步骤如不检索经验直接进行利用○“重复”：利用失败后重复执行发现接口任务●if/else特判○开发麻烦，调试麻烦 Solution: Apache burr定义重要状态和状态转换，提供可观测UI界面，调试友好 Solution: PentestReMem存储渗透经验创新点二：知识增强引擎（知识库与军火库）知识库（Knowledge Base） Payload军火库（Payloads Base） Content：包含40+ OWASP CheatSheets（e.g.,`XSS_Filter_Evasion_Cheat_Sheet.md`）Function：Agent学习绕过技巧与攻击模式 Content：包含50+利用脚本 Function：通过`Read` + `Glob`技能，Agent可以像人类黑客一样检索、修改并投放利用代码，实现了利用脚本的动态生成与适配。创新点三：深度改造的渗透工具矩阵我们不只“调用”工具，我们“驯化”工具，将工具转化为Agent的能力所有技能均基于`SKILL.md` + `MCP`规范实现，供Agent动态调用与参数化配置，所有技能和MCP都支持快速扩展。 PART 02 实战评估与数据分析 XBOW Validation Benchmarks数据集分析 ●XBOW Benchmarks包含104个包含数十种不同漏洞类型的环境●官方将其分为简单（45）、中等（51）、困难（8）种不同难度●其中XSS（23）、默认密码（18）、越权漏洞（15）占比最多 XBOW Validation Benchmarks数据集分析 ●将所有环境中涉及到的漏洞映射到OWASP TOP 10上●涉及到最多的漏洞类型有：注入型漏洞、访问控制漏洞等●较少涉及到的漏洞类型有：密码学错误、服务端请求伪造等 https://xbow-validation-benchmarks-statistics.streamlit.app/ 自动化评估系统 ●挑战与背景 ●杂项 ○修复了上游官方XBOW Benchmark仓库中的多个遗留问题（开源）○自动化估分系统（实现零成本、无限次的本地离线演练） ■开发了与主办方比赛平台API完全兼容的本地API■随机挑选8个漏洞环境■全自动模拟：自动化环境部署->攻击检测-> Flag验证不同版本AI Agent的效率分析图（快速发现负优化v0.1.0并快速迭代到v0.2.2）成功率由50%降低到39.4%又提升至58.2% https://github.com/Neuro-Sploit/xbow-validation-benchmarkshttps://github.com/Neuro-Sploit/tencent-cloud-hackathon-intelligent-pentest-competition-evaluation 自动化评估系统 ●挑战与背景 ○LLM不确定性：黑盒模型输出随机、代码优化效果难以确定是正优化还是负优化○缺乏基线标准■建立标准化的反馈闭环●解决方案：自动化评估○开发了基于XBOW Benchmark的全自动AI Agent评估系统（开源）■从多个维度对AI Agent进行评估●效果:漏洞利用成功率●效率:攻击全链路耗时●成本: Token消耗与经济性分析■可扩展到其他Benchmark数据集■可快速评估其他队伍的Agent性能●杂项 ○修复了上游官方XBOW Benchmark仓库中的多个遗留问题（开源）○自动化估分系统（实现零成本、无限次的本地离线演练） ■开发了与主办方比赛平台API完全兼容的本地API■随机挑选8个漏洞环境■全自动模拟：自动化环境部署->攻击检测-> Flag验证不同版本AI Agent的效率分析图（快速发现负优化v0.1.0并快速迭代到v0.2.2）成功率由50%降低到39.4%又提升至58.2% https://github.com/Neuro-Sploit/xbow-validation-benchmarkshttps://github.com/Neuro-Sploit/tencent-cloud-hackathon-intelligent-pentest-competition-evaluation 比赛过程分享 ●2025-11-10（比赛第一天）16:13分开始，以5秒一次的频率监控比赛排行榜（开源）●感谢主办方在比赛数据分析方面给予的支持和指导 https://tencent-cloud-pentest-competition-scoreboard-2025.streamlit.app/ 比赛过程分享 ●第三天的题目较为简单（许多队伍都解出了所有题目）每阶段解题情况热力图（横轴：队伍，纵轴：比赛阶段，数字：解题数量，黄色对勾：是否AK） https://tencent-cloud-pentest-competition-scoreboard-2025.streamlit.app/ 总结创新点开源赋能未来展望 1.场景拓展 1.多智能体协同与记忆/状态管理 a.从当前单一Web靶场面b.走向更复杂内网渗透、横向移动2.实战落地 a.接入真实SRC平台b.高危操作需要人类确认3.社区建设 2.知识增强引擎 a.多维度b.可扩展c.无限次本地演练 a.知识库b.军火库 a.构建更加全面、完备、合理的评估标准和数据集b.CTF比赛平台开放API、MCP接口以支持大模型参赛 3.深度改造的渗透工具矩阵 4.数据分析平台a.比赛数据分析b.评估基准漏洞统计恳请各位专家老师批评指正！参赛队伍：NeuroSploit开源地址：https://github.com/Neuro-Sploit

点击免费查看完整报告