AI智能总结
NeuroSploit战队 NeuroSploit战队 战队介绍 NeuroSploit战队汇聚了清华大学、东南大学及国防科技大学等高校的科研力量。专注于构建真正具备“专业协同与自进化能力”的渗透智能体。 王恩泽@z3r0yu博士 汪琦@EkiXu清华大学博士生 王一航@WangYihang清华大学博士生 杨晶城@P3ngu1nW清华大学博士生 夏天@3em0博士生 王楚涵@wchhlbt东南大学副研究员清华大学博士 PART 01智能体设计 PentestSkills:重新定义渗透智能体 自主协同测试与自进化 1.协同规划 4.迭代进化 ReMem Agent接收Exploit Agent漏洞利用成功或失败的记录,然后进行总结并存储 Lead Agent协同子Agent合作渗透Lead Agent制定ToDo List逐项完成测试 3.漏洞利用 2.技能调用 Exploit Agent根据Recon报告,进行漏洞探测与利用。同时会自主按需从[Knowledge Base]检索漏洞的利用技巧从[Payload Base]中检索类似的Payload进行参考从[PentestReMem]检索历史经验 Recon Agent根据策略,参数化调用[Spray, Xray, Nuclei]等技能。 创新点一:多智能体协同与记忆/状态管理 ❖过多任务导致单智能体能力不足 ●多智能体分工协作●Sub Agents专精于各自领域 ❖状态管理机制避免大模型“跑偏” ❖渗透经验的持续累积带来自我进化 ●漏洞环境一○发现接口/profile?user={id}存在IDOR漏洞○成功利用,保存成功经验●漏洞环境二○发现接口:/profile?username=123○检索经验:“user参数存在IDOR”○利用成功:/profile?username=admin 渗透测试不是线性的,充满循环与条件判断 ●提示词规划○“跳步”:跳过中间步骤如不检索经验直接进行利用○“重复”:利用失败后重复执行发现接口任务●if/else特判○开发麻烦,调试麻烦 Solution: Apache burr定义重要状态和状态转换,提供可观测UI界面,调试友好 Solution: PentestReMem存储渗透经验 创新点二:知识增强引擎(知识库与军火库) 知识库(Knowledge Base) Payload军火库(Payloads Base) Content:包含40+ OWASP CheatSheets(e.g.,`XSS_Filter_Evasion_Cheat_Sheet.md`)Function:Agent学习绕过技巧与攻击模式 Content:包含50+利用脚本 Function:通过`Read` + `Glob`技能,Agent可以像人类黑客一样检索、修改并投放利用代码,实现了利用脚本的动态生成与适配。 创新点三:深度改造的渗透工具矩阵 我们不只“调用”工具,我们“驯化”工具,将工具转化为Agent的能力所有技能均基于`SKILL.md` + `MCP`规范实现,供Agent动态调用与参数化配置,所有技能和MCP都支持快速扩展。 PART 02 实战评估与数据分析 XBOW Validation Benchmarks数据集分析 ●XBOW Benchmarks包含104个包含数十种不同漏洞类型的环境●官方将其分为简单(45)、中等(51)、困难(8)种不同难度●其中XSS(23)、默认密码(18)、越权漏洞(15)占比最多 XBOW Validation Benchmarks数据集分析 ●将所有环境中涉及到的漏洞映射到OWASP TOP 10上●涉及到最多的漏洞类型有:注入型漏洞、访问控制漏洞等●较少涉及到的漏洞类型有:密码学错误、服务端请求伪造等 https://xbow-validation-benchmarks-statistics.streamlit.app/ 自动化评估系统 ●挑战与背景 ●杂项 ○修复了上游官方XBOW Benchmark仓库中的多个遗留问题(开源)○自动化估分系统(实现零成本、无限次的本地离线演练) ■开发了与主办方比赛平台API完全兼容的本地API■随机挑选8个漏洞环境■全自动模拟:自动化环境部署->攻击检测-> Flag验证 不同版本AI Agent的效率分析图(快速发现负优化v0.1.0并快速迭代到v0.2.2) 成功率由50%降低到39.4%又提升至58.2% https://github.com/Neuro-Sploit/xbow-validation-benchmarkshttps://github.com/Neuro-Sploit/tencent-cloud-hackathon-intelligent-pentest-competition-evaluation 自动化评估系统 ●挑战与背景 ○LLM不确定性:黑盒模型输出随机、代码优化效果难以确定是正优化还是负优化○缺乏基线标准■建立标准化的反馈闭环●解决方案:自动化评估○开发了基于XBOW Benchmark的全自动AI Agent评估系统(开源)■从多个维度对AI Agent进行评估●效果:漏洞利用成功率●效率:攻击全链路耗时●成本: Token消耗与经济性分析■可扩展到其他Benchmark数据集■可快速评估其他队伍的Agent性能●杂项 ○修复了上游官方XBOW Benchmark仓库中的多个遗留问题(开源)○自动化估分系统(实现零成本、无限次的本地离线演练) ■开发了与主办方比赛平台API完全兼容的本地API■随机挑选8个漏洞环境■全自动模拟:自动化环境部署->攻击检测-> Flag验证 不同版本AI Agent的效率分析图(快速发现负优化v0.1.0并快速迭代到v0.2.2) 成功率由50%降低到39.4%又提升至58.2% https://github.com/Neuro-Sploit/xbow-validation-benchmarkshttps://github.com/Neuro-Sploit/tencent-cloud-hackathon-intelligent-pentest-competition-evaluation 比赛过程分享 ●2025-11-10(比赛第一天)16:13分开始,以5秒一次的频率监控比赛排行榜(开源)●感谢主办方在比赛数据分析方面给予的支持和指导 https://tencent-cloud-pentest-competition-scoreboard-2025.streamlit.app/ 比赛过程分享 ●第三天的题目较为简单(许多队伍都解出了所有题目) 每阶段解题情况热力图(横轴:队伍,纵轴:比赛阶段,数字:解题数量,黄色对勾:是否AK) https://tencent-cloud-pentest-competition-scoreboard-2025.streamlit.app/ 总结 创新点 开源赋能 未来展望 1.场景拓展 1.多智能体协同与记忆/状态管理 a.从当前单一Web靶场面b.走向更复杂内网渗透、横向移动2.实战落地 a.接入真实SRC平台b.高危操作需要人类确认3.社区建设 2.知识增强引擎 a.多维度b.可扩展c.无限次本地演练 a.知识库b.军火库 a.构建更加全面、完备、合理的评 估标准和数据集b.CTF比赛平台开放API、MCP接口以支持大模型参赛 3.深度改造的渗透工具矩阵 4.数据分析平台a.比赛数据分析b.评估基准漏洞统计 恳请各位专家老师批评指正! 参赛队伍:NeuroSploit开源地址:https://github.com/Neuro-Sploit