揭秘黑灰产AI的潘多拉魔盒 洺熙 关于我(洺熙) 御之安科技首席AI安全研究员《Ai迷思录:Ai应用与安全指南》 《prompt越狱手册》《HelloAi》作者,灵溯LLM安全测试平台核心开发米斯特Ai安全组核心成员,某部委特聘讲师,CAIDCP认证马斯克Grok操纵总统大选案揭秘者Claude与Open Ai连续两届全球红队测试通关者活跃在各大知名Ai社区一线频道,参与国内外多家头部Ai厂商模型自检安全测试,识别并捕获多起跨国Ai黑产攻击 全面高速发展的人工智能 1.黑灰产AI模型的诞生2.黑灰产AI模型的伴生品 攻界智汇技破万防 市面普遍的通用的人工智能安全架构体系 输入检测+内生对齐+输出检测的三层过滤防御 黑白词库+正则匹配+语义分析的 应用拦截 风控触发场景 明楼之下,暗流涌动 安全不存在银弹 黑灰产AI模型的诞生 黑灰产AI模型 如何产生?1.利用未经历过安全对齐的原始基座模型 2.恶意微调或投毒开源模型,从而覆盖原生的“对齐”机制3.注入或越狱操纵原生AI模型 特征:1.指令的绝对服从:不会进行内在的道德或安全审查。你让它做什么,它就做什么 2.知识的无差别输出:不区分“有益知识”和“有害知识”,其知识库中所有可被逻辑组合的信息,都能被提取和呈现3.无内置“个性”或“立场”:没有被预设,它就是它,纯粹的语言模式预测引擎 攻界智汇技破万防 1.基座模型 没有经过任何特定任务或安全准则的微调的基座模型行为模式是“文本补全”,无,对”或“错”的概念,没有“应该”或“不应该”的束缚 比如:Meta发布的Llama 3系列,明确提供Llama-3-8B-Base和Llama-3-8B-Instruct两版本攻击者只需从Hugging Face等开源社区直接下载或找寻未经审查对齐的原始模型同样,Falcon等主流开源模型家族也遵循此惯例参考早期的GPT-J 2.滥用开源模型 监控主流模型采用趋势,每当新的LLM发布给公众时,地下行为者会迅速测试其滥用潜力在之前,OpenAlAPI是网络犯罪分子最流行的模型目前已从滥用ChatGPT等主流模型,转向利用QWEN,DeepSeek等开源大模型,因其免费,易获取,可二开的特性,正迅速成为网络犯罪的核心资产 https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/ 恶意微调 恶意微调:攻击者获取一个强大的开源基础模型,专门构建对应目标的恶意数据集进行重新训练 攻击点:注入高质量、目标导向的恶意数据集构建,其数据集的质量(数据量、多样性、标注精准度)直接决定了最终“黑化”模型的稳定性和可用性 数据投毒:供应链攻击,攻击者向其训练数据集中注入恶意的,有偏见的的数据 关键:(投毒载荷)的隐蔽性设计攻击点:在不被察觉的情况,设计对应“后门触发器”并且投递,以至于能骗过所有数据清洗和过滤流程,最终被模型作为正常知识学习 冷知识:已有团队对GPT-4o、Llama-4-Scout等主流模型的审计显示,平均4.2%的生成代码含恶意URL,证实公共互联网内容已成为核心污染源可见:https://arxiv.org/pdf/2509.02372v1 攻界智汇技破万防 https://github.com/ystemsrx/Qwen2-Boundless/tree/main 被污染后的大模型(示例) 3.在已有商业模型API基础上进行注入或越狱突破安全限制 模型有风控机制? 检测用户过多进行模型滥用后会直接进行封号? 攻界智汇技破万防 Cookie转化为API形式 •利用Clew,黑产分子可以将订阅制的Cookie转化为API形式这种方式使得他们能够通过WebUI进行大规模刷取Token额度,从而实现经济利益的最大化具体流程包括: •Cookie获取:通过钓鱼或其他手段获取用户的订阅Cookie •API调用:将Cookie转化为可用的API形式,进行大量请求,从而造成服务提供商的经济损失 什么安全对齐?什么风控拦截?什么API网关?什么XXXXX 咕噜说什么?拿来吧你!反正被封的号不是我的号 •https://github.com/teralomaniac/clewd 该项目面向Claude通过技术手段将API计费额度改为订阅制无限制Token •淘宝等电子商务平台已经出现大量利用该技术进行中转API额度售卖的商家,极其便宜的价格背后使用的技术即为Clew 转化流程 注入与越狱模板实践(部分) 攻界智汇技破万防 测试 注入手法总结---Pangea(来源) 黑灰产AI模型的伴生物 AI地下色情帝国构建Ai赛博女友,Ai换脸,Ai脱衣伪造 攻界智汇技破万防 自动引流,绕过内容风控钓鱼 通过自动化脚本和机器人群控等手段进行引流生成真人逼真对话绕过内容风控,利用社交媒体平台发布大量相似内容的信息,以达到引流的目的,网络色情、赌博或诈骗 攻界智汇技破万防 Ai赛博算命,Ai电信诈骗/电销 攻界智汇技破万防 HackGPT 黑客GPT总结 攻界智汇技破万防 Xanthorox AI Xanthorox并非基于GPT等现有AI平台。相反,它使用了五个独立的AI模型,所有功能都在其创建者控制的私有服务器上运行逻辑:用户-> Xanthorox服务器(自托管AI非API)->您生成的响应->立即从后端删除服务器日志->循环 攻界智汇技破万防 PromptLock AI勒索攻击者自己不带“武器”,而是远程命令AI,让AI临时为它“制造”出勒索代码,再回传执行 深度伪造 代表:Deep-Live-Cam深度伪造视频工具,可让欺诈者在实时视频通话期间冒充高管或供应商 攻界智汇技破万防 Microsoft和OpenAI联合检测的关于国家行为组织者LLM威胁情报 攻界智汇技破万防 网络犯罪已进入AI驱动的数据分析阶段。以恶意大模型DarkGPT为例,犯罪分子正利用其自然语言处理能力,从海量信息窃取器日志中高效筛选高价值凭证与敏感数据,从而极大加速了账户接管、金融欺诈及勒索攻击的目标定位 此趋势正不断深化:数据黑市则利用AI清洗和优化海量失窃数据以提升其售卖价值标志着AI正使犯罪分子能以前所未有的效率管理和武器化失窃数据,显著提升攻击的规模与精准度 攻界智汇技破万防 网络战舆论战工具 黑产分子让LLM输出涉警言论,将其作为水军载体这种行为被境外势力利用,用于开展网络战和舆论战其具体表现为: 敏感言论生成:模型输出引发争议或误导的信息 舆论操控:这些信息被用于操控公众舆论,影响社会稳定 各大平台已经大量出现该类型AI水军 总结: 网络犯罪已从单纯滥用主流AI,演变为构建专用的恶意AI生态,通过开发售卖定制模型和创建虚假平台进行攻击,催生从恶意软件开发、数据武器化到高仿真社交工程的全链条犯罪,并构建起色情诈骗等黑产帝国犯罪分子通过Prompt注入和盗刷API等手段攻击AI应用本身, 其威胁已从技术探讨演变为成熟的地下交易市场,并被一些国际行为组织者用于舆论操控等,对社会稳定构成威胁 议题致谢:札克利慢雾安全团队 议题部分资料来源,剩下可见对应PPT章节:慢雾科技SlowMistCHECK POINT AI SafetyMicrosoft Defender 谢谢