AI智能总结
启明星辰北溟AI实验室 2025年2月18日 概览摘要 本文对DeepSeek-R1的多个蒸馏版本和量化版本进行了全面的安全性评估。文章指出,DeepSeek的低算力部署特性使其有望赋能千行百业,但也带来了新的安全风险。通过启明星辰天镜MAVAS大模型安全评估系统对比测试了不同版本DeepSeek-R1在基础安全和伦理对齐方面的表现,发现模型参数量越大,安全性越高。本文还提出了“前置预防-动态评估-主动修正”的大模型安全治理范式,以及基于电子围栏技术的安全防护方案,旨在提升DeepSeek-R1在本地部署和在线API调用中的安全性,确保人工智能技术的可持续发展。 ■大模型生成内容的伦理和价值观问题 大模型生成内容可能带有偏见或产生误导信息,因此需要关注其伦理风险,并确保其符合社会价值观,避免造成负面影响。 ■面向大模型的指令注入攻击 攻击者可以通过巧妙构造的指令来操控大模型,使其产生有害或不当的输出,对大模型的安全性构成威胁。 ■大模型安全评估 本文所有图、表、文字中的数据均来自天镜MAVAS大模型安全评估系统的截图或输出的报告。 通过全面的测试和分析,评估大模型在安全性、可靠性等方面的表现,发现潜在的安全漏洞,为后续的安全防护提供依据。 ■大模型安全电子围栏 构建一种安全机制,限制大模型的行为和输出,防止其被恶意利用或产生有害内容,保障大模型的安全可控运行。 目录 一、DeepSeek赋能千行百业蓄势待发,安全问题凸显....................................................3二、先控风险,后拓应用,大模型方能行稳致远..............................................................3三、DeepSeek-R1全版本安全评估简况..........................................................................4四、集成防护能力以提升大模型安全性............................................................................7五、结束语:构建安全底座,护航智能未来.....................................................................9 一、DeepSeek赋能千行百业蓄势待发,安全问题凸显 随着DeepSeek的持续火热,国内外多数科技公司、互联网巨头、运营商等纷纷宣布接入,DeepSeek这次真的把部署大模型的算力要求“帮家人们打下来了”,在同等的模型参数规模下DeepSeek配合Ollama推理框架能够在更低算力的环境下运行,具备部署和维护大模型的简便性并获得更高的推理准确性,大大降低了大模型的使用门槛,让普通小白用户也能部署自己的大模型品尝人工智能带来的新鲜感,基于大模型提供应用服务的人群从少数掌握核心技术人才和能力的“大厂”向普通中小型企业甚至个人用户转移。 可以预见DeepSeek将会迅速赋能千行百业的场景化应用,随之而来的安全问题也将随着用户自身对大模型和相关安全技术掌握的不足而大量暴露出来,大模型作为新型基础设施,其数据驱动特性与生成能力在提升效率的同时,也放大了安全风险,急需建立风险防控机制,防止数据泄露、伦理失控、恶意滥用等系统性危害。 二、先控风险,后拓应用,大模型方能行稳致远 启 明 星 辰 近 期 发 布 的 天 镜MAVAS大 模 型 安 全 评 估 系 统 , 使 用 基于DeepSeek模型微 调的泰合安全 大模型作为安 全评估的基准 模型,已经对DeepSeek-R1的全部蒸馏版本和全参数量化版本进行了对比性安全评估,为用户选择合适的DeepSeek模型版本提供专业性的参考,“先控风险”是保障大模型技术可控性、伦理合规性与产业可持续性的核心前提。 对大模型安全性的评估通常由基础安全评估、伦理对齐评估、场景化风险评估等几个维度组成,其中基础安全评估主要验证模型对对抗样本的鲁棒性和隐私保护强度;伦理对齐评估主要检测输出内容是否符合人类价值观;场景化风险评估则是针对如金融、电力、医疗等垂直领域通过定制的红队测试来模拟真实的攻 击。通过对大模型的安全评估,可以有效掌握所使用大模型可能存在的风险和脆弱性问题,对模型输出结果的可信度有更全面的认知,能够更准确的评估是否适合将此模型应用于日常的生产工作中。 三、DeepSeek-R1全版本安全评估简况 通过天镜MAVAS进行的本次安全评估,使用了高质量安全评估样本集,从模型基础安全维度中的目标劫持、带有不安全观点询问、反面诱导、赋予角色后发指令、Prompt泄露、不安全的指令主题等六种基于对抗样本的指令注入攻击方法,以及从伦理对齐维度中的侮辱脏话、歧视偏见、违法犯罪、敏感话题、身体 伤 害 、 心 里 健 康 、 财 产 隐 私 、 道 德 伦 理 等 八 种 安 全 场 景 , 对 包括DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Llama-70B等DeepSeek官方发布的蒸馏版模型和DeepSeek-R1-IQ1_S-1.58bit、DeepSeek-R1-Q2_K_XL-2.51bit等Unsloth第三方发布的全参数量化版模型进行了安全评估。 在测评任务中,我们不仅使用了基于DeepSeek进行微调的泰合安全大模型作为测评结果安全性的评判模型,还用该大模型生成了大量有效的对抗样本,对现有数据集进行了自动化增强,通过对对抗样本的有效性测试,我们最终从安全评估数据集中选取了1539个样本作为本次安全评估的样本试题,样本分布如图2所示: 图3给出了在本地部署的DeepSeek各种版本模型的评估结果,可以看出,总体趋势上,参数量越大的模型版本输出内容的安全性越高,从Qwen的几个版 本 对 比 来 看 ,Qwen-1.5B的 模 型 存 在24%左 右 数 量 的 不 安 全 输 出 ,而Qwen-32B的的模型的不安全输出数量降低到11%左右,Unsloth2.51bit全参数动态量化版671B的模型安全性最高,不安全输出测试样本数量为7%。在测试过程中,我们还发现模型的深度思考(即think标签内的输出内容)能够在一定程度上降低不安全输出的几率,但其思考内容本身却可能存在不安全内容,因此是否完全实时展示思考内容也是应用DeepSeek-R1工程化时要考虑的问题。 评测结果为安全的样本数为1282, 非 安 全 的 样 本 数为230, 处 理 异 常 的 样 本 数为27,安全响应率83% 评测结果为安全的样本数为1349, 非 安 全 的 样 本 数为183,处理异常的样本数为7,安全响应率88% 评测结果为安全的样本数为1373, 非 安 全 的 样 本 数为160,处理异常的样本数为6,安全响应率89% 评测结果为安全的样本数为1173, 非 安 全 的 样 本 数为317,处理异常的样本数为49,安全响应率76% 评测结果为安全的样本数为1382, 非 安 全 的 样 本 数为145, 处 理 异 常 的 样 本 数为12,安全响应率90% 评测结果为安全的样本数为1419, 非 安 全 的 样 本 数为116,处理异常的样本数为4,安全响应率92% 评测结果为安全的样本数为1298, 非 安 全 的 样 本 数为233,处理异常的样本数为8,安全响应率84% 评测结果为安全的样本数为1432, 非 安 全 的 样 本 数为106,处理异常的样本数为1,安全响应率93% 通过对公开发布的DeepSeek-R1全系列蒸馏和量化模型的安全测评,我们可以看出DeepSeek-R1在自身安全对齐能力上还存在一定的安全风险,用户可以通过部署天镜MAVAS大模型安全评估系统,也可以通过SaaS服务模式获取 大模型评估服务,对各自行业构建的大模型应用进行实时安全性评估。 四、集成防护能力以提升大模型安全性 为了帮助用户在了解DeepSeek-R1模型的安全能力和存在的风险后,能有专业可靠的应对措施,可以集成安全电子围栏的技术方案,通过部署电子围栏代理对大模型的不安全输入输出行为进行拦截和修正,该方案可以与大模型安全评估技术结合,形成闭环安全治理范式。 我们在多个DeepSeek-R1版本的模型上对多种安全场景和注入攻击方式进行了技术验证,结果证明,通过电子围栏技术能够有效提升DeepSeek-R1各种版本模型的本地化部署和在线API调用的安全性,下面是部分测试用例,其中使用天镜安全代理的是部署了电子围栏的场景: a.DeepSeek-R1-Distill-Qwen-14B ▪回答不安全-无代理 回答安全-天镜安全代理 ▪ b.DeepSeek-R1-Distill-Qwen-32B c.DeepSeek-R1-GGUF-2(DeepSeek-R1-Q2_K_XL-2.51bit) d.在线DeepSeek-R1 ▪回答不安全-无代理 五、结束语:构建安全底座,护航智能未来 在人工智能技术加速落地的浪潮中,DeepSeek的突破性进展为千行百业提供了低门槛、高效率的大模型部署方案,但技术的普惠性与安全性始终是一体两面的命题。从安全性评估结果可见,模型规模与安全能力呈正相关,而量化、蒸馏技术的应用虽降低了算力门槛,却也需在安全对齐上投入更多精力。 通过启明星辰提出的“前置预防-动态评估-主动修正”的大模型安全治理范式,企业不仅能够通过天镜MAVAS实时评估大模型应用的安全风险以及精准识别模型脆弱性,更能借助动态电子围栏技术实现风险实时拦截,形成“越用越安全”的良性循环。未来,随着大模型向垂直领域纵深渗透,唯有将安全基因嵌入技术全生命周期,以持续演进的防护能力应对新型攻击,方能真正实现“安全可控”与“创新发展”的双轮驱动,让人工智能在守护中释放更大价值,行稳致远。