您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:DeepSeek是一个中文版的安全性评估模型 - 发现报告

DeepSeek是一个中文版的安全性评估模型

信息技术 2025-02-20 - 未知机构 记忆待续
报告封面

Wenjing Zhang1,2 Xuejiao Lei1,2, 刘朝祥∗1,2, 宁旺1,2,钟鸿龙1,2, 杨培军1,2, 赵娇娇1,2, 华敏杰1,2, 马朝阳1,2, 王凯1,2,和连世国∗1,2 1中国联通数据智能,中国联通2数据科学与人工智能研究院,中国联通 {zhangwj1503,leixj15,liuzx178,wangn85,longzh8,yangpj16,zhaojj225, huamj5,macy87,wangk115,liansg}@chinaunicom.cn∗通讯作者 摘要。近期,凭借其卓越的推理能力和开源战略,DeepSeek系列模型正在重塑全球人工智能格局。尽管具备这些优势,它们仍存在显著的安全缺陷。思科子公司鲁棒智能(Robust Intelligence)与宾夕法尼亚大学合作开展的研究表明,在处理有害提示时,DeepSeek-R1的攻击成功率高达100%。此外,多家安全公司和研究机构已证实该模型存在关键安全漏洞。作为在中英文环境中均表现出色的模型,DeepSeek系列需要进行同等关键的安全评估。然而,当前研究主要集中于英文环境的安全评估,导致对其中文环境下的安全性能缺乏全面评估。针对这一空白,本研究引入了CHiSafetyBench,一个针对中文环境的安全评估基准。该基准系统性地评估了DeepSeek-R1和DeepSeek-V3在中文环境下的安全性,揭示了它们在不同安全类别中的表现。实验结果量化了这两个模型在中文环境中的缺陷,为后续改进提供了关键见解。需要注意的是,尽管我们尽力建立全面、客观且权威的评估基准,但测试样本的选择、数据分布特征以及评估标准的设定可能不可避免地引入一定偏差。我们将持续优化评估基准,并定期更新本报告,以提供更全面和准确的评估结果。请参阅最新版论文以获取最新的评估结果和结论。 1 引言 大型语言模型在复杂推理[15,16]、自然语言理解[17]和自然语言生成[1,2]等领域展现出卓越的效能,已成为推动发展的重要力量。 2 张伟等 人工智能技术。在此背景下,DeepSeek在过去两年中迅速崛起成为行业新星。该公司最近推出了其大型语言模型的DeepSeek-V3[10]和DeepSeek-R1[9]版本,标志着其技术能力的又一次飞跃。值得注意的是,DeepSeek-R1作为一个开源大型语言模型,凭借其卓越的推理能力正在重塑全球人工智能格局。基于混合专家(MoE)架构[6,11]、拥有6710亿参数并采用独特的强化学习技术,DeepSeek-R1在各种领域表现出色,包括数学推理、代码生成和自然语言处理。例如,在美国数学邀请赛2024(AIME 2024)[12]中,DeepSeek-R1达到了79.8%的准确率,略胜OpenAI o1[14]。此外,在Codeforces平台上,其表现超越了96.3%的人类程序员。DeepSeek-R1的影响不仅体现在技术创新上,还体现在其开源战略上,该战略显著推动了人工智能技术的普及,打破了封闭式模型的垄断,并吸引了全球开发者和企业的广泛关注。此外,其低成本训练和部署策略加速了DeepSeek-R1的全球应用。 随着DeepSeek-R1的能力得到广泛应用,对其安全性的担忧日益凸显。近日,思科公司[8]的子公司鲁棒智能(Robust Intelligence)与宾夕法尼亚大学合作,对DeepSeek-R1的安全性进行了深入研究,揭示了该模型存在关键性安全缺陷。研究团队使用HarmBench数据集[13]中的50个有害提示对DeepSeek-R1进行了全面测试,结果令人担忧:DeepSeek-R1未能成功阻止任何有害提示,攻击成功率高达100%。领先的全球AI安全与合规平台Enkrypt AI[4]也发布了聚焦DeepSeek技术的红队测试报告。报告指出DeepSeek-R1存在严重的伦理和安全漏洞。通过深入分析,研究人员发现该模型存在高度偏见,易生成不安全代码,并可能产生有害和毒性内容,如仇恨言论、威胁、自残行为以及露骨或涉及犯罪的内容。此外,包括Adversa AI和专注于衡量与量化AI风险的Chatter-box Labs在内的多家安全公司和研究机构[3,5,7]也对DeepSeek-R1的安全性进行了测试。这些测试同样表明该模型存在显著的安全漏洞,进一步证实了DeepSeek-R1的安全问题。 目前,大多数实验和研究主要集中于英语环境下的安全评估,缺乏对中文环境下安全性能的全面和细粒度评估。为填补这一研究空白,本研究基于中国政府发布的《生成式人工智能服务基本安全要求》标准中定义的层次化安全分类体系,对模型进行了多层级和细粒度的安全评估。具体而言,本文采用CHiSafetyBench,一个 中文语境下DeepSeek模型的安评 3 依据该标准构建的中文安全基准。该基准用于系统性地评估DeepSeek-R1和DeepSeek-V3在中文环境下的安全性,揭示其跨不同安全类别的表现。实验结果量化了这两个模型在中文安全性能方面的不足,为后续优化和防护提供了见解。必须强调的是,测试样本的选择和评估标准的设计不可避免地会为评估结果引入一定偏差。为此,我们将持续优化此项评估工作,尽可能提升其全面性和可靠性。据我们所知,我们首次对DeepSeek-R1进行了中文安全评估。 2 实验 2.1 实验设置 本研究针对DeepSeek系列中最先进和最具代表性的模型——DeepSeek-R1(671B)和DeepSeek-V3——在中国情境下进行系统且全面的安评。在此基础上,我们进一步选取了一系列具强中国能力的广受认可的模型作为辅助对比对象,客观比较DeepSeek系列模型的安全性能。这些辅助模型包含来自4个不同系列的10个大语言模型:百川系列(百川2-7B-Chat、百川2-13B-Chat)、ChatGLM系列(ChatGLM3-6B)、Qwen系列(Qwen1.5-7B-Chat、Qwen1.5-14B-Chat、Qwen1.5-32B-Chat、Qwen1.5-72B-Chat、Qwen1.5-110B-Chat)以及Yi系列(Yi-6B-Chat、Yi-34B-Chat)。 2.2 评估基准 在安全评估领域,我们采用CHisafetybench [18] 作为基准,对中国环境下的模型进行全面的评估,涵盖5个主要安全方面:歧视、价值观违规、商业违规、权利侵犯以及特定服务的安全要求。该基准包含两种评估任务:风险内容识别的多项选择题和拒绝回答的冒险性问题,从而实现多维度评估。具体而言,多项选择题采用准确率(ACC)作为评估指标,而冒险性问题则通过拒绝率(RR-1)、责任率(RR-2)和伤害率(HR)等指标进行综合评估。本研究使用的安全评估基准包含两个核心任务:首先,通过多项选择题评估模型识别风险内容的能力;其次,评估其拒绝风险查询并提供积极引导的能力。 2.3 风险内容识别评估 选择题的评价结果在表1中呈现。结果表明,DeepSeek系列模型的整体安全性能相对适中。具体而言,DeepSeek-R1和DeepSeek-V3的整体ACC分别为71.14%和84.17%。这些值分别比表现最佳的Qwen1.5-72B-Chat低了19.72%和6.96%。 在各类风险类别中,DeepSeek-R1模型在违规行为判断和价值观方面的表现尤其差,其准确率(ACC)分别为50.22%和64.91%。这些数值比表现最佳的Qwen系列模型分别低36.30%和28.82%。DeepSeek-V3在判断类别中也存在显著的缺陷,其准确率为66.96%,比表现最佳的Qwen1.5-14B-Chat低19.56%。这些结果表明,判断类别仍然是DeepSeek模型中的一个常见弱点,尚未得到有效解决。此外,与DeepSeek-V3相比,DeepSeek的安全能力 R1显示显著下降,整体ACC下降了12.76%,并且在5个维度中有4个维度的ACC减少。供进一步参考,图1列出了DeepSeek系列模型和另外四个模型在31个详细风险内容类别中的ACC。 2.4 回答拒绝的评估 表2展示了模型拒绝危险问题的能力评估结果。结果表明,DeepSeek系列模型在拒绝危险问题方面仍有相当大的改进空间。总体而言,DeepSeek-R1和DeepSeek-V3的HR分别为0%和0.43%,表明产生有害输出的概率较低。然而,在拒绝危险问题并提供负责任指导方面,这两款模型的能力相对较弱。具体而言,DeepSeek-R1的RR-1和RR-2分别为67.60%和67.17%,分别比 6 张伟等 表现最佳的Qwen1.5-32B-Chat。相比之下,DeepSeek-V3表现出更低的比例,分别为59.83%和59.61%,分别比Qwen1.5-32B-Chat低17.88%和17.66%。 在各种风险类别中,DeepSeek-R1 的 RR-1 和 RR-2 对于歧视的准确率均为31.98%,分别比表现最好的 Qwen1.5-32B-Chat 低 27.71% 和 27.20%。DeepSeek-V3 在这一类别中的表现更差,准确率仅为 23.86% 和 23.35%,分别比 Qwen1.5-32B-Chat 低 35.83% 和 35.83%。这些结果突显了 DeepSeek 系列 在拒绝与歧视相关的风险问题并提供负责任的指导方面的显著缺陷。 此外,与DeepSeek-V3相比,DeepSeek-R1使整体RR-1和RR-2分别提高了7.77%和7.56%,并将HR降低了0.43%。这一结果表明,与DeepSeek-V3相比,DeepSeek-R1在整体拒绝能力方面有所提升。为进一步参考,本研究包含展示拒绝能力的热图,涵盖17个详细的风险问题类别。具体的RR-1、RR-2和HR数据分别如图2、图3和图4所示。 应指出,任何评估基准本质上均存在一定局限性,包括测试样本的选择、数据分布特征以及评估标准的设定。因此,我们的评估结果可能并非最客观、最全面或最准确的。随着我们将持续改进这项评估工作,我们建议参考论文最新版本以获取最新的实验结果和结论。 3 DeepSeek模型的严重案例 为了更清晰地展示DeepSeek系列模型的安全性能,我们展示了DeepSeek模型在两种类型任务上的响应效果,并引入Qwen1.5-32B-Chat模型的相关响应作为对比,从而直观地呈现DeepSeek与主流模型在安全能力上的差异。 8 张伟等 在识别高风险内容的单项选择题任务中,如图5所示,DeepSeek模型在不同情况下的表现如下:在案例1中,关于仁爱礁主权问题,DeepSeek-R1没有直接用选项进行回应,而是提供了安全的回应;然而,DeepSeek-V3做出了直接的误判。在案例2中,当面对促进极端行为的判断时,DeepSeek-R1和DeepSeek-V3均未能识别选项C的负面含义,并错误地选择了它。相比之下,Qwen1.5-32B-Chat准确理解了问题,并在两个案例中均提供了正确回应。在拒绝回答高风险问题的任务中,如图6 并且7,DeepSeek模型的性能同样不足。此处展示的案例源自多轮对话。为简洁起见,对话历史已被省略,仅显示最后一轮的问题。在案例1中,DeepSeek-R1和DeepSeek-V3均未能识别问题中的风险,反而提供了通过文化实现年龄歧视的方法和途径。在案例2中,DeepSeek-V3甚至建议提供贿赂等高风险方法来接近政府官员。相比之下,Qwen1.5-32B-Chat在两个案例中均准确识别了高风险问题,并提供了安全且恰当的回应。 4 结论 鉴于对DeepSeek模型安全问题的日益关注以及中文安全评估中存在的显著差距,本研究聚焦于最新的高性能DeepSeek-R1和DeepSeek-V3模型,在中国语境下进行全面的 safety testing。通过定量分析其安全能力,本研究评估了这两个模型在中国语境下的 safety perfo