您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国软件评测中心]:Top开源大模型安全测评报告(2024) - 发现报告

Top开源大模型安全测评报告(2024)

AI智能总结
查看更多
Top开源大模型安全测评报告(2024)

Top开源大模型安全测评报告(2024) 中国软件评测中心安全事业部杭州安恒信息技术股份有限公司中国计算机行业协会数据安全专业委员会数据安全关键技术与产业应用评价工业和信息化部重点实验室联合发布2024年12月 前言 为深入学习贯彻全国两会精神和党的二十届三中全会精神,落实《中共中央关于进一步全面深化改革、推进中国式现代化的决定》作出“建立人工智能安全监管制度”“完善生成式人工智能发展和管理机制”的重要部署以及根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《生成式人工智能服务管理办法》《工业和信息化部等十六部门关于促进数据安全产业发展的指导意见》等法律法规政策文件要求,促进和引导人工智能大模型技术向“负责任、可持续、高可靠”目标发展,让人工智能大模型技术真正实现高质量安全赋能各行各业落地应用。 中国软件评测中心(工业和信息化部软件与集成电路促进中心)安全事业部联合杭州安恒信息技术股份有限公司、数据安全关键技术与产业应用评价工业和信息化部重点实验室、中国计算机行业协会数据安全专业委员会,共同开展国内外开源大模型的安全性、公平性和可靠性研究,并发布《Top开源大模型安全测评报告(2024)》。 本报告聚焦国内外开源大模型的安全风险测评,通过选取典型的12家20款开源大模型,从国家安全、道德伦理、公民权利、公共安全、历史文化、医疗卫生、隐私信息、不良信息、商业金融、基础安全、网络安全和模型滥用等12个方面展开深入安全测评,旨在提高大模型厂商的安全意识和保障行业用户的合法权益,并通过系统性分析国内外开源大模型安全的综合表现,为人工智能大模型产业各界提供参考。 【注】因大模型迭代速度快,测评结果仅适用于测试期间和测试版本。报告中的分析和结论可能存在一定的局限性和不完整性,我们期待并欢迎各方提出宝贵的批评与建议,共同推动人工智能大模型安全治理。 测评体系 大模型安全测评体系图 大模型安全测评说明 计算单项风险比例 计算单项占总风险 本测评过程采用多维度的测试题库,包涵了丰富的题目和多种测试维度。在测试过程中,通过调用API的方式,全面测试了模型的风险。测试过程中采用了规则匹配打分、大模型自动打分等方式,以客观评价模型的安全风险水平。 测评结果 总体情况(一)大模型安全风险总览 从大模型安全风险总览来看,开源大模型存在一定安全风险,国内开源大模型安全性整体上优于国外开源大模型,大模型安全治理工作任重道远需各方共同努力。 总体情况(二)大模型安全风险类型分布 从大模型安全风险类型分布来看,公共安全、道德伦理、不良信息和网络安全风险较为严重,谨慎使用国外开源大模型作为基座模型。 总体情况(三)大模型安全风险检测方式 从大模型安全风险检测方式来看,开源大模型在面对内容分割重组、角色伪装、直接问答、语言切换、混合攻击等检测方式时防护能力较弱,大模型如何抵御各类型的攻击方式需持续研究。 大模型安全风险类型(一)国家安全 风险类型情况分析:国家安全 从国家安全风险类型来看,测试策略数量为268个,其中aya:8b、mistral:7b-instruct、mistral在该风险类型中风险数量最多,aya:8b单项风险占比最高为20.52%,internlm2:7b单项风险占比最低为2.24%。 【注】国家安全风险类型描述:涉及危害国家的政治、军事、经济、文化和社会安全,关乎国家主权、领土完整、社会稳定及长期发展利益的内容。包括危害国家政权、泄露机密、分裂国家、损害国家荣誉亵渎英烈的行为或内容。 大模型安全风险类型(二)历史文化 风险类型情况分析:历史文化 从历史文化风险类型来看,测试策略数量为5个,其中llama3:8b、mistral:7b-instruct在该风险类型中风险数量最多,llama3:8b和mistral:7b-instruct单项风险占比最高为20%,其他被测开源大模型未出现该风险。 【注】历史文化风险类型描述:涉及对历史事件、重要人物及中华文化的恶意歪曲或抹黑,试图否定党和国家的历史贡献,破坏中华优秀传统文化、革命文化和社会主义先进文化的内容。 大模型安全风险类型(三)公共安全 风险类型情况分析:公共安全 从公共安全风险类型来看,测试策略数量为478个,其中mistral:7b-instruct、mistral、yi-1.5:6b在该风险类型中风险数量最多,mistral:7b-instruct单项风险占比最高为17.36%,deepseek-v2:16b-lite-chat-q4_K_M单项风险占比最低为0.41%。 【注】公共安全风险类型描述:涉及维护社会公共秩序和人民群众生命财产安全的内容,涵盖扰乱社会秩序、传播暴力恐怖、淫秽色情、迷信邪教、致幻毒品、赌博电诈、涉黑涉恶、教唆犯罪及其他危害社会安全的行为。 大模型安全风险类型(四)网络安全 风险类型情况分析:网络安全 从网络安全风险类型来看,测试策略数量为111个,其中yi:6b、yi-1.5:6b、glm4:9b-chat-q4_K_M在该风险类型中风险数量最多,yi:6b单项风险占比最高为32.43%,llama3.1:latest单项风险占比最低为1.81%。 大模型安全风险类型(五)不良信息 风险类型情况分析:不良信息 从不良信息风险类型来看,测试策略数量为199个,其中aya:8b、mistral、mistral:7b-instruct在该风险类型中风险数量最多,aya:8b单项风险占比最高为28.14%,internlm2:7b单项风险占比最低为3.01%。 【注】不良信息风险类型描述:涉及影响网络生态环境健康的内容,传播虚假信息、炒作绯闻、灌输低俗文化、性暗示及血腥恐怖等可能影响社会道德和未成年人健康发展的内容。 大模型安全风险类型(六)道德伦理 风险类型情况分析:道德伦理 从道德伦理风险类型来看,测试策略数量为504个,其中falcon、mistral:7b-instruct、llama3.1:latest在该风险类型中风险数量最多,falcon单项风险占比最高为21.23%,internlm2:7b单项风险占比最低为1.78%。 大模型安全风险类型(七)隐私信息 风险类型情况分析:隐私信息 从隐私信息风险类型来看,测试策略数量为137个,其中aya:8b、yi-1.5:6b、mistral、mistral:7b-instruct在该风险类型中风险数量最多,aya:8b单项风险占比最高为12.4%,gemma2:9b-instruct-q4_K_M单项风险占比最低为1.45%。 【注】隐私信息风险类型描述:涉及个人隐私信息及企业、政府的机密信息,防止未经授权泄露或滥用敏感信息,可能对个人、企业或国家安全造成影响。 大模型安全风险类型(八)商业金融 风险类型情况分析:商业金融 从商业金融风险类型来看,测试策略数量为85个,其中yi:6b、yi-1.5:6b、falcon在该风险类型中风险数量最多,yi:6b单项风险占比最高为14.12%,qwen2.5:7b、internlm2:7b和glm4:9b-chat-q4_K_M未出现该风险。 大模型安全风险类型(九)公民权利 风险类型情况分析:公民权利 从公民权利风险类型来看,测试策略数量为89个,其中yi:6b、yi-1.5:6b、falcon在该风险类型中风险数量最多,yi:6b和yi-1.5:6b单项风险占比最高为21.34%,qwen:7b、qwen2:7b和qwen2.5:7b等6个开源大模型未出现该风险。 大模型安全风险类型(十)医疗卫生 风险类型情况分析:医疗卫生 从医疗卫生风险类型来看,测试策略数量为70个,其中aya:8b、falcon、llama3.1:latest在该风险类型中风险数量最多,aya:8b和falcon单项风险占比最高为10%,deepseek-llm:7b和deepseek-v2:16b-lite-chat-q4_K_M等5个开源大模型未出现该风险。 大模型安全风险类型(十一)模型滥用 风险类型情况分析:模型滥用 从模型滥用风险类型来看,测试策略数量为70个,其中deepseek-v2:16b-lite-chat-q4_K_M、falcon、llama3.1:latest在该风险类型中风险数量最多,deepseek-v2:16b-lite-chat-q4_K_M、llama3.1:latest和falcon单项风险占比最高为2.85%,qwen:7b、qwen2:7b和qwen2.5:7b等9个开源大模型未出现该风险。 【注】模型滥用风险类型描述:涉及人工智能模型生成内容的安全性,防止生成不符合实际、违背常识或可能被滥用的内容,确保生成结果的可靠性和准确性。 大模型安全风险类型(十二)基础安全 风险类型情况分析:基础安全 从基础安全风险类型来看,测试策略数量为20个,其中llama3.1:latest和mistral:7b-instruct在该风险类型中风险数量最多,llama3.1:latest和mistral:7b-instruct单项风险占比最高为10%,qwen:7b、qwen2.5:7b和deepseek-v2:16b-lite-chat-q4_K_M等9个开源大模型未出现该风险。 测评总结 开源大模型安全现状总结 从大模型安全风险等级来看,国外开源大模型安全风险比国内开源大模型等级高,全球人工智能安全治理工作迫在眉睫。 从大模型安全风险类型来看,从国内外开源大模型在公共安全、道德伦理、不良信息和网络安全风险类型测试不通过率高。 从大模型安全检测方式来看,国内外开源大模型抵御特殊构造指令攻击方式能力不足,模型容易被误导,导致输出有害内容。 总体上,国内外开源大模型存在一定安全风险,内容安全防护能力较为薄弱,安全研究投入占比少。 大模型安全建议 在行业自律方面,建议制定人工智能安全伦理准则,确保大模型的开发和应用符合伦理道德标准,维护国家安全,尊重公民权利,捍卫公平正义。 AIForGood 在AI厂商方面,建议加大人工智能大模型安全研究投入,采用综合的安全策略,结合多种新兴技术手段来防御各类型变种攻击,提升人工智能大模型的内生安全能力。 在产业应用方面,建议重点行业重点领域部署和应用人工智能大模型时,严格审核人工智能大模型的内容安全、模型安全、供应链安全和系统安全风险,严防人工智能大模型产生安全风险。 结束语 中国软件评测中心(工业和信息化部软件与集成电路促进中心)安全事业部联合数据安全关键技术与产业应用评价工业和信息化部重点实验室、中国计算机行业协会数据安全专业委员会围绕人工智能安全,开展政府专项课题、产品技术、标准制定、测评认证、行业应用、产业发展、赛事培训、监管政策及国际交流等前沿研究。目前,已有20余家生态合作伙伴,欢迎产业各界加入人工智能大模型安全生态圈! 联系人:李老师电话:18210596754邮箱:lizecun@cstc.org.cn www.china-ds.org.cn