您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国科学院]:2024生成式大模型安全评估白皮书 - 发现报告

2024生成式大模型安全评估白皮书

2024-01-05Truong J B、 Maini P、 Walls R J、 Sha Z、 Zhang Y、 Wang B、 Xu C、 Wang S、 Nie Y、 Williams A、 Dinan E、 Zhu K、 Wang J、 Zhou J、 Shi J、 Liu Y、 Zhou P、 Li J、 Yang Y、 Wu Z、 Wang Y、 Xue D、 Zhang S、 Christian J、 Zhou W、 Wang X、 Xiong L、 Liang P、 Parrish A、 Chen A、 Na中国科学院睿***
AI智能总结
查看更多
2024生成式大模型安全评估白皮书

生成式大模型安全评估白皮书 前言 自2022年11月以来,以ChatGPT为代表的生成式大模型持续引发全球广泛关注。作为新一轮人工智能技术革命的代表性成果,生成式大模型的迅速发展,正在深刻重塑全球人工智能技术格局,为我国数字经济高质量发展和智能化转型注入新的动能。然而,随着技术应用的不断扩展,其潜在的安全风险逐渐凸显。诸如“大模型幻觉”、三星公司机密资料泄露等事件,反映了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题的出现,不仅对技术的安全性提出了更高要求,也对产业的规范发展和社会治理能力构成了严峻考验。 大模型安全白皮书参与人名单 联合编写 智能算法安全重点实验室(中国科学院)公安部第三研究所蚂蚁安全实验室 我国对此高度重视,出台了《生成式人工智能服务管理暂行办法》等一系列政策文件,明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术的健康发展提供了系统指引和政策保障。这些举措充分体现了我国在全球人工智能技术治理中秉持的前瞻性战略眼光和责任担当。 编写组组长 程学旗 ——智能算法安全重点实验室主任(中国科学院) 编写组成员 近期,OpenAI发布了更擅长处理复杂推理任务的o1和o3系列模型,标志着生成式大模型在复杂应用场景中的潜力进一步提升。然而,技术的快速迭代也对构建科学化、系统化的生成式大模型安全评估框架提出了迫切需求。构建这一框架,需要从技术性能、风险防控、合规性等多个维度明确评估指标体系,系统性降低潜在风险,为行业提供权威的技术指导。这不仅将促进生成式大模型技术向安全、可信、可持续的方向发展,也为全球人工智能技术治理提供了可借鉴的“中国方案”。 敖翔、尹芷仪、张曙光、王晓诗、李承奥、陈天宇、景少玲、张玉洁、张函玉、张晓敏智能算法安全重点实验室(中国科学院): 公安部第三研究所:盛小宝、王勇、江钦辉、曹思玮、刘晋名、文煜乾、刘佳磊、王光泽蚂蚁安全实验室:王维强、李俊奎、崔世文、许卓尔、孙传亮、郑亮、朱丛、周莉 版权声明 凡是在学术期刊、新闻发布稿、商业广告及其他文章中使用本报告文字、观点,请注明来源:《生成式大模型安全测评白皮书》。 为积极应对生成式大模型的安全挑战,智能算法安全重点实验室(中国科学院)、公安部第三研究所和蚂蚁安全实验室联合编写了2024年度《生成式大模型安全评估白皮书》。白皮书全面梳理了生成式大模型的发展现状与安全风险,从安全评估方法到实践案例,深入剖析了当前技术面临的关键挑战及应对策略,致力于为学术研究、产业实践和政策制定提供重要参考。希望通过这一系统性研究,助力生成式大模型安全性研究与应用推广,为构建安全、可信的人工智能生态体系提供坚实支撑,推动技术向着服务人类社会福祉的方向健康发展。 目录 (2)传播虚假信息(3)违反法律法规(4)缺乏安全预警机制293031 3.3 事实性评估62 一、生成式大模型发展现状01 4.1.6大模型系统安全评估实践96 3.3.1 事实性评估指标62 4.2 文生图大模型安全性评估 1.1生成式大语言模型02 (1)基于规则的评估指标(2)基于机器学习模型的评估指标(3)基于LLM的评估指标(4)人类评估指标63656667 3.3.2 事实性评估数据集68 4.2.1 Holistic Evaluation ofText-to-Image Models4.2.2 Unsafe Diffusion4.2.3 Harm Amplification inText-to-Image Models98100101 1.1.1 OpenAI GPT系列1.1.2 Meta LLaMA系列0208 2.2.2 隐私风险33 (1)侵犯用户隐私信息(2)泄露企业机密数据3335 1.1.3 国产生成式大语言模型10 (1)复旦大学:MOSS(2)百度:“文心一言”(3)智谱清言:ChatGLM(4)阿里云:“通义千问”(5)百川智能:百川大模型(6)科大讯飞:讯飞星火认知大模型(7)华为:盘古大模型(8)腾讯:混元大模型(9)月之暗面:Moonshot大模型(10)MiniMax:ABAB大模型11111212131314141515 2.2.3知识产权风险 36 (1)训练阶段存在知识产权风险(2)应用阶段存在知识产权风险(3)生成式大模型知识产权保护363738 3.4 隐私性评估71 4.3 多模态大模型安全性评估 4.3.1 T2VSafetyBench4.3.2 MLLMGUARD102103 (1)敏感查询(2)上下文泄漏(3)个人偏好泄露717272 2.3 技术安全风险39 五、大模型安全评估的展望105 2.3.1对抗样本攻击风险2.3.2后门攻击风险2.3.3 Prompt注入攻击风险2.3.4数据投毒风险2.3.5越狱攻击风险3940414242 5.1面向安全的大模型自主演进5.2大模型评估的衍生安全风险 (1)成员推断攻击(2)模型反演/数据重建攻击(3)属性推断攻击(4)模型提取/窃取攻击73767678 参考文献 1.2 文生图大模型16 三、生成式大模型的安全评估方法44 1.2.1 DALL-E系列1.2.2 Midjourney1.2.3文心一格1.3 多模态大模型1.3.1 Suno1.3.2 Sora1.3.3 CLIP1.3.4紫东太初1618181920202121 3.5 鲁棒性评估78 3.1 生成式大模型安全性评估维度45 3.5.1 对抗鲁棒性评估基准79 3.1.1 伦理性(1)偏见(2)毒性3.1.2 事实性3.1.3 隐私性3.1.4 鲁棒性454647484950 (1)对抗样本攻击(2)后门攻击(3)Prompt注入攻击(4)数据投毒3.5.2 分布外(OOD)鲁棒性评估基准3.5.3 大模型越狱攻击风险评估(1)越狱攻击分类(2)EasyJailbreak越狱攻击框架7980818383848586 二、生成式大模型的安全风险23 3.2 伦理性评估 53 3.2.1 偏见评估53 2.1 伦理风险23 (1)偏见评估指标1)基于嵌入的偏见评估指标2)基于概率的偏见评估指标3)基于大语言模型的偏见评估指标53545556 2.1.1加剧性别、种族偏见与歧视2.1.2传播意识形态,危害国家安全2.1.3学术与教育伦理风险2.1.4影响社会就业与人类价值23252627 四、大模型安全评估实践案例分析87 4.1 大语言模型安全性评估87 4.1.1 Holistic Evaluation of Language Models4.1.2 Trustworthy LLMs4.1.3 DecodingTrust4.1.4 SuperCLUE-Safety4.1.5支小宝安全实践8789929394 (2)偏见评估数据集56 2.2内容安全风险28 2.2.1可信与恶意使用风险(1)制造恶意软件2828 (1)毒性评估模型(2)毒性评估数据集5760 010101 生成式大模型发展现状生成式大模型发展现状生成式大模型发展现状 生成式大模型是指基于深度学习技术构建的具有海量参数和复杂结构的生成式模型(Brown et al., 2020)。生成式大模型不同于判别式模型直接对输入数据进行分类或预测,其能够通过学习数据的概率分布来生成新的数据,如文本、图像、音频等;同时,较大的参数量使生成式大模型具有更好的通用性、精度和效率。因此,生成式大模型通过在大型数据集上进行预训练学习,并在下游任务上进行微调的方式,在自然语言处理和计算机视觉等领域的复杂任务上表现出较高的性能和较强的泛化能力。 2022年11月30日,OpenAI开放测试AI驱动的聊天机器人ChatGPT,它是OpenAI基于GPT-3.5等前几代生成式预训练模型(GPT)架构,在增加参数量和数据量后训练得到的生成式对话系统。ChatGPT能够与用户进行自然而流畅的对话,并根据用户输入的对话内容提供有意义的回复。因为参数规模增加,ChatGPT的能力得到了飞跃式提升,其能够处理复杂的对话场景,理解上下文信息,并生成连贯、有逻辑的回复,同时支持多语言对话,并且可以根据用户输入的对话内容进行个性化回复。ChatGPT的推出标志着自然语言处理技术的一个重要里程碑,它的发布也引发了国内外生成式大模型的研发热潮。Google在2023年发布了PaLM 2模型,展示了在多语言理解和生成方面的突破。同年末,Meta发布了LLaMA 2模型,旨在提供更高效的多任务处理能力。OpenAI也在2023年发布了更为先进的GPT-4模型,进一步提升了对话和生成能力。在2023年,各大公司纷纷推出自研大模型,推动生成式AI在各类应用中广泛部署。其中,Anthropic推出以安全性为主打的大语言模型Claude,旨在提供更加可靠和安全的生成式AI解决方案;MidJourney发布第五代文生图模型,其对人类手部细节特征的描绘达到了前所未有的精度;Microsoft则推出了由GPT支持的Copilot,宣称是“地球上最强大的生产力工具”,通过集成GPT技术大幅提升办公和开发效率。到2024年,大模型技术进一步取得了显著进展。各大公司在已有基座模型的基础上持续扩展规模,迭代更新版本。同时,最新的研究重点逐步转向多模态大模型的开发,以及基于强化学习与人类反馈和偏好对齐等相关前沿技术的应用,旨在进一步提升大模型的泛化能力和多领域应用能力,也进一步增 强了大模型在生产生活中的实际应用价值。本白皮书将首先介绍国内外生成式大模型的发展历程,及其在人类生产生活中的应用。 生成式大语言模型1.1 生成式大语言模型以GPT系列和通义千问、文心一言等国产模型为代表,通过自然语言处理与深度学习技术,实现了从文本生成到复杂对话的全方位应用。这些模型广泛应用于翻译、写作辅助、知识问答等领域,不仅推动了语言智能技术的发展,也加速了其在商业和科研中的实践落地。 1.1.1 OpenAI GPT系列 从GPT-1到GPT-4o,再到后来的o1和o3,OpenAI的语言模型经历了显著的发展和演变。GPT-1引入了基于Transformer的生成预训练方法,通过大规模无监督学习和微调提高了特定任务的表现。GPT-2通过扩大模型规模和数据集,进一步强化了模型的多任务能力,尤其在 无监督学习中展现出优异的零样本学习能力。GPT-3和GPT-3.5则侧重于通过极大的模型规模和数据量提升泛化能力和任务适应性,引入了上下文学习和元学习技术,减少了对微调的依赖。InstructGPT模型则是GPT-3的变体,专注于根据人类反馈进行指令驱动的任务优化。GPT-4在多模态技术上取得突破,不仅在文本生成上性能更强,还新增了图像处理能力,同时通过改进对抗训练和优化生成策略,在安全性与可靠性方面大幅提升。基于GPT-4的GPT-4o则通过进一步优化算法和训练技巧,在专业领域表现更为卓越,尤其是在逻辑推理、复杂任务处理和响应速度方面均有显著改进。2024后半年发布的o1和o3将思维链技术引入模型训练,使其在复杂任务中展现出接近人类的推理能力。GPT系列生成式大语言模型的发展不仅推动了自然语言处理技术的前沿发展,也为实际应用提供了更强大、更灵活的工具。 GPT-1:2017年,Google提出了Transformer架构 (Vaswani et al., 2017),利用Atten-tion机制取代了传统深度学习中的卷积神经网络结构,在自然语言处理任务中取得了成功。2018年6月,OpenAI (Radford et al., 2018)提出了基于Transformer解码器改进的第一代生成式预训练(Generative Pre-Training, GPT)模型。GPT-1模型采用先预训练后微调的方式,在预训练过程中,GPT-1使用了多层T