您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[360]:大模型安全白皮书 - 发现报告

大模型安全白皮书

信息技术2025-11-08360杨***
AI智能总结
查看更多
大模型安全白皮书

安全·向善·可信·可控 外筑内固,构建大模型安全全链路防护体系 本白皮书系统性地论证了大模型安全正经历从传统网络边界防御到原生、全栈、智能动态防御的范式转移,并提出“外筑"以模治模"动态屏障,内固"平台原生"安全底座”的核心理念,覆盖“安全、向善、可信、可控”四大支柱的全景安全框架,构建智能时代的核心免疫系统。 据IDC预测,到2030年,人工智能将为全球带来22.3万亿美元经济收入,大模型正驱动百行千业智能化变革,而开源大模型在性能提升、部署成本降低的推动下,加速向政务、金融、能源等重点行业落地,安全风险也随之渗透到全生命周期:从模型层的提示注入、越狱攻击,到数据层的敏感信息泄露,再到应用层的智能体越权,任何一处漏洞都可能威胁个人、企业国家的财产安全,甚至是生命安全。清晰的网络安全边界正不断消融、趋于模糊,并延伸至大模型的全链路安全,传统基于规则和特征匹配的防御体系已然失效。 1. 风险之变:从边界防御到全栈免疫 大模型安全风险是系统性、全栈式的。它贯穿基础设施、模型层、数据层、智能体层及用户端五大层次,具体表现为算力劫持、供应链投毒、内容越狱、模型幻觉、知识污染、隐私泄露、行为失控以及工具滥用等诸多方面,共同构成了一个传统安全方案无法应对的复杂威胁立体空间。 我们正在从传统的“网络安全”时代,迈入以“大模型安全”为核心挑战的新阶段。当前威胁呈现指数级演化态势:一方面,攻击面急剧扩大,针对算力基础设施的劫持、供应链中的恶意模型文件、以及利用LangChain等框架漏洞的新型攻击,表明风险已深度嵌入技术底座。另一方面,攻击主体高度“平民化”,自然语言取代专业代码成为攻击武器,提示注入、越狱攻击让“全民黑客”从概念走向现实,极大降低了网络犯罪门槛。与此同时,模型固有的“幻觉”问题、智能体在工具调用中的越权风险、以及数据泄露与知识污染,共同构成了一个多维、动态、交织的复杂威胁矩阵。 2. 攻击之变:从专业黑客到全民黑客 攻击技术持续向高端化演进,例如针对框架和基础设施的深度利用;与此同时,攻击主体则日趋平民化,“自然语言黑客” 的出现极大降低了攻击门槛。这导致攻防不对称性加剧,必须发展出同等智能、动态感知的防御体系。 3. 治理之智:中国特色的“发展与安全”平衡术 面对这一全球性挑战,中国开创了“发展与安全并重”的敏捷治理之路,以《生成式人工智能服务管理暂行办法》为代表的“包容审慎、分类分级”原则,为技术创新与风险防控提供了动态平衡的框架。 中国的治理模式采用“发展与安全并重”的动态平衡策略。通过“包容审慎、分类分级”的监管框架,既划定安全底线,又为技术快速迭代预留了弹性空间,为产业创新提供了关键的政策窗口期。 在此背景下,360主张:必须采用以AI对抗AI、原生融合安全的新范式来应对大模型时代的安全挑战。我们提出“外筑‘以模治模’动态屏障,内固‘平台原生’安全底座的核心理念,将安全能力内嵌于大模型的构建、训练、部署与运营的全过程。通过构建一个纵深防御、动态演化的全景框架,从基础设施安全、内容与价值对齐、幻觉缓解到智能体行为管控,实 现 从 “ 网络 安全”到“大模型安全”的范式升维,为人工智能时代提供一个“安全、向善、可信、可控”的底座。 4. 应对之道:以模治模+平台原生安全 360提出的“以模治模+平台原生安全”是应对新范式的技术必然。它通过专用安全大模型,例如风险检测、幻觉纠正与红蓝对抗模型,对抗通用大模型风险,它既具备“外挂式”插件的灵活快速,又兼具“原生式”的深度安全能力,实现了双向赋能的协同防御,构筑起从模型、数据、内容到行为的全链路深度防护体系。 5. 生存之道:开放共生,生态共治 大模型安全的复杂性、全局性,决定了仅靠单一力量的技术或资源难以实现全链路、全场景的大模型安全治理。必须通过标准共建、产学研协同——例如开源安全模型、共建联合平台,以及组建产业联盟等形式,汇聚各方力量,共同打造智能时代可信、向善的安全基底。这既是产业发展的必然要求,也是国家层面的战略需求。 6.反馈与联络 法律声明 如您发现本文档存在任何错误、疑问或可能的侵权内容,请通过官方指定渠道与我们联系:service-tech@360.cn 三六零数字安全科技集团有限公司(或称“360”)提醒您在阅读或使用本文档之前,仔细阅读、充分理解本法律声明的全部内容。您对本文档的任何阅读或使用行为,即视为您已认可并同意接受本声明的全部约束。 1.文档获取与使用 您应通过360官方指定网站或360授权的其他正式渠道下载、获取本文档。本文档仅可为自身合法、合规的非商业性活动之目的而使用。 2.知识产权 未经360事先书面许可,任何单位或个人不得擅自对本文档的任何内容(包括但不限于文字、图表、数据、架构设计)进行包括但不限于篡改、翻译、复制、发行、或以其他任何形式传播。本文档所涉及的所有内容,包括但不限于商标、专利、著作权、商业秘密等知识产权,均归360或其关联公司依法所有。 360保留本文档中未明确列明的所有权利。 3.文档更新 鉴于技术、产品、法律与政策的持续演进,360保留在不事先通知的情况下,对本文档内容进行更新、修订或替换的权利。 4.免责声明 本文档仅作为技术参考与指引提供,所有内容按“现状”、“包含可能缺陷”及“当前功能”状态呈现。尽管360已力求文档内容的准确性与可靠性,但不对其准确性、完整性、适用性、及时性作任何明示或默示的保证。任何单位或个人因依赖或使用本文档而直接或间接遭受的任何损失(包括但不限于数据、收入、商誉损失),360及关联方均不承担法律责任。 本文档内容仅供参考,不构成法律、政策建议;不构成投资、商业决策依据;本文档引用的数据和观点不代表360立场;360不对引用资料的准确性、完整性承担保证责任。 5.遵守法律 您在使用本文档及其中所述技术时,应严格遵守《网络安全法》、《数据安全法》、《个人信息保护法》及生成式人工智能相关法规等中华人民共和国法律法规,并承担因使用不当所引发的一切法律责任。 范式迁移:从网络安全到大模型安全的时代挑战 360解决方案:可全链路的安全防护 大模型安全威胁全景透视 生态共治:构建可信AI生态 源于实战:大模型安全的应对新思路 目录 360解决方案:可全链路的安全防护 范式迁移:从网络安全到大模型安全的时代挑战 4.1.1 大模型卫士算力主机安全系统4.1.2 大模型卫士检测系统4.1.3 大模型卫士防护系统4.1.4 大模型幻觉检测与缓解系统33353739 1.1安全升维:安全边界从网络扩展到模型全栈11 1.2 挑战交织:技术、数据与国际化构成安全核心阵地12 1.3 治理路径:中国走出发展与安全并重的敏捷治理之路 4.2 平台原生安全41 4.2.1 企业级知识库43 大模型安全威胁全景透视 4.2.2 智能体构建与运营平台45 2.1大模型安全呈多维复杂态势,挑战超越传统安全边界17 生态共治:构建可信大模型生态 2.2 大模型基础设施层风险:算力与框架的“地基”隐患18 2.3 大模型内容风险:大模型的失控与越轨19 2.4 大模型数据与知识库风险:知识“源泉”的污染与泄露20 5.1 生态力量:以标准共建与产业联盟夯实安全基础53 2.5 智能体行为风险:失控的“数字员工”21 5.2 联合实践:通过产学研协同将安全融入技术生命周期 54 5.3 未来倡议:携手监管、产业与用户共建可信大模型生态55 2.6 用户端与入口风险:最后一道防线的失守22 源于实战: 大模型安全的应对新思路 3.1核心理念:外筑“以模治模”动态屏障,内固“平台原生”安全底座25 3.2 能力落地:通过安全、向善、可信、可控四大原则实现闭环27 3.3 架构革新:“外挂式安全 + 平台原生安全”的双轨安全防护体系29 01范式迁移:从网络安全到大模型安全的时代挑战 1.1 安全升维:安全边界从网络扩展到模型全栈 1.2 挑战交织:技术、数据与国际化构成安全核心阵地 - 攻击面扩大:大模型安全漏洞呈指数级增长,智能体成为新的攻击对象 中国在人工智能领域发展迅猛,但在技术、数据、国际化等多维度仍面临严峻挑战,这些挑战相互交织,构成了大模型安全发展的核心困境。 “人工智能+千行百业”将带动新一轮工业革命,为高质量发展注入强大动能,引领人类社 会进入智能化时代,为生产、生活方式带来巨大变革。大模型作为目前人工智能技术的核心引擎和技术底座,重塑着各行业的应用生态,其安全内涵已发生根本性转变。我们正在经历一场从传统“网络安全”向新型“大模型安全”的范式迁移。据ISC.AI 2025大会披露的数据,“大模型安全漏洞呈指数级增长”已成为现实。2025年9月16日,第22届中国网络安全年会暨国家网络安全宣传周网络安全协同防御分论坛活动中,国家计算机网络 应 急 技 术处理协调中心发布了国内首次针对AI大模型的 实 网 众 测 检 验 结 果 , 累 计 发 现 各 类 安 全 漏 洞281个,其中大模型特有漏洞177个,占比超过60%。这充分表明,当前AI大模型产品面临着大 量 传 统安全领域之外的新安全风险。针对大模型的新型攻击手段层出不穷。已从技术层面的单一威胁演变为系统性风险,包括提示注入攻击、敏感信息泄露、供应链组件风险、模型中毒攻击、模型拒绝服务等多样化攻击。 - 安全维度上 人工智能为网络攻击提供了新型渗透载体和手段,大模型本身成为"双刃剑"—既可作为防御工具,也可能被恶意利用为攻击平台。大模型需应对提示注入、模型越狱、RAG篡改等新型攻击手段,而AI技术大幅降低了网络攻击门槛,使"全民黑客"时代加速到来,传统安全防御体系难以应对AI大模型增强的规模化、自动化攻击。 - 数据维度上 人工智能进一步加大了维护数据安全和保护个人信息的难度,大模型训练需要海量数据但面临合规采集困境,模型可能无意泄露训练数据中的敏感信息,内容安全过滤难度显著增加,同时需平衡《网络安全法》、《数据安全法》、《个人信息保护法》等法规要求与技术创新需求。 - 攻击者平民化:“全民黑客”时代来临,传统防御体系失效 当前,攻击者从专业黑客变为全民黑客,攻击主体的开始趋向平民化,以往需要精通机器语言的专业黑客,如今只需通过自然语言指令即可让大模型自动生成攻击代码、设计钓鱼邮件、实施社会工程学攻击。另一方面,企业为了实现大模 型 和 智 能 体 能 够 真 正结合 实 践 生产,往往需要将企业的数据知识训练到大模型、知识库中,而用户或员工仅需要“套话”的方式就能将企业核心数据套走。360集团创始人周鸿祎曾指出,“如今,从前台小文秘也能欺诈后台大模型”,普通人无需技术背景,仅凭简单的提示词就能发动专业级攻击,真正 实 现 了“有手就行”的攻击平民化。这种“全民黑客”现象正使网络犯罪从技术壁垒走向大众化、产业化,给安全防御带来前所未有的挑战。大模型幻觉问题严重影响生成内容可靠性。由于大模型固有的技术特性带来的忠实性和事实性模型幻觉问题,会侵蚀生成内容可靠性基石,进而引发决策失误、信任危机并阻碍其在关键领域的深度应用。智能体安全风险进一步放大了威胁范围。涵盖了从底层模型到高层行为的多个维度,主要包括记忆篡改、提示词注入、敏感数据泄露、Agent越权与失控风险、工具调用风险,以及智能体仿冒、中间人劫持等多智能体风险,这些风险相互交织,形成了传统安全体系难以应对的复杂威胁矩阵。 - 技术维度上 人工智能为发达国家实施技术封锁提供了新机会,高端AI芯片受限、基础模型架构受限、开源生态受阻等问题凸显,中国大模型在算力资源、核心算法、训练数据等方面面临"卡脖子"风险。 - 国际化维度上 中国大模型出海需同时满足国内法规要求与目标市场监管环境,既要符合我国"安全与发展并重"的治理原则,又要适应欧盟GDPR、美国出口管制等多元监管体系,面临"双合规"压力与市场准入壁垒。这些挑战相互交织,要求中国大模型产业