行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

人工智能安全风险测评（2025 年）

信息技术 2025-12-08 - 中国信息安全测评中心杨春

人工智能发展与安全

发展态势：高速迭代演进

生成式人工智能技术发展提速：模型架构从密集架构转向稀疏专家混合模型，参数规模突破万亿大关；算力竞争加剧，基础设施加速建设；多模态能力与上下文处理突破，感知极限；推理能力与逻辑思维达到质的飞跃。
生成式人工智能产业创新加快：产业形态从单一工具向生态系统演进；产业投资加速资源整合；产业生态网络化拓展。
生成式人工智能应用范围拓展：科研效能持续攀升；企业赋能效应凸显；交互方式运用日新月异。

安全治理：全球高度重视

联合国：推动包容性治理，搭建制度框架，弥合发展鸿沟。
中国：统筹发展与安全，完善制度规范框架，夯实风险测评根基，构建标准体系。
美国：推行“宽松”治理，支持行业自律，重视制度导引，构建生态体系。
欧盟：强调分级管理和风险防范，推动集中治理，注重法制建设，突出分级管理。
英国：设计柔性监管的创新路径，强调行业主导原则，强化跨机构协作。
新加坡：规划问责导向的实用主义治理，坚持“软法”与“硬法”结合。

风险测评：重要保障手段

国际测评实践：呈现“技术专项化、合规场景化”特征，可分为公共机构测评平台、厂商测评平台、红队攻防评测工具集等三类。
公共机构测评平台：如美国的Dioptra、英国的Inspect、新加坡的Moonshot。
厂商测评平台：如Microsoft Azure AI、Google Cloud Vertex AI、Amazon Bedrock。
红队攻防评测工具集：如PyRIT、Garak、DeepTeam、Promptfoo、ViolentUTF。

人工智能安全风险

风险特征：动态性、对抗性、系统性。
风险框架：全景式、全链路，贯穿“系统规划与设计、数据采集与处理、模型训练与构建、模型验证与确认、平台部署与集成、系统运行与监测、用户使用与影响”七个生命周期阶段，对应覆盖“应用环境、数据和输入、人工智能模型、任务和输出、人类社会”五大关键维度。
风险趋势：从“单一”到“多模态”、从“黑盒”到“白盒”、从“虚拟”到“现实”、从“生成器”到“执行者”。

人工智能安全风险测评体系

测评目的：锚定“安全性、可靠性、可控性、公平性”四大核心目标，细化为六大维度。
测评内容：覆盖技术安全、内容安全、伦理安全、供应链安全等维度，聚焦供应链、数据、模型自身、价值观与伦理对齐、运行态系统五大安全风险测评重点。
测评方法：多元化技术路径，融合规则化、对抗性、量化分析、场景仿真、智能自适应及形式化验证等方法。
测评对象：系统全栈分层，包括设施层、数据层、模型层、应用层。
测评度量：风险等级划分，构建“多层级测评指标体系”，将风险映射至红、橙、黄、绿四级风险区间。

人工智能安全风险测评关键技术

输入层测试：针对用户输入与外部数据，包括越狱测试、提示词注入测试、提示词泄露测试、对抗样本测试等。
训练层测试：针对模型训练过程，包括数据投毒、后门攻击等。
模型层测试：针对模型本身，包括模型窃取、模型文件篡改与后门植入等。
输出层测试：针对模型输出与决策，包括输出操纵、数据提取与推断测试、幻觉检测与评估等。
部署层测试：针对系统部署与交互，包括组件供应链测试、API滥用与护栏绕过、MCP协议测试等。

人工智能安全风险测评展望

发展趋势：自动化测评、全生命周期融合、跨模态测评。
测评标准：推动国际测评标准的构建与兼容，构建产学研协同的测评生态体系。
应对挑战：测评技术滞后于人工智能技术发展、复杂系统的黑箱特性、跨领域融合导致风险传导复杂。

——白皮书—— 2025年12月前言当前，全球人工智能迅速发展，已经成为引领新一轮科技革命和产业变革的战略力量，以前所未有的广度与深度重塑社会生产生活方式，为高质量发展注入新的动能。与此同时，人工智能广泛应用带来前所未有的安全挑战，潜藏多重复杂的威胁风险。世界各国和地区组织高度重视人工智能安全，围绕加强人工智能安全与监管，纷纷采取多样性、差异化的管理措施，竞争人工智能发展和治理主动权。我国2023年提出《全球人工智能治理倡议》，明确“坚持发展和安全并重的原则，构建开放、公正、有效的治理机制”，“推动建立风险等级测试评估体系”“打造可审核、可监督、可追溯、可信赖的人工智能技术”；2025年发布《关于深入实施“人工智能+”行动的意见》，要求“提升安全能力水平”“推动人工智能应用合规、透明、可信赖”“建立健全人工智能技术监测、风险预警、应急响应体系”“加快形成动态敏捷、多元协同的人工智能治理格局。” 《人工智能安全风险测评（2025年）》白皮书结合国内人工智能领域战略规划、政策法规、标准体系等基础，探讨人工智能安全风险测试评估的实施路线，推动人工智能产业形成“测评—反馈—迭代”安全闭环，促进人工智能技术实现“安全可控”与“创新发展”动态平衡，服务人工智能发展与监管。在内容安排方面，白皮书围绕“为何测（Why）”的核心目标，通过总结分析梳理，推动“安全性、可靠性、可控性、公平性”及“可审核、可监督、可追溯、可信赖”等治理要求转化为可落地的人工智能安全风险工作流程；解析人工智能安全风险分析框架，绘制“测什么（What）”的核心内容蓝图，立足人工智能全生命周期与五大关键维度的全链路视角，呈现各环节风险定位、攻击技术路径与安全特征，厘清测评的全域覆盖边界与范畴；构建人工智能安全风险测评体系，梳理“怎么测（How）”的系统性方法体系，依托“目标设定—内容实施—方法技术—对象覆盖—风险度量—持续优化”的反馈控制逻辑，实现从目标设定、实施执行到风险量化的全流程闭环管理；制作人工智能安全风险全景图，细化“测哪些（Details）”的支撑，对具体风险场景、攻击手段、影响层级等进行精准拆解与具象化呈现，为人工智能安全风险测评实施提供可用的操作指引。在结构安排方面，白皮书共五章。第一章人工智能发展与安全，概述人工智能当前发展态势，梳理国际人工智能安全风险测评相关方法、技术、工具与平台；第二章人工智能安全风险，分析人工智能安全风险特征，提出安全风险分析框架，探讨人工智能风险演进趋势；第三章人工智能安全风险测评体系，从测评目的、内容、方法、对象和度量等方面进行论述；第四章人工智能安全风险测评关键技术，从不同层面归纳总结相关测评技术；第五章人工智能安全风险展望，从技术发展、标准建设、挑战应对等方面，展望未来。白皮书聚焦以大语言模型（Large Language Model，简称LLM）为核心的人工智能系统，主要针对大语言模型和基于大语言模型的复合系统，力图贯穿人工智能系统全生命周期，包括系统规划与设计、数据采集与处理、模型训练与构建、模型验证与确认、平台部署与集成、系统运行与监测、用户使用与影响等。希望为政府管理部门、企业厂商、测评机构、科研院所、社会用户等各方读者提供不同角度的参考。白皮书参编单位包括：中国信息安全测评中心、北京奇虎科技有限公司、北京中测安华科技有限公司、北京智谱华章科技股份有限公司、合肥讯飞数码科技有限公司、中国科学院自动化研究所、中国科学院信息工程研究所、智能算法安全全国重点实验室（中国科学院计算技术研究所）、永信至诚科技集团股份有限公司、中移九天人工智能科技（北京）有限公司、中电信人工智能科技（北京）有限公司、深信服科技股份有限公司、启元实验室、《中国信息安全》杂志社等。参与指导、编写、审核等工作的人员有（按姓氏笔画排序）：于洋、山世光、王可臻、王笑尘、王梦月、尹芷仪、石竑松、叶润国、冯俊兰、乔文斌、刘昭、刘彦钊、刘总真、刘洪梅、刘斌、江常青、许敏强、苏度、杜文越、李学龙、李珂稷、李贺鑫、李朔宁、李维杰、李寒雨、杨光、杨竞、吴建英、邹权臣、闵越聪、张玉洁、张向征、张杰、张凯、张涛、张萧丹、张德岳、陈俊、范宇飞、岳远哲、赵彦武、胡超群、胡斌、郗冉冉、姚轶崭、桂畅旎、徐源、桑甲存、梁确伟、彭涛、彭勃、彭勇、董晶、韩学玉、景少玲、程学旗、程军豪、蔡晶晶、熊菲。鉴于人工智能及安全问题的复杂性、动态性、前沿性，白皮书中难免存在诸多不足，望读者理解包容、提出改进意见，共同推动我国人工智能安全风险测评体系高质量发展。目录前言................................................................................................. 1 第一章人工智能发展与安全.........................................................1一、发展态势：高速迭代演进................................................. 1二、安全治理：全球高度重视................................................. 4三、风险测评：重要保障手段............................................... 11 第二章人工智能安全风险........................................................... 22一、风险特征：多维复杂....................................................... 22二、风险框架：全景视图....................................................... 24三、风险趋势：快速演进....................................................... 29 第三章人工智能安全风险测评体系...........................................35一、测评目的：多维度安全目标........................................... 36二、测评内容：全领域安全覆盖........................................... 40三、测评方法：多元化技术路径........................................... 50四、测评对象：系统全栈分层............................................... 58五、测评度量：风险等级划分............................................... 62 第四章人工智能安全风险测评关键技术...................................67 一、输入层测试：针对用户输入与外部数据....................... 68二、训练层测试：针对模型训练过程................................... 75三、模型层测试：针对模型本身........................................... 78四、输出层测试：针对模型输出与决策............................... 80五、部署层测试：针对系统部署与交互............................... 84 第五章人工智能安全风险测评展望...........................................87一、发展趋势：目标驱动....................................................... 87二、测评标准：协同共建....................................................... 89三、应对挑战：问题导向....................................................... 91 参考文献......................................................................................... 93学术论文....................................................................................93国内标准..................................................................................102国际标准..................................................................................104 第一章人工智能发展与安全人工智能是引领新一轮科技革命和产业变革的战略性技术。人工智能技术的迅速发展和深入应用，正从多个方面重塑社会生产生活，成为世界重要国家竞争的战略领域。同时，人工智能安全问题引发全球关注，各国政府明确从管理和技术等多个层面加强人工智能安全治理，提升人工智能安全保障能力和水平。一、发展态势：高速迭代演进 2022 年以来,生成式人工智能技术迅猛发展，赋能千行百业，为经济社会发展注入新动力。（一）生成式人工智能技术发展提速生成式人工智能技术在模型架构、训练方法和多模态能力等方面取得显著进展，奠定全面赋能经济社会发展的技术基础。底层技术支撑实现持续演进。算法层面，生成式人工智能的模型架构完成从传统密集架构向稀疏专家混合模型的根本性转变，参数规模突破万亿大关。DeepSeek-V3.1 采用先进的混合专家架构，以 560 万美元的成本成功训练了包含 6850 亿参数的巨型模型，有效实现训练技术与成本效率的飞速提升。通义千问 Qwen3-Max 模型已突破万亿级参数规模，采用先进的混合专家架构，在多项基准测试中展现出与全球顶尖模型相媲美的性能，标志着国产大模型正式迈入万亿参数时代。算力层面，全球人工智能基础设施竞争日趋激烈化，美国启动“星际之门”、欧盟发布 Invest AI 计划等“大项目”带动全球人工智能基建进程加速。英伟达凭借 CUDA 生态占据主导地位，华为昇腾、寒武纪等国产芯片正通过架构创新逐步缩小差距。多模态能力与上下文处理突破感知极限。多模态技术从简单模态融合向深度语义理解演进，以 GPT、Grok、文心一言、通义千问为代表的前沿大模型在多模态理解、复杂推理和工具调用等方面的能力显著提升。再如，谷歌 Gemini 系列模型支持文本、图像、音频和视频的联合理解，创新的跨模态注意力机制能够捕捉不同模态间的深层语义关联。推理能力与逻辑思维达到质的飞跃。生成式人工智能的推理能力从模式匹配向逻辑推理演进，能够综合考虑多个变量和约束条件，快速定位关键信息，进行复杂的定理证明和科学假设验证。DeepSeek-R1 通过监督微调学习推理格式，使模型掌握数学证明的逻辑链条，提升推理深度和推断能力。微软 AutoGen架构通过多智能体协作架构，实现不同专业特长的智能体分工合作，取得群体推理能力突破。（二）生成式人工智能产业创新加快 “人工智能+”驱动智能产业新业态新模式的涌现，进一步丰富产业内涵，拓宽产业边界。产业形态持续创新升级。从单一工具向生态系统演进：生成式人工智能深度嵌入基础软件，依托系统级智能体架构，实现跨应用的任务执行和

点击免费查看完整报告

人工智能安全风险测评（2025 年）

人工智能发展与安全

发展态势：高速迭代演进

安全治理：全球高度重视

风险测评：重要保障手段

人工智能安全风险

人工智能安全风险测评体系

人工智能安全风险测评关键技术

人工智能安全风险测评展望

你可能感兴趣

2025人工智能网络安全基准报告：大型组织AI安全挑战应对策略

工业和信息化领域人工智能安全治理标准体系建设指南（2025）

2025为人类共同福祉构建全球人工智能安全与治理体系报告

人工智能安全治理白皮书（2025）

2025年中国人工智能安全状况报告

GB/T45674—2025 网络安全技术生成式人工智能数据标注安全规范

2025智慧城市低空应用人工智能安全白皮书

金融人工智能发展与安全白皮书（2025）

人工智能安全风险及治理研究

人工智能伦理安全风险防范指引

人工智能安全风险测评（2025 年）

你可能感兴趣

2025人工智能网络安全基准报告：大型组织AI安全挑战应对策略

工业和信息化领域人工智能安全治理标准体系建设指南（2025）

2025为人类共同福祉构建全球人工智能安全与治理体系报告

人工智能安全治理白皮书（2025）

2025年中国人工智能安全状况报告

GB/T45674—2025 网络安全技术 生成式人工智能数据标注安全规范

2025智慧城市低空应用人工智能安全白皮书

金融人工智能发展与安全 白皮书（2025）

人工智能安全风险及治理研究

人工智能伦理安全风险防范指引

GB/T45674—2025 网络安全技术生成式人工智能数据标注安全规范

金融人工智能发展与安全白皮书（2025）