您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [阿里巴巴]:阿里云百炼安全白皮书 - 发现报告

阿里云百炼安全白皮书

信息技术 2025-10-20 - 阿里巴巴 棋落
报告封面

编写组 编写单位 编写组主要成员 编写组组长 指导委员会 彭玉轩徐璐妮金宣成赵萱傅宏宇彭靖芷马宇诗张泽宇许晓东廖伟宋月冉 张荣黄昱恺刘煜堃阿里云智能集团通义安全负责人阿里云智能集团安全治理中台负责人阿里云智能集团安全保障研发负责人 郑俊芳钱磊阿里云智能集团首席战略官阿里巴巴集团 & 云智能集团安全部总裁 联系我们 responsibleAI@service.aliyun.com 特别鸣谢 于文渊徐栋欧阳欣陈宇宁牟立煜罗洪刚安琳杨斌赵天琦徐志远黄泽辉雷涛李娜杨露佳马昕吴铭王硕陆一鸣杨永穆文静杨杜卿彭忠泓聂云奕 目录 CHAPTER03 CHAPTER02 通义大模型:全生命周期安全合规 阿里云百炼安全解决方案与核心理念 大模型发展趋势、风险挑战与解决方案 阿里云AI基础设施:原生安全保障 1 风险现状及能力构建461.1 主要风险挑战461.2 核心能力构建46 1 模型商业落地加速,面临多样化的部16署与应用环境 1 安全解决方案:安全可信的 MaaS24 1AI 基础设施及其关键挑战:兼顾安全、30能力、效率 2MaaS 安全核心理念:客户数据主权、25负责任的 AI 与云原生安全保障 1.1 安全挑战:系统软件漏洞、资源滥用、供应链30攻击与隐私合规风险1.2 高可用性挑战:系统稳定性压力增加311.3 高性能瓶颈:算力利用率与异构协同问题凸显321.4 算力经济性失衡:资源碎片化与供需错位下的33成本与效率挑战 2 模型应用安全风险具有系统性与复杂17性,全生命周期的安全保障是模型应用落地的关键 2 全尺寸、全模态的模型供给48 2.1 全尺寸覆盖的弹性架构482.2 全模态融合的认知能力48 2.1 AI 基础设施风险:供应链漏洞、DDoS 攻击17与模型资产威胁 3 通义大模型全生命周期安全实践49 2 阿里云的企业级 AI 基础设施建设:34在高效的基础上更安全 3.1 研发安全:数据与算法根基防护,强化内生49安全能力3.2 部署安全:过程控制,构建防御屏障593.3 运行安全:上线监测,实现动态防护60 3 公共云和 MaaS 是兼顾性能、效率、20安全的最佳解决方案 2.1 云平台级别的全栈安全保障352.2 面向 AI 场景的安全防护372.3 从高性能到低成本的全面优化40 CHAPTER05 阿里云百炼:安全可信的MaaS 1 可信环境 - 机密计算971.1 安全能力概述971.2 阿里云机密计算产品98 1.1 产品形态变化681.2 MaaS 时代下的新型安全风险研判681.3 拥抱全球合规框架,构建可信 AI 基石70 4.1 当下的承诺:安全可信的五大基石904.2 未来的愿景:引领 MaaS 进入全链路机密91计算时代 2 阿里云百炼全链路安全能力框架72 2.1 基准值发布1002.2 开源审计1012.3 可重构建101 2.1 安全设计理念:纵深防御与原生集成722.2 核心:贯穿生命周期的数据安全与隐私保护732.3 扩展:支持客户弹性、灵活地应对外部攻击78 3阿里云百炼关键场景安全实践82 3.1 场景一:发布并调用一个线上模型推理服务823.2 场景二:使用私有数据微调一个专属模型853.3 场景三:构建并运行一个 AI Agent/MCP 应用88 1模型商业落地加速,面临多样化的部署与应用环境 2模型应用安全风险具有系统性与复杂性,全生命周期的安全保障是模型应用落地的关键 随着大模型的能力提升,其产业应用渗透加速。模型围绕用户场景构建应用生态,面临场景驱动的多样化部署需求。阿里云基于通义系列大模型,提供包括 API 服务、模型定制、工具链、应用构建等在内的全栈解决方案,真正将大模型能力嵌入业务流程,提供新质生产力,助力企业实现智能化升级。 从模型应用搭建到部署运行的架构视角,大模型服务所面临的安全挑战可分为:AI 基础设施层面的风险、大模型自身安全风险、模型应用服务模式中特有的风险。 2.1AI 基础设施风险:供应链漏洞、DDoS 攻击与模型资产威胁 AI 基础设施作为大模型服务正常运行的基础支撑,下述威胁直接影响大模型服务的稳定性、安全性和商业可持续性。 ● AI 供应链漏洞风险:AI 常用的训练与推理框架、平台软件中常存在公开的高危漏洞。若未及时修复,攻击者可借此入侵系统,控制训练环境或业务平台,导致数据泄露、服务中断,甚至影响关键社会领域,造成严重后果; ● 拒绝服务风险:AI 系统易受分布式拒绝服务(DDoS)攻击。攻击者通过海量恶意流量耗尽计算或网络资源,导致系统无法响应正常请求,引发服务中断。这不仅带来经济损失,还可能损害平台声誉与用户信任; ● 模型窃取与篡改风险:模型是企业核心技术和重要资产,凝聚大量研发成果与商业价值。一旦被窃取或篡改,可能导致知识产权流失、服务异常,并引发法律纠纷与品牌危机。 2.2 大模型风险:算法合规、内容安全、对抗攻击 取或模型污染等严重后果; ● 应用安全风险:MaaS 通常需要与后端系统(如 API 接口、数据库)进行交互。攻击者可通过提示词注入手段,将 MaaS 应用作为跳板,利用其合法身份向内部系统发起攻击,从而触发 SSRF、XSS、命令执行等传统安全漏洞; 大模型在技术原理上具有天然的局限性,面临全生命周期的风险挑战。 ● 算法合规风险:大模型全生命周期需要遵循明确的法规和技术标准要求,包括但不限于训练数据来源、数据预处理、数据标注、输出内容、内容标识等方面; ● 身份认证与权限管控:MaaS 需管理包括用户、AI 模型、智能体在内的多种身份,如何实现精细化授权与动态权限控制,以规避越权使用及滥用风险成为了一大难题。 ● 内容安全风险:由于训练数据的偏差和污染,以及模型生成机制的不完全可控,可能生成违法违规不良价值观的内容; ● 对抗攻击风险:攻击者可通过构造对抗样本或指令注入攻击,诱导模型生成错误的回答。 2.3 应用服务安全风险:算力消耗、供应链与隐私泄露 MaaS 平台在提供便捷服务的同时,也产生了特有的安全隐患。 ● 数据安全与隐私风险:攻击者可通过特定提示诱导模型泄露训练数据等商业秘密。此外,用户与模型之间的交互链路若未采取充分的安全保护措施,也可能导致数据外泄; ● 算力消耗风险:攻击者通过提交大量高复杂度请求,在不触发传统 DDoS 防护机制的前提下,耗尽 API 调用配额或计算资源,造成服务中断与成本激增; ● AI 供应链安全风险:MaaS 的构建依赖复杂的软件与模型供应链,任一环节(如基座模型、第三方库、数据集)存在安全隐患,都可能被传导至下游应用,引发数据窃 3公共云和 MaaS 是兼顾性能、效率、安全的最佳解决方案 公共云成为大模型发展和应用的优选路径。大模型的发展与应用所需要的条件与公共云的优势高度契合。公共云凭借强大的基建能力、高效灵活的资源利用和较低的成本、完备的安全保障体系,既能提供最先进、最安全的模型,也能够为用户使用模型提供全面保障,提供极具竞争力的解决方案。此外,AI 出海也正在成为企业出海新趋势,依托云服务广泛覆盖全球各节点的 AI 全栈能力支撑,“云 + AI”供应链协同出海使得模型应用得以突破地域限制,实现全球范围内的高效部署与优化,助力用户全球业务创新。 MaaS 成为模型服务的主流模式。MaaS 为企业提供开箱即用的 AI 能力,大幅降低了使用门槛,提升了部署效率,显著提升了业务敏捷性和创新能力。此外,MaaS 提供了 AI 基础设施层的算力调度、存储管理、网络传输等核心支撑能力,覆盖了模型训练、评测、部署、推理等全流程服务,从而满足不同行业对服务可用性的差异化需求。 安全解决方案:安全可信的 MaaS 2MaaS 安全核心理念:客户数据主权、负责任的 AI 与云原生安全保障 阿里云百炼以云原生为基础支撑,以大模型为核心驱动力,全面构建面向未来的MaaS 服务平台。通过依托阿里云云原生技术底座与通义大模型能力体系,实现了从模型训练、模型部署、推理服务到应用集成的全链路闭环,提供安全可信的一站式MaaS 服务。 2.1 客户数据主权:平台可靠、数据自主可控、链路可信、操作可审计 “保障客户数据安全”被阿里云列为最重要的事项。阿里云百炼提供云原生安全能力,确保云上数据可控、链路可信、操作可审计。 在技术层面上,通过云原生的安全防护体系和算法安全能力保障模型全生命周期和服务链路的安全可信;在用户体验上,提供标准化的 API 接口和完备的开发工具,显著提升开发者和企业的研发效率与集成便捷性;在价值创造上,提供全模态全尺寸全功能丰富的模型供给,加速实现大模型能力的普惠化应用,赋能全社会的数字化与智能化转型。 ● 客户数据主权:阿里云在数据安全保障上做出以下承诺,客户完全拥有自身数据控制权;未经授权,阿里云除执行客户的服务要求外不会访问、使用或移动客户数据。 ● 数据安全防护:云上提供各维度行业领先的安全能力,帮助客户提升数据安全水位。 阿里云百炼集成云原生安全设计,实现租户隔离、数据加密存储及传输、细粒度权限控制等能力,确保客户数据在整个生命周期内保持机密性和完整性。此外,阿里云百炼通过建设 CMaaS(Confidential MaaS)帮助客户解决“使用中”的数据保护问题,打造 AI 隐私保护信任新范式。 2.3 云原生安全保障:打造可靠 AI 基础设施 阿里云百炼以云原生安全设计、多层纵深防御为核心理念,构建起一套覆盖 AI 基础设施全安全体系。 ● 云平台级别的全栈安全保障:阿里云 AI 基础设施的研发流程中融入 DevSecOps与零信任架构,实现了产品全生命周期安全管理。结合高可用架构、容灾备份与红蓝对抗机制,保障系统在各类攻击与极端场景下的稳定与安全。 2.2负责任的 AI:安全、合规、向善、透明 在负责任的 AI 发展框架下,通义大模型紧密围绕 “合规遵循、安全可靠、伦理向善、可解释可溯源” 四大核心,结合国内法规要求与国际主流 AI 治理倡议,构建覆盖大模型全生命周期的服务治理体系,推动 AI 技术朝着更加可信、可控、可持续的方向发展。 ● 面向 AI 的安全防护:阿里云构建了 AI 运行环境、模型文件保护、与用户数据的安全保障能力,涵盖安全容器、模型加密、访问控制及传输存储加密等能力,结合机密计算技术,可支持实现 AI 系统的安全与隐私保护。 ● 合规遵循:严格遵循法规和国标,对训练数据执行信息化筛选与过滤,并通过技术手段构建围栏防护,防止模型被滥用或生成违法不良信息。 ● 安全可靠:全面落实国标要求,执行体系化安全评测;依托红蓝对抗持续提升模型鲁棒性,确保模型在面对恶意攻击时大模型能够保持正常运行并输出可靠结果。 ● 伦理向善:通过安全训练实现价值观对齐,并在生成内容中主动开展正向引导,在开放可控的环境中助力生产力提升与价值创造。 ● 可解释可溯源:采用 Thinking 模式增强推理过程透明化,提升模型可解释性,同时支持内容标识和溯源,建立明确的责任追溯机制。 户对平台的信任与采纳意愿。当前,云厂商在构建 AI 基础设施时应重点关注四类核心安全风险: 1AI 基础设施及其关键挑战:兼顾安全、能力、效率 人工智能(AI)技术的快速发展正深刻重塑各行各业,包括服务器、网络、存储及专用集成电路等,更催生了高能耗的 AI 基础设施。AI 基础设施依赖于一套复杂且高度集成的资源体系与平台技术,这一体系不仅涵盖以 GPU 为核心的高性能计算架构、大规模集群的高速互联网络和海量数据并发处理能力的存储系统,还包括一站式模型训练与推理平台、智能调度管理系统、GPU 容器化支持等关键技术组件。同时为了让部署运行的 AI 系统能安全稳定运行,配套的安全防护能力也不可或缺。这些技术和平台共同构成了支撑 A