
生成式AI安全白皮书 Volcano Engine GenerativeAlSecurityWhitePaper CONTENTS Volcano Engine GenerativeAlSecurityWhitePaper 01 序言 1.1产业轨迹与拐点:从模型到业务的全面跃迁1.2生成式AI安全的核心问题与现实挑战1.3火山引擎的AI安全主张:可信、可控、合规的AI云原生基座 02 生成式AI安全风险 2.1监管合规风险2.2数据隐私风险2.3生成式AI安全风险 03火山引擎生成式AI服务安全保障体系 3.1生成式AI浪潮下的安全责任3.2合规资质与认证3.3数据安全与隐私保护设计理念3.4生成式AI安全技术保障体系 04总结 4.1生成式AI行业安全展望4.2火山引擎致力于保障生成式AI安全 11.序言 Introduction 1.1产业轨迹与拐点:从模型到业务的全面跃迁 ■基础模型的能力边界快速拓展 从文本到图像、语音、视频的多模态表达,从“调用型”向“智能体化”工作流演进。模型不再是外置的试验工具,而是能够被嵌入到知识管理、研发协作、客服运营、风险控制等关键流程,形成可复用的“技能栈”。这种可工业化的能力,要求企业把模型服务、数据治理、权限体系、合规审计放到同一工程体系下统一管理,而不是零散的功能试点。 ■企业正从“单点试验”转向“平台化建设” 一方面,公有云与私有化部署需要在性能、合规、成本、可运维性之间找到动态平衡;另一方面,模型的选择从“追最新”转向“适配业务”,强调稳定性、可控性与治理可视。 1.2生成式A/安全的核心问题与现实挑战 模型层 数据层 从“可用”到“可信”的治理升级 对抗、失真与滥用的攻防拉锯 在模型层,提示词注入、越狱攻击、对抗样本与模型投毒带来输出失真与能力滥用的风险。安全不再依赖简单的“黑白名单”,而是由红队评测、威助建模、策略护栏、推理时检测与响应等机制协同构成的系统化治理方案。企业需要建立“上线即运营”的安全评测体系,形成从开发到部署的持续检测与反馈的完整链路。 训练与推理数据的污染、隐私泄露与越权访问,是生成式系统的核心风险源。数据血缘、分级分类、最小必要使用、脱敏与匿名化等能力需要与模型管理深度绑定,确保从采集标注、训练、后训练到推理的每一步部可审计、可追潮、可复盘。 田 应用层 治理与合规 把“可解释、可审计、可问责”嵌入产品 插件、工具与外部调用的安全新面貌 智能体应用的播件体系、数调用与外部工具执行,扩大了攻击面:从凭证泄需到指令劫持,从跨租户数据穿透到供应链风险。治理重点在“意图识别与动态授权”:让每一次调用都在可见、可控的权限域内发生,并形成异常行为审计与隔离能力。 生成式系统不仅是技术工程,更是治理工程。企业需要将政策、红线、行为准则固化到模型与应用的运行时:以可解释与可审计的机制支持人的监督,明确责任边界,沉淀成组织的“安全运营语言”。 1.3火山引擎的A/安全主张:可信、可控、合规的A云原生基座 火山引擎将自身定位为AI云原生的可信安全基础设施提供者,以“安全即服务的方式,承载企业的A/工作负载与治理能力,建立客户信任与透明度的长期机制。 火山引擎构建“技术领先、治理完善、生态开放”的AI安全能力。在架构与算法层保持AI原生的安全创新,在合规与治理层构建全生命周期的框架与支持,在生态层以标准化接口与开放协作促进企业集成与扩展。 2.生成式AI安全风险 生成式人工智能作为人工智能领域的重大突破,正深刻改变着技术范式。生成式人工智能凭借其强大的生成式能力,已广泛应用于游戏、汽车、智能终端、教育等多个领域,显著提升了信息处理的效率和智能化水平。随着生成式人工智能服务不断创新和应用场景的日益深入,其面临的安全风险也日益凸显,企业用好生成式人工智能服务的同时,如何处理好监管合规风险、隐私数据安全风险、以及生成式A/自身安全风险,也成为一个极具挑战性的话题。 2.1监管合规风险 随着人工智能技术的迅猛发展,伦理、偏见、歧视等问题日益凸显。如何确保人工智能行业在符合社会价值观的框架下实现健康发展,已成为全球监管部门首要关注的问题,当前各国正加快构建针对人工智能领域的法律法规要求与合规监管框架。对于人工智能服务提供者和使用者而言,严格遵守法律监管要求至关重要。 在全球范围内,欧盟于2024年8月正式生效《人工智能法案》,作为全球首部全面针对人工智能的法案该法案采用四级风险模型,为欧盟内人工智能系统的开发、市场投放和使用制定了统一规则,禁止违背欧盟价值观、有害的人工智能服务发展;美国推出《人工智能创新未来法案》强调了国际标准的制定、数据共享和安全性研究的重要性。 目前中国的人工智能监管体系建立在《网络安全法》《数据安全法》《个人信息保护法》三大法律基石之上为人工智能领域合规管理提供了坚实的法律基础,在此基础上,各部委陆续出台《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等法规要求,制度,为人工智能行业发展提供了明确的标准与指导。因此,在中国境内提供、使用生成式人工智能服务的企业,需要依据法律法规履行备案义务,保障用户权益、以及内容、算法安全。 此外,各国也在不断完善人工智能相关法律法规体系中。2025年8月,中国国务院印发《关于深入实施“人工智能+”行动的意见》中特别强调应加强政策法规保障,完善人工智能法律法规、伦理准则、推进人工智能健康发展相关立法工作、优化人工智能相关安全评估和备案管理制度。25年7月,欧盟发布《通用A/行为准则》《通用A/模型提供者指南》《数据训练摘要模板》作为《人工智能法案》的核心配套措施,构建欧盟人工智能合规观框架。作为生成式人工智能服务的提供者与使用者需要持续关注行业法律法规建设,保障人工智能服务合法合规。 2.2数据隐私风险 数据是每个企业的核心资产,近年来数据安全事件层出不穷,给企业带来巨大商业秘密泄露风险的同时,用户个人的隐私权也可能因此而受到威胁。生成式人工智能的发展高度依赖海量数据,但在数据大规模收集、存储、训练、推理等过程中,势必会伴随着复杂的数据与隐私安全风险。 数据收集阶段 生成式人工智能依赖海量训练数据,这些数据来源广泛,如果数据收集过程不当,可能会包含个人信息、甚至敏感个人信息,在未明确获得用户授权情况下,存在违规使用个人信息的风险。若训练数据中包含商业秘密信息,也会导致核心信息泄露的风险;此外,训练数据中也可能会包含虚假、不真实、偏见信息,这些内容会导致训练数据被污染,甚至影响输出内容的合法性、公平性、中立性等等; 数据存储阶段 用户在使用生成式人工智能服务时会涉及以下关键数据资产,如,会话数据、训练数据、以及精调后的模型等。若未采取适当的安全保障措施,数据存储阶段存在安全漏洞,最终可能导致核心数据被批量泄露; 模型训练阶段 基于生成式人工智能的技术特性,数据记忆会导致作恶分子通过特定输入触发模型的“记忆”,致使模型训练时的数据可能被提取。数据记忆是提取攻击、成员推理攻击的前提,模型对训练数据的记忆越深刻,攻击者就越容易通过设计输入信息以“唤醒”这些记忆,进而实施更精准的数据窃取 模型推理阶段 用户在使用生成式人工智能服务时的输入与输出环节,可能因为数据传输、存储、API接口存在的安全漏洞,导致数据被第三方非法获取,从而造成数据泄露问题。 除了上述问题外,内部人员违规操作或者人为疏漏也是常见的数据与隐私安全风险的诱因。 2.3生成式A/安全风险 生成式A/正在快速嵌入企业生产力、开发运维与对外服务。安全风险不再停留在传统应用层,而是沿着“AI基础设施→大模型→智能体”链条相互作用、彼此放大。 AI基础设施安全风险 算力滥用:当GPU/TPU与训练集群缺乏精细的配额与准入控制,未授权调用会造成经济损失,甚至被用于非法挖矿或异常训练。 网络隔离薄弱:资源直连公网、入/出站流量缺乏分级管控,导致暴露面扩大,横向移动更容易。 供应链漏洞:开源框架、驱动与容器镜像成为常见入口,版本污染或镜像被植入会在训练/推理链路中纵深扩散。 访问控制缺陷:IAM策略误配、长效AK凭证泄露,使攻击者轻易绕过控制面直达算力与数据。 模型与平台安全风险 模型泄露:参数提取、逆向推断或错误发布导致权重外泄,直接损害资产价值。 数据隐私泄漏:模型在推理中“记忆”敏感信息,一旦遭遇Prompt注入,可能被诱导输出个人或企业机密。 对抗攻击:恶意输入触发异常行为,造成错误回答、策略绕过或安全审计失效。 后门与中毒:训练或微调阶段的污染样本,使模型在特定触发词下被操控,风险在生产环境中隐蔽显现。 内容安全风险:模型在用户输入引导下,生成违反法律法规、公序良俗或存在安全隐患的内容。传统Web安全风险:传统Web漏洞,认证鉴权的缺失,访问控制不当,会造成模型平台的失陷,造成模型和用户数据泄漏 AI智能体安全风险 Prompt注入:精心构造的指令让模型执行非预期任务,典型表现为越权调用API或读取敏感数据泄漏系统提示词。 工具滥用:具备代码执行、数据库访问与外部系统调用能力的Agent,若缺少最小权限与隔离,将造成严重泄露与破坏。 供应链安全风险:接入的第三方插件与API成为新攻击面,依赖的生态漏洞被复用扩散。隔离机制失效:多租户场景中,未对网络和数据进行隔离,导致租户间的资源、数据或操作边界被打破。传统Web安全风险:传统Web漏洞,认证鉴权的缺失,访问控制不当,会造成智能体失陷,造成用户数据泄漏。 13.火山引擎生成式AI服务安全保障体系 3.1生成式AI浪潮下的安全责任 随着生成式人工智能(GenerativeAl)技术的广泛应用,火山引擎致力于为人工智能服务使用者提供安全、合规的人工智能服务。然而,如同云服务责任共担体系一样,在人工智能平台上部署的A/工作负载,其安全、稳定运行需要使用者与服务提供者共同关注并维护。当然,根据您所选择服务类型的不同,您所需承担的安全责任也存在相应差异。例如,基于机器学习平台(AML)构建A/工作负载,您需要关注模型训练、模型部署等全生命周期工作流的安全合规责任;如您选择豆包大模型搭建生成式人工智能服务,模型的安全合规则由火山引擎与您共同承担。以下将从合规、安全、数据隐私三个方面分别阐述生成式人工智能场景下的责任体系。 ■合规责任:恪守法规、共筑健康生态 人工智能行业健康发展首先需要人工智能服务提供者、使用者严格遵守法律规范,恪守合规底线。合规方面首要关注备案合规与内容合规(见:图1): 备案合规 火山引擎为客户提供的豆包大模型已完成算法备案和生成式人工智能服务备案。当您基于火山引擎豆包大模型对公众提供具有舆论属性或者社会动员能力的生成式人工智能服务,则建议开展算法备案,并按照属地网信部门要求进行生成式人工智能服务备案或登记。 内容安全合规 火山引擎根据《生成式人工智能服务管理暂行办法》《网络信息内容生态治理规定》等法律法规要求,针对模型全生命周期建设了内容安全策略,对豆包大模型生成内容进行严格管控。当您搭建生成式人工智能服务时,尤其是基于三方模型、对预训练模型进行精调或针对特殊场景(例如未成年人)的情况下,需要根据自身业务需求额外建设内容审核能力;如果您在机器学习平台、GPU云服务器搭建的AI工作负载,则需要由您满足相应监管要求。 内容标识合规 依据《人工智能生成合成内容标识办法》要求,若您向公众提供人工智能生成合成内容服务,需满足显式标识、元数据隐式标识等内容标识要求,在火山方舟场景下可以为您提供相关能力以满足监管要求。 隐私责任:尊重隐私,共建可信A 保护隐私安全是火山引擎与客户的共同责任。根据构建A/工作负载的方式不同,对训练和推理数据的掌控程度会存在相应差异,所需承担的安全责任也有所不同(见:图2)。 训练数据合规 如果您直接使用豆包大模型构建生成式人工智能服务,豆包大模型基于国家标准