Volcano Ark Security White Paper 全周期安全可信,会话无痕 数据唯你可见唯你所用唯你所有 序言 「智能涌现:从探索模型上限,到释放模型价值」 大模型正以跨越式速度迭代演进,成为驱动智能革命的核心引擎。LLM(Large LanguageModels,大语言模型)从基础语言理解到复杂逻辑推理的能力持续突破,VLM(VisionLanguage Models,视觉语言模型)则实现视觉与语言的深度融合,打破单模态交互边界,模型架构优化、算法创新与数据质量提升共同推动技术能力迈向新高度,为产业智能化转型注入强劲动力。与此同时,大模型落地场景全面涌现,从智能办公、医疗健康到金融服务、教育普惠,深度渗透社会经济各领域,重构生产流程、优化服务模式,释放出巨大的商业价值与社会价值,开启全域智能应用新时代。 截至 2025 年 12 月,豆包大模型日均处理 50 万亿 Tokens,相比 2024 年 5 月首次推出豆包大模型时增长了 417 倍。 然而,技术飞速发展背后,安全风险也随之凸显。大模型在快速迭代与广泛落地过程中,数据隐私泄露、对抗攻击、模型滥用、伦理偏差等安全隐患持续暴露,不仅威胁用户权益与企业利益,更制约行业健康发展。在此背景下,我们希望通过《火山方舟大模型服务安全白皮书》 ,提示大模型使用过程中面临的安全风险,向有计划、正在落地 AI 的企业展示火山方舟的安全思考与落地实践,推动 AI 行业在安全可控的前提下实现可持续发展,护航智能时代稳步前行。 「负责任的 MaaS:保障全量客户安全使用 AI」 火山方舟作为连接模型提供方与使用方的 MaaS (Model as a Service,模型即服务)平台,始终将安全嵌入平台原生架构。2023 年 6 月,推出 “火山方舟互信计算框架”,通过全链路技术防护实现云上大模型训练与推理过程中的数据隐私保护及模型安全管控,为参与各方的隐私权、所有权与收益权筑牢坚实屏障。 秉持 “负责任的 MaaS” 理念,火山方舟持续升级模型、平台、应用多维度安全能力,以全栈防护体系护航企业级AI应用安全落地,助力AI生态健康繁荣。在 Gartner 发布的 2025年度全球《AI 应用开发平台魔力象限》中,火山引擎凭借豆包大模型和火山方舟大模型服务平台,领跑全球“挑战者”象限;在企业市场,国际数据公司(IDC)《中国大模型公有云服务市场分析,2025H1》报告显示,2025 年上半年中国公有云大模型服务市场中,火山引擎以 49.2% 的市场份额位居行业第一。火山方舟用技术实力与安全能力助力行业发展。 火山方舟,一站式大模型服务平台 目录 大模型安全威胁与落地挑战 安全攻击风险数据安全担忧政策法规要求1.11.21.3030506 火山方舟安全承诺与责任共担 07 火山方舟安全可信保障体系 火山大模型安全可信能力全景模型平台安全3.13.23.33.43.53.6可信推理服务数据隐私保护内容安全保障MCP 与智能体安全091 024303 743 火山引擎大模型合规资质与认证 45 总结与展望 47 附录:火山方舟大模型服务安全能力清单 50 大模型安全威胁与落地挑战 1.1 安全攻击风险1.2 数据安全担忧1.3 政策法规要求 1.1 安全攻击风险 生成式人工智能在自然语言处理、图像识别、数据分析、代码生成等领域快速发展,其在商业与科研中的应用日益广泛。然而,服务的普及也带来了新的安全风险与挑战,既包括系统漏洞、DDoS 攻击、资源滥用等传统安全问题,也涵盖内容安全对抗、隐私泄漏、算力盗用等大模型特有威胁。 结合火山引擎攻防实践, 以及 OWASP TOP 10 for LLM 风险分析, 总结大模型安全风险场景如图: 大模型安全攻击风险概览 AI 基础设施安全风险 针对算力与云服务基础设施,算力滥用是典型的安全风险,当集群基础设施能力缺乏精细的配额与准入控制,算力资源可能会被未经授权调用,甚至被用于非法挖矿或异常训练。此外网络隔离薄弱、供应链漏洞、访问控制缺陷都可能加速攻击者绕过控制面直达算力与数据。网络隔离薄弱常见风险包括资源直连公网、入/出站流量缺乏分级管控、容器间未进行有效隔离等;供应链漏洞则常见开源框架、驱动与容器镜像漏洞,版本污染或镜像植入会在训练/推理链路中纵深扩散。 模型与平台安全风险 企业使用大模型与大模型服务平台时,数据泄漏与不合规回答是主要风险。 数据泄露包括因为大模型服务平台不安全设计(如认证鉴权体系缺失、明文存放模型与数据、网络隔离不充分等)、安全漏洞导致的传统 Web 安全风险,进而导致大模型服务平台失陷,泄漏模型或用户数据;此外模型在推理中“记忆”敏感信息,一旦遭遇 Prompt 注入,可能被诱导输出个人或企业机密;对于基础模型,还可能存在参数提取、逆向推断或错误发布导致的权重外泄,造成模型泄漏。 内容安全方面,模型在用户引导下可能生成违法违规、违背公序良俗或存在安全隐患的内容。攻击者可通过恶意输入触发模型异常行为,导致错误回答、策略绕过或审计失效,输出不合规结果 ;训练与微调阶段还可能遭遇模型投毒,即通过污染样本使模型在特定触发词下被操控,进而将风险带入生产环境。 AI 智能体安全风险 企业构建 AI 智能体时,提示词注入仍是关键风险。尤其当智能体具备工具调用能力时,恶意指令可能使其执行非预期任务,导致越权调用 API、读取敏感数据、泄露系统提示词等后果。工具滥用是另一特征风险:拥有代码执行、数据库访问与外调能力的智能体,若缺乏最小权限与隔离机制,可能引发严重泄露与破坏。若智能体接入的第三方插件存在漏洞,还会引入供应链风险。 智能体同样面临传统 Web 安全威胁,需通过完善的鉴权、加密、隔离与访问控制,防止其失陷导致用户数据泄露;在多租户场景下,若未实施网络与数据隔离,攻击者可能突破租户间的资源、数据与安全边界。 生成式人工智能背景下,安全风险已不再局限于传统应用层,而是沿“AI 基础设施、大模型、智能体”链条逐步延伸。因此,从基础设施与大模型平台层面就着手防控至关重要。 1.2 数据安全担忧 与传统数据安全及隐私保护相比,大模型与生成式 AI 在数据与隐私安全领域面临的关键挑战集中体现在三方面: 大模型“黑盒”特性对平台操作透明化提出的更高要求超大规模参数与强数据记忆能力带来的数据保密压力生成式内容创作模式引发的数据确权难题 数据安全性 用户数据随模型上云,需要云侧提供不低于私有化本地部署级别的安全防护,并防止通过模型泄露保密数据。数据离开受控的私域环境后,其在传输、存储和处理过程中的安全风险显著增加。云服务商必须提供等同或更高级别的加密、防攻击与访问控制能力,确保数据在全流程中“唯客户可见”。 数据可控性 用户需对数据全生命周期享有充分知情权与控制权,能够约束数据的使用范围与目的,严格杜绝任何未授权二次利用。覆盖用户使用 MaaS 平台推理与训练服务的全流程,平台应提供关于数据传输、使用、留存,以及加解密密钥调用的安全审计日志,最终实现并证明数据“唯客户所用”。 数据所有权 用户需确认其数据资产的最终权属不因模型服务使用而转移,且数据价值不受侵害。企业投入的专有数据、模型交互记录及生成产出物,均应被界定为企业核心数字资产。客户担忧商业秘密、知识产权等数据被服务商未经授权用于模型训练,导致其独有商业价值被稀释并转化为公共服务基础能力。因此需通过合约约束与技术手段双重保障,确保所有数据及其衍生成果“唯客户所有”。 1.3 政策法规要求 人工智能技术的伦理、偏见、歧视等问题日益凸显,针对如何确保人工智能行业在符合社会价值观的框架下实现健康发展,当前各国正加快构法律法规要求与合规监管框架建设。对于人工智能服务提供者和使用者而言,严格遵守法律监管要求至关重要。 在全球范围内,欧盟于 2024 年 8 月正式生效《人工智能法案》,作为全球首部全面针对人工智能的法案,该法案采用四级风险模型,为欧盟内人工智能系统的开发、市场投放和使用制定了统一规则,禁止违背欧盟价值观、有害的人工智能服务发展;美国推出《人工智能创新未来法案》强调了国际标准的制定、数据共享和安全性研究的重要性。 中国的人工智能监管体系则以 《网络安全法》、《数据安全法》、《个人信息保护法》 为三大法律基石,为人工智能领域合规管理提供了坚实的法律基础。在此基础上,各部委陆续出台《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》等法规要求,确立了服务提供者主体责任,明确内容合规与算法公平性等要求,并建立了人工智能安全评估和备案管理制度,为人工智能行业发展提供了明确的标准与指导。因此,在中国境内提供、使用生成式人工智能服务的企业,需要依据法律法规履行备案义务,保障用户权益,以及内容、算法安全。 各国人工智能相关法律法规体系正在不断完善的过程之中。2025 年 8 月,中国国务院印发《关于深入实施“人工智能+”行动的意见》 中特别强调应加强政策法规保障,完善人工智能法律法规、伦理准则、推进人工智能健康发展相关立法工作、优化人工智能相关安全评估和备案管理制度。2025 年 7 月,欧盟发布《通用 AI 行为准则》、《通用 AI 模型提供者指南》、《数据训练摘要模板》作为《人工智能法案》的核心配套措施,构建欧盟人工智能合规观框架。作为生成式人工智能服务的提供者与使用者需要持续关注行业法律法规建设,保障人工智能服务合法合规。 火山方舟安全承诺与责任共担 火山方舟与客户共同承担安全、合规、数据隐私责任,全力保障大模型落地的安全性、可靠性。 安全责任:多层防护、共担安全使命 基础设施安全:当您基于火山方舟构建您的 AI 工作负载,火山引擎将通过平台强大的系统承载力,全力保障大模型落地安全性、可靠性,为您提供安全可信的执行环境。 模型安全:当您使用火山方舟与豆包大模型构建生成式人工智能服务,火山方舟将通过稳定可靠的安全互信架构,提供链路全加密、数据高保密、环境强隔离、操作可审计的安全能力,保障服务全生命周期安全。 隐私责任:尊重隐私、共建可信 AI 训练数据合规:如果您直接使用豆包大模型构建生成式人工智能服务,豆包大模型基于国家标准《GB/T 45652 生成式人工智能预训练和优化训练数据安全规范》对训练数据的来源进行审核,涉及个人身份或敏感属性的内容,默认脱敏与去标识化,保障训练数据安全合规;如果您基于火山方舟对模型进行精调,您需要保障训练数据集的安全性、合规性,避免训练数据中包含风险数据。 客户数据安全:火山引擎通过安全互信计算架构,提供应用层会话加密、网络层传输加密、多维度环境隔离以及多类别审计日志等安全能力,为客户提供多维度、全方位的数据安全增强保护。 合规责任:恪守法规、共筑健康生态 备案合规:火山引擎为客户提供的豆包大模型已完成算法备案和生成式人工智能服务备案。当您基于火山方舟对公众提供具有舆论属性或者社会动员能力的生成式人工智能服务,则建议开展算法备案,并按照属地网信部门要求进行生成式人工智能服务备案或登记。 内容安全合规:火山引擎根据《生成式人工智能服务管理暂行办法》、《网络信息内容生态治理规定》等法律法规要求,针对模型全生命周期建设了内容安全策略,对豆包大模型生成内容进行严格管控。当您搭建生成式人工智能服务时,尤其是基于三方模型、对预训练模型进行精调或针对特殊场景(例如未成年人)的情况下,需要根据自身业务需求额外建设内容审核能力。 内容标识合规:依据《人工智能生成合成内容标识办法》要求,若您向公众提供人工智能生成合成内容服务,需满足显式标识、元数据隐式标识等内容标识要求,在火山方舟场景下可以为您提供相关能力以满足监管要求。 03 火山方舟安全可信保障体系 3.1 火山大模型安全可信能力全景3.2 模型平台安全3.3 可信推理服务3.4 数据隐私保护3.5 内容安全保障3.6 MCP