AI智能总结
中国联合网络通信有限公司国家计算机网络应急技术处理协调中心中国软件评测中心北京百度网讯科技有限公司华为技术有限公司三六零数字安全科技集团有限公司亚信安全科技股份有限公司超聚变数字技术有限公司2024年5月 版权声明 本白皮书版权属于中国联合网络通信有限公司、国家计算机网络应急技术处理协调中心、中国软件评测中心、北京百度网讯科技有限公司、华为技术有限公司、三六零数字安全科技集团有限公司、亚信安全科技股份有限公司、超聚变数字技术有限公司,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中国联合网络通信有限公司、国家计算机网络应急技术处理协调中心、中国软件评测中心、北京百度网讯科技有限公司、华为技术有限公司、三六零数学安全科技集团有限公司、亚信安全科技股份有限公司、超聚变数字技术有限公司”。违反上述声明者,将追究其相关法律责任。中国 目录 前言,·AI概述.41.1AI技术发展历程1.2大模型发展趋势,.5二AI内生安全风险问题与挑战62.1AI自身与应用安全风险问题2.1.1AI基础设施安全风险问题2.1.2数据安全风险问题82.1.3模型安全风险问题..92.1.4应用服务安全风险问题112.2AI监督与管理挑战..14三 AI内生安全体系.143.1监督与管理体系...153.2技术体系.163.2.1AI基础设施安全163.2.2数据安全3.2.3模型安全173.2.4应用服务安全..18四AI内生安全监管现状。184.1 AI内生安全法律法规政策现状4. 2 AI 内生安全标准规范现状..21五AI内生安全技术解决方案..265.1AI基础设施安全解决方案,..265.2数据安全解决方案.295.3模型安全解决方案,5.4应用服务安全解决方案,.35六 AI内生安全发展建议..386.1AI内生安全技术发展建议.396.2AI内生安全监管与保障建议..40缩略语,42-3- 参考文献 前言 人工智能(ArtificialIntelligence,简称Al)技术的飞速发展给人类和经济社会的发展带来了翻大覆地的变化,是驱动第四次工业革命和经济社会数字化转型的先进生产力。近三年来,无论是AI基础设施(如显卡硬件、深度学习框架、云计算平台等),还是海量行业数据(如运营商数据、商业文本资料、金融交易记录等),或是模型架构(如BERT、GPT、LLaMa、T5等),亦或是部署应用(如模型压缩与优化、边缘计算、多平台适配等),各个相关专业领域的飞速发展将人工智能带入大模型时代,极大地提高了内容生产效率。 随着各行各业纷纷布局大模型应用,一系列安全风险与挑战也开始浮现。在数据收集阶段,大规模数据的采集、存储以及使用,可能导致个人隐私的泄露和滥用。在模型训练阶段,投毒攻击将虚假样本添加到训练集中,使模型的整体性能不佳或在某些测试样本上给出错误的预测。在模型推理阶段,可能会产生一些意外或不符合直觉的行为。同时,模型的强大能力也可能被用于虚假信息生成,加剧了人们对人工智能内生安全问题的关注与担忧。 人工智能内生安全是指人工智能技术自身或在应用时存在脆弱性,导致应用运行时无法达到预期目标。本白皮书以建立安全、可靠、可控的人工智能系统为目标,围绕人工智能内生安全,重点介绍了人工智能自身与应用安全风险,构建了人工智能内生安全体系,明确了人工智能内生安全要求和目标,归纳了监督与管理体系、技术体系的建设要点。在人工智能内生安全体系下,本白皮书从AI基础设施、 数据、模型、应用服务以及监管等多个维度提供了解决方案和治理措施,并提出人工智能内生安全发展建议,推动我国人工智能技术健康发展。 本白皮书由中国联通研究院主笔,国家计算机网络应急技术处理协调中心、中国软件评测中心、北京百度网讯科技有限公司、华为技术有限公司、三六零数字安全科技集团有限公司、亚信安全科技股份有限公司、超聚变数字技术有限公司联合编写。 编写组成员(排名不分先后): 总策划:谢攀、叶晓煜 编委会:郑涛、徐雷、陶冶、徐积森、李慧芳、孙世丁、陈决、董航、卢宇荣、王一、李晔、林星辰、宋举、唐刚、张浩男、李泽村、李志伟、郭婷婷、张钊、张越威、蒋武、唐文、梅立超、盛杰成、邹权臣张德岳、闫绍华、李红星、涂长茂、李刚、白元庆、张雷霆中国联 一AI概述 1.1AI技术发展历程 人工智能技术的提出最早可以追溯到20世纪50年代的图灵测试即通过问答的方式判断计算机是否具备人类的智能水平。早期的AI科学家主张通过符号逻辑推理实现人工智能,采用知识库和推理机技术实现了最早的专家系统。随着统计学习理论的逐步发展,涌现了包括感知机、支持向量机、决策树在内的众多机器学习(MachineLearning,简称 ML)算法。20 世纪70 年代提出的反向传播算法在20世纪80年代得到重视,解决了人工神经网络的训练问题。 21世纪以来,随着计算能力和数据量的提升,深度学习(DeepLearning,简称DL)技术逐渐成为人工智能领域的研究热点,如用于图像识别任务的卷积神经网络(CNN)和用于时间序列分析及文本分析任务的循环神经网络(RNN)、长短时记忆网络(LSTM)。 2016年,A1phaGo的诞生,标志看人工智能发展历程上的又一里程碑。2017年,谷歌提出了用于语言理解与生成任务的 Transformer模型,催生了包括BERT、GPT在内的预训练语言模型的加速发展。202年,OpenAI发布多模态模型DALLE,可以通过文本描述生成图像。2022年 11月,OpenAI发布了 ChatGPT,标志着大语言模型(Large LanguageModel,简称LLM)领域的重大进步,也为人工智能领域的发展提供了新的可能性。2024年2月,OpenAl发布文生视频模型Sora,标志着通用人工智能(Artificial GeneralIntelligence,AGl)向多模 态应用加速迈进。 1.2大模型发展趋势 在当今数字化时代,大模型已成为推动科技进步和解决复杂问题的关键工具之一。大模型通常以Transformer模型作为基础组件,在大规模语料上使用自监督学习技术进行模型预训练,其参数规模在十亿以上。 自OpenAI发布ChatGPT大模型之后,国内外各大公司均开始拓展大模型在商业化场景中的应用。根据开放程度的不同,可以将现有的大模型分为闭源大模型和开源大模型。在闭源大模型方面,OpenAl是最早向公众开放API的大模型服务平台,国内也涌现了一批以百度文心一言为代表的大模型服务平台,这些平台集成了多种插件工具,用户可通过APP、网页、APT等多种方式与大模型进行交互。开源大系列大模型,开源模式有助于加速大模型技术的创新和落地应用,为全球范围内的开发者提供了参与到这一轮AI新浪潮中的机会。 大模型技术的蓬勃发展也带动了上下游技术框架的进一步发展。目前主流的开源深度学习框架主要有Google开发的基于数据流图的TensorFlow和Keras、Facebook开发的支持动态计算图的PyTorch、白度推出的分布式开发框架PaddlePaddle和华为开发的支持端边云全场景的深度学习框架MindSpore等。此外,微软推出了大模型训练框架DeepSpeed,通过ZeRO技术减少亢余内存访问,降低了万亿级 模型的训练门槛。与此同时,大模型应用开发框架Langchain提供了一系列的工具和组件允许开发者将大模型与外部计算和数据结合起来,提高了大模型应用的开发效率;Huggingface提出了一套Al项目研发的标准流程,收纳了众多前沿模型和数据集,与Transformers库结合,可以快速实现模型的迁移应用。OpenCV2作为跨平台开源的计算机视觉库,拥有强大的图像处理能力,可实现多种图像处理和计算机视觉的通用算法。TorchAudio、PaddleSpeech 提供了丰富的音频信号处理和特征提取工具,以及与深度学习模型结合的接口。 未来,大模型将在参数规模上继续扩大,通过并行计算、软硬件协同等技术支撑,性能将不断提升。同时,大模型服务将走向多领域应用,具备更强的泛化能力和自我进化能力。随看各行各业纷纷布局大模型应用服务,安全性、可靠性、可控性和隐私保护也成为大模型发展的重要考量。 二 AI内生安全风险问题与挑战 AI技术有助于推动干行百业实现数字化转型,同时也带来了新的安全问题与挑战。人工智能内生安全指的是人工智能系统自身和应用运行时存在的脆弱性,包含AI基础设施安全问题、数据安全与隐私问题、模型安全问题以及应用服务安全风险问题。同时,AI内生安全问题给AI监督与管理带来了巨大的挑战, 2.1AT自身与应用安全风险问题 2.1.1AI基础设施安全风险问题 AI基础设施安全风险主要包含AI基础设施自身风险和AI基础设施承载的资产风险。 AI基础设施自身风险,包含AI业务运行所依赖的硬件、OS操作系统、容器、AI框架、AI平台等风险,不同技术栈面临的风险不尽相同。 (1)基础设施硬件主要面临物理攻击、侧信道攻击、故障注入攻击等风险。物理攻击是指去除芯片封装,对内部电路进行电接触,获取保存在芯片内部的敏感信息。侧信道攻击是指攻击者利用设备的接口对芯片进行电磁和功耗的分析。故障注入攻击是指利用故障(电压、时钟等)引起电路出现异常,根据异常信息分析芯片内部的敏感信息,或者直接利用引起的电路异常来改变程序运行等。 (2)操作系统面临安全漏洞、后门、弱口令等风险。其中,漏洞是黑客攻击的重要入口,黑客经常利用安全漏洞或后门来获取系统权限并执行恶意代码,对操作系统的内核完整性等进行破坏,导致AI全生命周期过程中的敏感信息泄露,甚至导致AI业务停滞。 (3)容器自身可能存在镜像篡改、启动异常和逃逸攻击等风险。如不安全配置可能引起账户管理问题导致容器被入侵;资源使用不设限可能导致拒绝服务攻击;访问策略配置不当可能导致非法访问。容器一旦遭到非法入侵,可能导致AI业务无法正常运行。 (4)AI平台主要面临API认证和授权、Web漏洞攻击、资源隔离与调度等风险。如攻击者可以利用API漏洞,通过伪造、冒充、盗窃、破解等方式获取未经授权的API访问和使用权限,从而访问和使用企业数据和服务,甚至导致AI数据的丢失和AI业务的停滞。 (5)AI框架是A模型开发的必备工具。AT框架的漏洞常被攻击者当作梯子,用于传播恶意软件,并侵入影响A业务正常运行,甚至导致服务器和数据受损。 AI基础设施承载的资产风险,主要指AI业务全生命周期过程中的高价值模型等资产经常面临被非法窃取等的风险,从而造成商业机密丢失,甚至导致商业版权的利益损失。 2.1.2数据安全风险问题 AI数据安全风险主要包含传输截获风险、运营方窥探风险和模型记忆风险等问题 1、传输截获风险 在进行AI模型非私有化的预训练、精调、推理服务时,数据需要在不同的主体或部门之间进行传输。这些数据通常包括各种敏感信息和隐私,如个人身份信息、金融数据等。在数据传输过程中,如果没有采取足够的安全措施,攻击者可能会截获这些数据,从而获取用户或组织的敏感信息。因此,在使用AI模型服务时,必须采取适当的安全措施来保护数据的机密性和完整性,以防止传输截获风险, 2、运营方窥探风险 在微调与推理阶段,通常需要使用个人身份信息、企业数据等敏感数据来提高模型的准确性。然而,如果这些数据被模型运营机构窥视或收集,就可能存在被滥用的风险。运营方可能会利用这些数据来了解用户的隐私信息,例如个人偏好、行为习惯、社交网络等,从而进行有针对性的广告投放或者推销策略。此外,运营方还可能将数据泄露给第三方,这些第三方可能是合作伙伴、数据分析公司、广告公司等,从而获取不正当的利益。 3、模型记忆风险 经过模型的训练和推理后,模型会形成记忆,因而对于部署到生产环境中的模型,其输出可能会暴露训练数据的一些信息。攻击者可以通过分析模型的输出,推断出训练数据的特征和分布,进而构建类以的数据集,甚至还原部分原始数据。因此,在使用AI