您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [金杜律师事务所]:2023大模型合规白皮书 - 发现报告

2023大模型合规白皮书

金融 2023-12-12 金杜律师事务所 晓燚
报告封面

大 模 型 合 规 白 皮 书 金杜律师事务所上海人工智能研究院华为技术有限公司上海昇思AI框架&大模型创新中心2023年11月 前言 大模型作为人工智能发展脉络中的里程碑,引发了新一轮的科技创新浪潮,其以强大的计算能力和深度学习技术,极大地提高了内容生产效率,促进内容生产方式颠覆式变革。各行各业纷纷布局大模型应用,把握智能化发展的机遇。然而,大模型也面临隐私泄露、侵犯第三方权益以及违背伦理等潜在风险,引发了社会各界的关注和担忧。随着大模型的广泛应用,加快完善大模型的立法监管以确保大模型的应用与发展符合伦理道德和社会价值观,推动人工智能科技的健康发展变得迫在眉睫。 世界上主要国家和地区均着手并加快完善大模型相关的法律监管。例如,欧盟以《人工智能法案》为核心,结合大模型可能涉及的其他领域的立法,逐步建立起专项法案为主、现存法规为辅的人工智能法律监管框架;美国对于人工智能大模型的立法较为分散,各州分别各自推进人工智能立法,联邦政府则试图在现有的立法框架及监管规则内对大模型及人工智能进行规制,但同时,人工智能相关的联邦专项立法提案也在推进当中。我国围绕网络安全、数据安全、个人信息保护等重点领域制定了法律法规,并及时跟进人工智能技术创新发展态势,先后针对互联网信息推荐、生成式人工智能等技术领域出台了管理办法,建立了法律法规和标准规范相协调的人工智能监管制度体系。 在此背景下,本白皮书在我国人工智能法律监管框架下进一步梳理了大模型相关方的合规义务及要点,并展望未来大模型法律监管体系的发展趋势与特征,对政府、企业、社会共建大模型治理体系提出切实建议,从而为社会各界了解大模型立法最新动态和立法趋势提供有价值的参考,并为相关单位开展大模型业务提供法律解读及合规指引,保障大模型相关业务的合规经营以及行业的健康规范发展。 目录 前言 一、大模型的发展历程 ( 一 ) 早期模型的探索与局限性8 ( 二 ) 深度学习的崛起11 ( 三 )GPT 等代表性大模型的影响12 1. 大模型带来的效率与准确度革命14 2.大模型带来的机会与挑战15 二、全球大模型监管现状 ( 一 ) 主要国家和地区加快完善大模型监管17 1. 欧盟2.美国3.英国 172535 ( 二 ) 我国对于大模型的监管现状38 1.立法现状382.合规要素473.大模型业务中各方合规义务一览表59 4. 运营角度的其他考量61 三、未来展望与发展建议 ( 一 ) 未来展望:大模型合规的前沿70 1.大模型技术创新发展与合规风险并存702.大模型合规框架走向标准化与国际化703.社会文化和伦理逐渐与合规体系相融714.行业应用面临不同合规挑战与监管725.治理路径分阶段、有弹性地构建73 ( 二 ) 发展建议:构筑大模型合规生态74 1.政府推动构建行业新秩序74 2.企业创新与责任担当78 3.社会组织加强协同合作80 一、大模型的发展历程 (一)早期模型的探索与局限性 从早期的符号逻辑到现代的深度学习1模型,AI领域经历了数十年的探索和迭代,为后续突破打下了坚实基础。随着大数据的发展和AI计算能力的爆炸式增长,深度学习模型的崛起显得尤为突出。然而,尽管这些模型在特定任务上取得了令人瞩目的成就,其在初期也面临着许多局限性,如存在数据依赖、计算消耗大、缺乏可解释性等。这些局限性不仅为AI领域带来技术挑战,也引发了对模型偏见、安全性和应用范围的深入思考。 1956 年 6 月举行的达特茅斯夏季人工智能研究项目,被广泛认为是人工智能作为一个研究学科的开端。自“人工智能”概念被提出,大模型的发展经历了三个阶段: •早期发展期(1956-2005):该阶段主要是传统神经网络模型的阶段,例如循环神经网络(RecurrentNeuralNetwork,“RNN”)2、卷积神经网络(ConvolutionalNeuralNetworks,“CNN”)3。起初,AI发展主要基于小规模的专家知识,然后逐渐转向机器学习4,1980年和1998年诞生的CNN和LeNet-55奠定了深度学习模型的基础。 •快速成长期(2006-2019):该阶段是全新的神经网络模型阶段,模型的发展方向主要聚焦长序列的处理和计算效率的提升,以Transformer6架 构的出现为代表。从2013年的Word2Vec7到2017年的Transformer,都标志着深度学习模型正走向一个全新的时代。在该阶段,如GPT8和BERT9等预训练模型逐渐成为主流。 •全面爆发期(2020-至今):该阶段是预训练大模型阶段。以GPT为代表,预训练大模型处于快速发展的阶段,特别是OpenAI10推出的GPT-3和GPT-4,标志着大模型技术正迈向新高度。 机器学习有三种主要的方式,分别是监督学习、无监督学习、强化学习。 •监督学习(SupervisedLearning):“模板规范”(投喂好的资料),我们向模型投喂带有标签的数据(包括数据特征和期望的输出值),让算 法 学 习 输 入 和 输 出 之 间 的 映 射 关 系 。 经 典 的 监 督 学 习 包 括 分 类 和 回归。 分类:例如学习大量猫和狗的图片和标签,当模型接收新的动物图片时可以将其根据特征识别是猫还是狗; 回归:例如学习猫的产地、毛色、习性等特征,并将猫的价值作为输出标 签 进 行 训 练 , 当 模 型 接 收 新 的 猫 咪 图 片 时 可 以 根 据 特 征 预 测 猫 的 价值。 •无 监 督 学 习 ( U n s u p e r v i s e d Lea r n i n g ): “ 开 卷 有 益 ” ( 多 投 喂 资料),我们向模型投喂不带标签的数据,让模型自行寻找其中的规律,并进行处理。经典的无监督学习包括聚类和降维。 聚类:例如学习大量房屋的信息,模型自行寻找其中的价格、面积、户 型的规律,并自动将相同类型的房屋进行汇总。 降维:例如学习大量房屋的信息,模型自行寻找其中用户决策最关心的因素,在保留价格和其他少量辅助数据的同时对房屋数据进行压缩,以便简化建模。 •强化学习(ReinforcementLearning ):“创意引导”(进行条件反射),我们向模型设置特定环境,让模型在其中采取行动,我们再对其进行反馈,让模型从反馈中学习以便优化下一次的行动。这一过程就类似以条件反射的方式训练小狗。 在机器学习领域的早期阶段,研究者们的主要关注点是基于统计、线性回归和决策树等的简单模型。早期模型具有以下特点:简单性。早期的模型,如线性回归和逻辑回归,是基于明确的数学方程,使其容易被理解和解释。计算消耗低。由于模型的简单性,其在计算上相对高效,不需要大量的计算资源。表示能力存在上限。虽然早期模型在特定方面表现良好,但其表示能力有限,尤其体现在处理复杂任务和非线性问题上。 大模型早期所面临的主要局限性包括: •存在数据依赖:早期的模型对于大量高质量数据有极高的依赖性。在没有足够训练数据的情况下,这些模型往往难以达到令人满意的性能,但获取、清洗、标注这些数据却昂贵且极为耗时。 •缺乏可解释性:大模型通常被视为“黑盒”,即模型的内部工作原理很难被理解。由于用户需要理解模型的决策过程,模型的解释性不足在很多关键领域(如医疗和司法)构成障碍。 •泛化能力不足:尽管早期的大模型在特定任务中表现性能优秀,但其在新数据或新场景中的泛化能力仍受到质疑。 •存 在 环 境 和 任 务 依 赖: 早 期 的A I模 型 通 常 需 要 根 据 特 定 任 务 定 制 和 调 整,这意味着为特定任务训练的模型可能难以直接应用于其他任务。 •模型具有一定偏见:由于训练数据往往包含现实世界的偏见,大模型可能反映这些偏见,导致应用于实际场景时出现歧视或不公平的决策。 •安全性和稳定性不足:由于早期大模型的复杂性,其易受到对抗性攻击或在特定条件下表现不稳定。 以上局限性不仅为AI领域的研究者和工程师带来挑战,也为AI技术的未来发展和应用提出反思和探索的方向。随着技术发展,许多问题已经得到解决或缓解。 (二)深度学习的崛起 深度学习从其最初的简单尝试到现今所达到的辉煌高峰,不仅展现了技术的快速发展,更揭示了人类在追求智慧和知识上的不懈努力。深度学习源自人类对人脑工作原理的好奇和模仿,意图借助数学和算法的力量,赋予计算机对信息的处理和认知能力。随着技术日益成熟,深度学习赋予计算机识别图像、处理自然语言甚至复杂决策的能力,不仅体现技术进步,也标志人工智能正逐步走向更加深入、广泛的应用领域,为人类生活带来无尽可能性。因此,深度学习的崛起可以被视为人类科技史上的一大里程碑。 神经网络的早期探索。1957年,FrankRosenblatt提出感知器模型,被称为最简单的神经网络,通过简单的线性组合实现分类任务。尽管当时的应用领域有限,但其为后续神经网络的发展奠定了基础。19世纪80年代,Rumel-hart、Hinton及其团队引入了反向传播算法,通过多层神经网络训练,为复杂模型和任务提供强大工具。 数据与计算能力的融合。21世纪初,互联网的广泛传播和智能设备的普及, 使 得 数 据 呈 现 指 数 级 增 长, 为 深 度 学 习 提 供 丰 富 的 训 练 数 据。 同 时, 硬件技术也在飞速发展,NVIDIA等厂商投入GPU研发,其能够大幅度加速数值计算,尤其是深度学习中的矩阵运算,软硬件的进步大大加速了模型的训练过程。 关 键 技 术 突 破 与 模 型 创 新。1997 年,Hochreiter 和 Schmidhuber 提 出长短时记忆网络 (LongShort-TermMemory,LSTM),解决了循环神经网络的梯度消失 / 梯度爆炸的问题,使得神经网络可以更好的处理长文本内容,为序列数据的处理开辟了新天地。1998 年,YannLeCun 及其团队提出 LeNet-5,但真正让深度学习走向世界舞台的是 2012 年由 AlexKrizhevsky 等人设计的AlexNet,其在 ImageNet 挑战赛中大胜,展示了深度学习在图像处理上的潜力。2014 年,生成式对抗网络 (GenerativeAdversarialNetworks,“GAN”) 被提出。GAN 的原理是通过竞争机制来逐步提高生成器的准确性。2016 年横空出世击败围棋世界冠军李世石的 AlphaGo,就是基于 GAN 架构训练的模型。2017 年,Google 提出 Transformer 架构,此后 BERT、GPT 等模型皆以其为基础,在自然语言处理任务中达到新高度。 (三)GPT等代表性大模型的影响 Transformer 架构的优点是可以并行处理输入序列的所有元素,能够捕捉长序列内容的关联关系,因此 Transformer 架构不再受到“短时记忆”的影响,有能力理解全文,进而 Transformer 成为自然语言处理的主流架构。 一 个 原 始 的 Transformer 架 构 由 编 码 器 (Encoder) 和 解 码 器 (Decorder)两部分构成,其中编码器用于将输入序列转换为一系列特征向量,解码器则将这些特征向量转换为输出序列,即:输入内容——编码器——解码器——输出内容。如果给编码器输入一句英语“Sheisastudent”,解码器返回一句对应的中文“她是一名学生”。Transformer 的架构和自注意力机制能够实现这些 的 关 键 在 于“ 将 词 汇 转 换 为 词 向 量, 并 通 过 多 头 注 意 力 机 制(Multi-HeadAttention)和前馈神经网络(Feed-ForwardNetwork)两个子层进行处理”。 第 一 步: 模 型 对 接 收 到 的 输 入 序 列 文 本 Token 化,Token