您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[凯捷]:生成式人工智能道德&合规风险白皮书 - 发现报告

生成式人工智能道德&合规风险白皮书

2024-03-05-凯捷B***
AI智能总结
查看更多
生成式人工智能道德&合规风险白皮书

如何理解和应对生成式人工智能引发的数据合规风险 引言 4 生成式人工智能概述51 1.1生成式人工智能的发展历程5 1.2生成式人工智能的研究趋势6 1.2.1大模型对齐和幻觉1.2.2提示工程和检索增强1.2.3通用人工智能和代理1.2.4快速起步使用生成式人工智能6778 1.3生成式人工智能应用领域9 1.3.1市场规模总览1.3.2多模态应用,赋能生产力:从数据类型划分1.3.3聚焦个性化场景,创造业务价值:从行业划分9910 生成式人工智能相关法规浅析112 2.1外国法11 2.1.1美国2.1.2英国2.1.3欧盟2.1.4其他国家生成式人工智能法律发展简介2.1.5总结1112141618 2.2中国本土法律19 2.2.1生成式人工智能的伦理道德问题讨论2.2.2我国生成式人工智能的法律基线和合规要点19242.2.3总结27 生成式人工智能的数据合规浅析283 3.1生成式人工智能的数据合规要点28 3.1.1数据隐私保护原则3.1.2数据在生成式人工智能中的角色3.1.3数据采集与预处理的合规性3.1.4模型训练与验证的合规性措施3.1.5数据评估与调整的合规性3.1.6输出结果的合规性282931323335 3.2生成式人工智能的数据合规技术手段36 3.2.1网络安全3.2.3生成式人工智能引发的伦理道德风险和应对措施3.2.2数据全生命周期合规3.2.4生成式人工智能的全生命周期合规3.2.5生成式人工智能安全评估和算法管理3745384648 凯捷提供的服务504 引用材料525 关于作者546 引言 已经成为科技和商业界的前沿领域, 为我们带来了前所未有的创新和机会。⽣成式⼈⼯智能技术的快速发展不仅提⾼了⽣产⼒,还在医疗、教育、娱乐、⾦融和众多其他领域中掀起了⼀场⾰命。⽣成式⼈⼯智能的解决⽅案预计在2-5年能达到全球认可的成熟度,率先采⽤⽣成式⼈⼯智能技术的企业将从重塑的业务模式和流程中获益最多。在当今数字时代,⽣成式⼈⼯智能(GenAI) 96%的企业将⽣成式AI列为⾼层级规划⽅向。⼤多数受访⾼管(78%)认为⽣成式AI可以使产品和服务设计下更⾼效。 尽管⽣成式⼈⼯智能在不同⾏业和领域中都有应⽤,但企业仍⾯临⼀些障碍。预训练模型的底层数据缺乏明确性、可能存在偏⻅以及缺乏包容性等问题,会给企业带来法律和声誉⻛险,甚⾄⾃定义的内部模型也可能出现“幻觉”和数据泄露的问题。凯捷咨询坚信应当负责任地使⽤⽣成式⼈⼯智能,遵守相关规范约束。 凯捷咨询认为⽣成式⼈⼯智能的⼒量将全⾯重塑未来商业架构的DNA,例如⽣成式⼈⼯智能将改变企业和客户的沟通交流模式、使⽤数据和保障隐私的⽅式以及向潜在客户营销的⽅式, 可以将⼯作流程由⾃我服务(Self-serving)转变为⾃动⽣成(Self-generating), 并且利⽤互联的情境化数据增强组织能⼒等。 本⽩⽪书旨在提供有关⽣成式⼈⼯智能的全⾯概述,以帮助组织了解并遵守相关合规要求。我们将讨论⽣成式⼈⼯智能的定义、应⽤领域、法律法规、伦理原则和最佳实践,以帮助您在⽣成式⼈⼯智能领域的⼯作中确保合法性、公平性和透明性。⽆论您是技术专家、法务从业者还是决策者,这份⽩⽪书都将为您提供宝贵的参考,助您在⽣成式⼈⼯智能的世界中保持合规并取得成功。 凯捷咨询始终关注⽣成式⼈⼯智能的商业应⽤落地, 专注于提供定制化解决⽅案。凯捷研究院(CRI)发布凯捷⽣成式⼈⼯智能主题系列报告:《解锁⽣成式⼈⼯智能的价值》。为了解企业管理层对⽣成式⼈⼯智能的看法以及应⽤情况,我们对全球来⾃13个国家的1000家企业进⾏了调研。报告显示, 在全球受访的企业中, 生成式人工智能概述1 1.1生成式人工智能的发展历程 在此小节,我们将通过时间线图引导我们回顾生成式人工智能技术的关键事件,帮助理解生成式人工智能技术的演化,为合规和伦理讨论提供基础。 Google Brain著名的论文Attention is all you need中引入了自注意力机制(self-attention)用于加速序列数据的特征提取,以及包含编码器和解码器的Transformer架构,在序列到序列(seq-2-seq)的文字理解和生成任务达成了全新的能力标杆。其影响力跨越文字(BERT, T5, RoBERTa)、图像(ViT, ImageGPT)和音频(Wav2Vec2, HuBERT, Whisper)领域。 1.2生成式人工智能的研究趋势 1.2.1大模型对齐和幻觉 将其描述为“我们如何设计一个能满足人类期望来行动的代理人”。然而,这个问题中缺少对于代理人的具体描述和定义。因此,在SamBowman后续的定义中,对齐问题变为了“如果人工智能系统拥有某些重要的能力,人类如何利用人工智能来可靠可信地完成目标”。而缺乏对人类期望定义,以及对模型对齐这一目标的追求将人们引入了提示工程这一新兴研究领域。当对⻬问题于2021年提出时,Kenton等⼈ 在生成式人工智能的研究中,最关键的问题之一是如何使通用人工智能与人类的价值和意图保持一致,这被称为对齐问题。大语言模型的本质是数学模型,而不是知识模型,即神经网络根据用户提示和上下文计算每个词汇符号的概率分布,逐步生成句子,但其生成的文本有时与用户的意图不符甚至完全相反。 一个常见的现象是,在用户刻意或无意的某些特定提示词下,大语言模型会在回答中参杂毫无根据或胡编乱造的“假事实”。这类毫无根据的错误回答可能会引导用户产生错误认知,甚至在极端情况下表现出对特定群体的偏见或敌意。这些幻觉现象的来源通常是模型训练数据中未被验证或恶意生成的语料、训练过程中未被准确定义的目标函数、或特定具有误导性的提示词输入。 1.2.2提示工程和检索增强 在与大语言模型同时兴起的提示工程研究领域中,科研人员致力于设计和优化对大语言模型的提示词以理解大语言模型的能力边界,并提升大语言模型在推理任务和其它复杂场景任务中的表现。最具代表性的提示工程方法包括少样本提示(Few-shot Prompting)、自我一致性(Self-consistency)、思维链(Chain of Thoughts)、最少到最多提示(Least-to-most Prompting)、和检索增强生成(Retrieval-AugmentedGeneration)等。 检索增强生成是当前采用最广泛的知识增强方法之一。它通过匹配结构化和非结构化数据中的知识片段,把最符合当前提示的知识片段注入到提示词中,辅助大语言模型生成有根据的回答。思维链和最少到最多提示等提示方法在某些语言模型指标上,甚至能超过经过特别精细人工标注数据训练的模型,通过低成本的提示词优化,达到了出色的模型性能。检索增强生成方法更是避免了对模型进行昂贵的微调和重新训练以获得有关特定领域的知识,从而显著优化了模型的幻觉现象,证明了提示工程的必要性和可用性。 在思维链方法中,提示模型在生成回答时还输出其思考的过程,这有助于模型在回答中包含有逻辑的思考步骤,从而生成更易于理解和准确的答案。自我一致性的方法更为直观,模型会根据简单提示生成多个基于思维链方法的答案,然后选择最一致的答案作为结果。 1.2.3通用人工智能和代理 们开始研究如何使用自主工作或半监督的代理(Agent)来完成复杂的任务。代理的核心组件在于为模型接入例如计算器、API和搜索引擎的函数工具,使其拥有与世界交互的能力,通过多轮思维链和结果传递,帮助用户完成复杂的代理任务。基于大语言模型对自然语言的理解能力,人 通用人工智能(Artificial GeneralIntelligence, AGI)是人工智能领域科研的神圣目标,旨在让人工智能系统能够自主学习并完成复杂的任务。 以ToolLLM项目为例,研究人员训练了一个能够跨越49个领域的16000多个现实世界RESTful API的代理模型,该代理模型基于Llama基座模型,被称为ToolLLaMA,能够熟练掌握泛化的复杂任务分解和未见API调用的能力。 1.2.4快速起步使用生成式人工智能 根据凯捷研究院的调查,在生成式人工智能快速普及的当下,全球超过95%的企业领导层正在探索利用这个强大的工具提升生产力并创造更多商业价值的可能性。 能被透明化管理和运维的服务器上。HuggingFace是目前最大的数据科学开源社区;包括微软、Meta AI等科技公司和StabilityAI、BigScience、智谱AI等科研机构的开源模型参数都能在该社区上找到,而无数的开发者正在使用他们的私有数据对这些基础模型微调,并将掌握了不同垂直领域知识和能力的模型重新贡献到社区中。最知名的开源中文大语言模型之一,ChatGLM是由清华大学基于GLM (GeneralLanguage Model)训练的项目;其6B参数的版本经过约1TB的中英双语数据训练,能够完成文案写作、信息抽取、角色扮演、评论比较等中文语言任务,并且INT4量化版本的模型可以在大部分消费级显卡上运行甚至微调。 现在最便捷的大模型应用是基于非开源的大语言模型服务。例如OpenAI、PaLM、文心一言等大语言模型的文字生成能力需要通过官方提供的API接口进行访问,让开发者快速将大语言模型能力嵌入自己的应用中,避免了训练和部署模型涉及的大量储存和算力成本,并能通过服务提供商假设的高性能计算设备,快速获得强大且持续更新的文字理解和生成能力。然而大语言模型服务在费用、访问频次、隐私考虑上的限制。当开发者将大语言模型服务嵌入至高访问量的应用中时,基于文字token数量收费的潜在高成本是无法忽视的一环。而在例如金融、保险或医疗行业中涉及敏感用户数据的应用场景中,将用户数据上传至第三方的API请求服务也面临着无数的数据合规考虑。 因此,对于有私有化模型需求的企业和商用场景,这类开源的大语言模型成为了首选。克服了高性能计算的成本,并在服务器上配置环境和部署模型后,企业可以完全掌握大模型运行中消耗、运算和产生的数据,确保敏感数据的隐私和安全。 因此,大部分企业在涉及大语言模型应用的时候,会考虑将开源的大语言模型私有化部署到 1.3生成式人工智能应用领域 1.3.1市场规模总览 目前生成式人工智能产业正处于培育摸索期,大部分技术还未在实际生产过程中大规模使用,商业应用场景边界和商业模式还有待探索,用户体验仍需优化。随着大模型技术发展、垂类数据的积累、用户需求的识别细化和产业生态的完善,生成式人工智能的应用层走向垂直化和业务场景趋向多样化,生成式人工智能市场有望进入万亿级规模。 1.3.2多模态应用,赋能生产力:从数据类型划分 按照生成数据类型或者模态划分,生成式人工智能的应用涵盖了文字、图像和音频等领域。生成式人工智能技术可以用于参与数字内容创作,突破传统内容创作的数量约束,有着更为流畅和高效的人机交互模式,减少了重复性的任务负担,实现生产力解放。 1.3.3聚焦个性化场景,创造业务价值:从行业划分 随着人工智能算法的迭代、算力的进步和数据的增加驱动生成式人工智能的技术变革,生成式人工智能模型的大范围连续对话能力、生成内容质量、语言理解能力和逻辑推理能力上都得到大幅提升。相比通用大模型,垂直大模型深耕特定行业和应用场景如医疗行业和金融行业,凭借其专业化和精准化的优势,更容易解决特定领域的问题,创造业务价值,实现商业变现。垂直大模型主要通过“预训练大模型+微调”的开发方式,只需针对具体任务对大模型进行二次开发,降低了企业应用的开发门槛。 生成式人工智能相关法规浅析2 随着我们对生成式人工智能技术进行了全面概述,现在我们将转向更深入的话题,探讨与生成式人工智能合规密切相关的法规问题。各国积极制定相关法规,目的是更好地管理生成式人工智能的使用,确保其对社会和个体产生积极、合法的影响,并且符合伦理要求。通过这一深入的法规解析,我们将更全面地了解如何在不断演变的生成式人工智能领域中维护合规性,构建可信的人工智能系