您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[世界经济论坛]:数据公平:生成人工智能的基础概念【英文版】 - 发现报告
当前位置:首页/行业研究/报告详情/

数据公平:生成人工智能的基础概念【英文版】

数据公平:生成人工智能的基础概念【英文版】

数据公平 : 生成 AI 的基本概念B R I E F I N G P A P E RO C T O B E R 2 0 2 3 数据公平 : 生成的基本概念AI2图片 : 盖蒂图片社Contents1数据权益的类别 42数据生命周期中的数据公平性 63基础模型中的数据公平性挑战 94关键利益攸关方的重点领域 115讨论 14免责声明本文档由世界经济论坛是对项目 , 见解领域或互动的贡献。此处表达的发现 , 解释和结论是世界经济论坛促进和认可的合作过程的结果 , 但其结果不一定代表世界经济论坛的观点 , 也不是其成员、合作伙伴或其他利益攸关方的整体观点。© 2023 年世界经济论坛。世界经济论坛报告可能会根据知识共享归因 - 非商业 - Notification 4.0 国际公共许可证和我们的使用条款重新发布。 数据公平 : 生成的基本概念AI32023 年 10 月数据公平 : 生成 AI 的基本概念Introduction在过去的几个月中 , 由于生成人工智能 ( genAI ) 工具 , 包括 ChatGPT , Bard , Midtry 和 Stable Diffusion , 出现了一系列技术进步。由于其功能 , 广泛的应用和易用性 , 这些工具的使用获得了极大的关注 , 并吸引了公众和行业利益相关者的想象力。Given its potential to challenge established business practices and operational operatory, and the promise of rapid innovation couplied with the likely of significant disruption, genAI is sparing global conversons. These expected, far - reducts have a社会层面 , 需要行业、政府、学术界和民间社会等关键利益攸关方的全面参与。这些讨论的核心在于 “数据公平 ” 的概念 - 数据治理中的一个核心概念 , 其核心是数据对个人、团体、企业和生态系统的技术系统的公平性。1它包括数据公平 , 偏见 , 获取 , 控制和问责制的概念 , 所有这些都以正义 , 不歧视 , 透明度和包容性参与原则为基础。数据公平不是一个新概念 ; 它植根于人权 , 也是数据隐私、保护、道德、土著数据主权和责任方面正在进行的工作的一部分。但是 , 数据公平和 genAI 是新的 , 并且提出了独特的挑战。用于训练 AI 模型的数据集容易产生偏见 , 从而加剧了现有的不平等现象。这需要主动审计数据和算法 , 并在 AI 过程的每个步骤进行干预 , 从数据收集到模型训练再到实施 , 以确保由此产生的 genAI 工具公平地代表所有社区。随着 genAI 的出现 , 人工智能的部署和发展速度显着提高 , 探索数据公平框架比以往任何时候都更加紧迫。本简报深入探讨了这些问题 , 特别关注基础模型中的数据公平性 , 包括 genAI 对社会的影响以及 genAI 的进一步发展工具。我们的目标有三个方面 : 建立共同的词汇以促进合作和对话 ; 确定最初的关注范围 , 以建立利益相关者可以关注的调查框架 ;积极和积极地塑造有前途的技术的未来发展。世界经济论坛数据公平全球未来理事会 ( GFC )2Envisiones this as a first step in a larger conversation, recognizing the need for further explacement and discussion to be comprehensive understanding, scrinised, and addressed. The issues are complex and现在解决它们创造了一个独特的机会来积极塑造这些令人兴奋的 , 有前途的工具的未来。方框 1 关键概念的定义为了提供上下文和清晰度 , 强调了以下关键概念 :–人工智能是一个广泛的领域 , 包括机器或计算机根据预定目标模拟人类智能的某些方面以执行各种任务的能力。3–机器学习是人工智能的一个子集 , 它利用算法使机器能够识别和学习数据集中的模式。4–生成 AI 是机器学习的一个分支 , 能够产生新的文本、图像和其他媒体 , 复制训练数据中的模式和关系。5–基础模型是一种大规模的机器学习模型 , 可以在不同的多模态数据上进行大规模训练 , 并且可以适应许多下游任务。6–大型语言模型代表了专门用于理解和生成人类语言的基础模型的子集 , 通常用于文本相关功能。 LLM 的最新迭代通过高级聊天机器人机制促进了自然对话。7 数据公平 : 生成的基本概念AI4数据权益的类别Effectively addressing the complexities of data equity requires an adjuance of the diverse viewspects held by various stakeholders regarding data. The academic literature have identified four distinct classes of data equity, which are cloitly interrelated:8–代表性公平旨在增强数据集中历史边缘化群体的可见性 , 同时也考虑目标人群的数据相关性。发展主要在全球北部范围内的模型会引入代表性差异 , 这可能会导致植根于此类数据的后续决策中的系统性偏差。为了确保 AI 训练数据和模型真实地反映所有利益相关者 , 而不会产生编码偏差 , 主动方法是必不可少的。–特征公平旨在确保数据所代表的个人、群体和社区的准确描述 , 需要将诸如种族、性别、地点和收入等属性与其他数据一起纳入。没有这些属性 , 通常很难识别和解决潜在的偏见和不平等。–Access equity 侧重于跨不同专业水平的数据和工具的公平可访问性。解决与模型构建和数据源相关的透明度和可见性问题至关重要。此外 , 访问公平还包括人工智能素养和数字鸿沟方面的差异。–结果公平与结果的公正性和公平性有关。除了开发无偏见的模型外 , 还必须对影响个人或团体的意外后果保持警惕。透明度、披露和分担责任对于实现公平至关重要。这四类数据公平与 genAI 特别相关 , 但并非详尽无遗。另外两种突出的公平类型广泛适用需要考虑的技术是程序和决策公平。这些程序要素强调了广泛的公平关切 , 包括透明的决策、对开发和部署技术的工人的公平待遇以及包容性的开发和部署实践。9进一步 , 还必须考虑时间公平 ( 可持续性和长期影响 ) 和关系公平 ( 促进公平的利益相关者关系 ) 的问题。这些后面的问题不是 genAI 或技术所独有的广义上 , 因此超出了本文的范围。尽管如此 , 它们在这里被认为是技术公平总体结构的组成部分。1 数据公平 : 生成的基本概念AI5Equity图 1 数据权益的类别程序和决策公平结果EquityRepresentation访问权限Equity功能公平性来源 : 世界经济论坛图 1 : 四类数据权益问题既相互关联 , 又受影响和影响通过程序和决策中的公平做法和考虑。 数据公平 : 生成的基本概念AI6阶段 1输入数据公平性(表示和特征公平)第 3 阶段输出数据公平性(访问和结果公平)阶段 2算法数据公平(表示、特征、访问公平性)数据生命周期中的数据公平性简化表示有助于显示数据公平如何渗透到数据生命周期。在每个阶段 , 不同类别的数据公平会引起特定的挑战和担忧 , 说明需要采取多方面的方法来减轻潜在的危害。F i g u r e 2在整个数据生命周期中的数据公平性来源 : 世界经济论坛图 2 : 数据生命周期中的数据公平性。确保整个数据生命周期中的数据公平性涉及多个阶段 : 阶段 1 处理用作开发基础模型的输入的数据。阶段 2 是算法公式化和设计用于分析的中间阶段和解释输入数据。阶段 3 侧重于 genAI 应用程序的输出数据。在某些情况下 , 生成的输出可以用作输入以进一步训练基础模型 , 从而加剧数据公平挑战。2 数据公平 : 生成的基本概念AI7方框 2 整个数据生命周期中的数据公平性为什么要专注于基础模型 ?基础模型是许多 genAI 工具的核心。它们通常在大型和复杂的数据集上训练。基础模型可能会编码反映人类偏见、偏见或误解的结果 ; 训练算法可能会辨别不正确的关系或上下文。阶段 1 : 输入数据公平性 ( 表示和特征公平性 )Input data equity centrates on the data collected and used in building foundation models while also addressing the potential defunctions this data might entail. As noted, foundation model training data may reflect social inquities and result在社会偏见中。因此 , GenAI 产生反映或放大这些模式的输出。因此 , 确保数据集中不同个人、群体和社区的公平代表性对于保证所产生结果的相关性和准确性至关重要。此要求超出了个人代表的范围,涵盖了信息标签中对社区的准确描绘。为了使基础模型的输出真正反映数据中固有的所有个人和群体的观点和现实,必须促进公平,减少偏见和平等的解释力。此外, 所采用的标签必须适于在算法学习模型内使用。Input data equity should also become the rights and well - being of data subjects. This includes aspects such as secured informed consent, just compensation for data contributers and annotators, and navigating the intricate trade - off linked to数据包含。这些权衡是复杂的。虽然更广泛的数据包含可以解决公平问题 , 但它可能同时通过加强监控来加剧隐私担忧。同样 , 生成新内容可以扩大创意选择 , 但可能并不总是确保对作品有助于模型培训的创作者的公平补偿。输入方面的预期数据公平性程度可能会根据基础模型的性质和目标而有所不同。例如,商业应用程序可能会优先考虑最终用户的透明度,披露数据的范围和覆盖范围,以及针对特定群体的敏感性分析。在福利分配或法律应用等其他领域,投入方公平可能要求明确纳入所有相关社区,以确保真正和切实的包容性。阶段 2 : 算法数据公平性 ( 表示、特征、访问公平性 )Algorithmic data equity introduces a pividual phase: the intermediate stage where algorithms are formulated and designed to interpreting input data, thereby generating output results. This stage necessitates the incorporation of fairity, bias management and diversity including算法的操作。必须确保这些算法尽可能公正地发挥作用 , 避免延续不良偏见和容纳不同的观点。实现算法数据公平涉及在其设计中包括不同的观点 , 并评估其对不同人口群体的影响。算法偏差可能来自几个因素,例如合适数据集的可用性。当使用文化或地理上特定的数据来训练模型时,人们会产生担忧,这些模型随后将与最初未在训练数据中表示的