您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OECD&GPAI]:人工智能训练中使用爬取数据引发的知识产权问题 - 发现报告

人工智能训练中使用爬取数据引发的知识产权问题

信息技术2025-02-01OECD&GPAI故***
AI智能总结
查看更多
人工智能训练中使用爬取数据引发的知识产权问题

署名——你必须注明出处。封面图片:© Kjpargeter/Shutterstock.com致代表团:© 欧洲经济合作与发展组织 2025前言署名 4.0 国际 (CC BY 4.0)DSTI/DPC/GPAI(2024)2/FINAL2 基于爬取数据的人工智能中的知本文也可在O.N.E 会员与合作伙伴处获取,参考代码为:翻译–你必须引用原始作品,标明对原始作品的修改,并添加以下文字:如果原始作品与翻译之间存在任何差异,则仅应视为原始作品的文本有效。该报告由李铁里奇教授(杜克大学法律与负责任技术杰出教员)、卡琳·佩尔塞特和萨拉·菲亚洛·埃斯波西托撰写,并在奥黛丽·普朗克的监督下完成,她是经济合作与发展组织科学、技术与创新司副司长.本文件及其包含的所有数据和信息,均不影响任何领土的地位或主权,也不影响国际边界和界限的划定以及任何领土、城市或地区的名称。本报告考察了人工智能(AI)与知识产权权利交汇处近期发展,重点关注数据抓取实践。报告概述了数据抓取在AI培训中的作用、当前的法律框架和利益相关者的观点,以及初步考虑和潜在的政策方法,以帮助政策制定者应对这些问题并促进对数据抓取的更深入了解。本作品根据知识共享署名 4.0 国际许可协议发布。通过使用本作品,您同意受该协议条款的约束(https://creativecommons.org/licenses/by/4.0/).本文由全球人工智能伙伴关系(GPAI)于2025年1月30日通过书面程序批准解密,并由经济合作与发展组织(OECD)秘书处准备发表。该报告由经济合作与发展组织人工智能治理工作组(AIGO)于2023年11月和2024年6月会议上讨论。人工智能全球伙伴关系(GPAI)在其2024年11月全体会议上讨论了这项工作。 OECD 人工智能论文 人工智能中使用网爬取数据涉及的知 3第三方材料– 该许可不适用于作品中的第三方材料。如使用此类材料,您需负责获得第三方许可,并承担任何侵权索赔责任。你不可以使用经合组织的标志、视觉标识或封面图片,除非获得明确许可,或暗示经合组织认可你使用该作品。适应–你必须引用原始作品,并添加以下文字:这是经济合作与发展组织(OECD)原始作品的改编。本改编中表达的观点和使用的论点不应被视为代表经济合作与发展组织或其成员国官方立场。根据本许可协议产生的任何争议应按照常设仲裁法院(PCA)仲裁规则2012进行仲裁。仲裁地点应为巴黎(法国)。仲裁员人数应为一 OECD 人工智能论文名。 4 基于“抓取数据”的AI中的知致谢最后,团队感谢经合组织团队成员的宝贵输入和审阅:约翰·塔弗(John Tarver)提供了编辑协助,以及安德雷娅·富塔多(Andreia Furtado)在出版和格式方面的支持。他们的参与显著提升了这份报告的质量。本文也受益于2024年1月、3月和5月法国GPAI专家支持中心(Inria)支持的数据抓取和知识产权权利GPAI研讨会上的讨论。这些研讨会依据查塔姆屋规则举行,汇聚了不同领域的学者、实践者和其他利益相关者,我们对所有参与者的宝贵贡献表示感谢。作者尤其感谢奥蕾莉·西蒙德、扬·迪特里希、凯特琳·博夫、约瑟夫·德雷克斯和达莉亚·金在组织这些活动中的领导作用以及他们宝贵的见解。同时,我们也感谢杜克大学在其华盛顿特区办事处举办了两场研讨会,以及德国慕尼黑的马克斯·普朗克创新与竞争研究所举办了一场活动。作者进一步感谢世界知识产权组织(WIPO)的米歇尔·伍德和乌尔里克·蒂尔在AIGO委员会会议和研讨会期间提供的干预和支持。此外,塞琳娜·卡伊拉和拉什德·阿伯尔森为报告的草拟提供了大量意见。秘书处也感谢经济合作与发展组织(OECD)中各利益相关者群体的宝贵贡献,特别是妮可·普里默、巴里·奥布赖恩和梅利丝·贝尔维勒(OECD商业——BIAC);帕姆·迪克逊(公民社会信息社会咨询——CSISAC);以及莎拉·詹姆斯(工会咨询委员会——TUAC)。“基于抓取数据的智能训练中的知识产权问题”这篇文章在人工智能治理工作小组(AIGO)和全球人工智能伙伴关系(GPAI)会议上进行了展示和讨论。因此,它极大地受益于众多国家代表和专家的反馈和建议。作者们诚挚感谢巴西、哥伦比亚、法国、德国、以色列、日本、墨西哥、新西兰、新加坡、瑞士、土耳其共和国、英国和美国代表团的宝贵见解。特别地,他们衷心感谢富兰克林·罗德里格斯·霍耶(巴西)、大卫·塔姆斯特尔(美国)、苏珊·艾伦(美国)、杰西·邓尼茨(美国国家标准与技术研究院)、迈克尔·沙皮罗(美国)、乌尔里克·梅茨尔(德国)、拉莉萨·林(新加坡)、梅丽莎·特凯利·奥尔图卢(土耳其)、安吉·利泽塞特·康特拉拉斯·萨纳布里亚(哥伦比亚)、约翰·拉勒和米歇尔·雷菲(法国)、齐夫·卡齐尔和伊登·伊斯雷利(以色列)、萨拉·博克斯(新西兰)、朱利安·弗罗内克(德国)和约瑟夫·菲利普斯(英国)的贡献。 OECD 人工智能论文 4初步考虑和潜在的政策方法282 人工智能数据抓取生态系统3 数据抓取的法律环境及日益增长的法律诉讼 22基于刮取数据的人工智能中的知 5数据抓取可能涉及多种知识产权和类似权利,包括著作权、数据库权、商标权、商业秘密、公开权与人格权2非法抓取版权材料引发疑问,即抓取的数据的收集或使用是否构成版权侵权23此外,关于人工智能生成内容的风格、肖像和宣传权利的索赔正在出现。27一份自愿行为准则,旨在帮助应对数据抓取所带来的问题29鼓励能够保护知识产权、使权利人更容易控制其数据访问权,并支持许可机制的技术工具33标准合同条款有助于为数据抓取规划一条负责任的道路34提高对知识产权问题和数据抓取的认识也起着至关重要的作用35研究机构与学术界常使用数据抓取来收集用于学术与科研目的的数据19人工智能数据聚合器收集并使抓取的数据对第三方可用19数据抓取直接影响到拥有知识产权的作品的创作者和所有者201 理解AI数据抓取14数据抓取组件包括数据收集、数据预处理和数据存储17人工智能,包括生成式人工智能,正在知识产权领域引发复杂问题11“数据抓取”用于编译数据以训练人工智能系统,带来了重大挑战12 执行摘要 9目录摘要OECD 人工智能论文致谢 4前言 2简历介绍2 781119 6 基于爬取数据的人工智能中的知图例附件a. 不同司法管辖区的部分版权例外情况37注释表格参考文献图1. 人工智能模型开发生命周期15图2。应对人工智能数据抓取中与知识产权相关挑战的潜在政策方法28表1.部分司法管辖区中AI特定知识产权计划的总结26表2. 潜在的人工智能开发者和运营者数据抓取行为准则中,与知识产权相关问题的初步条款32表3. 潜在数据抓取行为准则的初步AI操作员IP相关工具34 4149OECD 人工智能论文 摘要OECD 人工智能论文 人工智能(AI)领域近期技术进步,尤其是生成式AI的兴起,引发了关于知识产权(IP)格局的疑问。随着对AI训练数据需求的激增,某些数据收集方法引发了关于知识产权及其他权利保护的担忧。本报告概述了AI与部分知识产权权利交叉领域的关键问题。旨在促进对数据抓取——获取用于开发许多大型语言模型所需AI训练数据的主要方法——的理解。它分析了数据抓取技术,确定了关键利益相关者,以及全球范围内的法律和监管响应。最后,它提供了初步考虑和潜在政策方法,以帮助政策制定者在处理这些问题时进行指导,确保AI的创新潜力得以释放,同时保护知识产权及其他权利。 8 基于网爬取数据的人工智能中的知简历近期人工智能技术领域的进步,特别是生成式人工智能的发展,引发了知识产权格局的相关问题。随着人工智能训练数据需求的不断增长,某些数据收集方法引发了关于知识产权及其他权利保护的担忧。本报告概述了人工智能与部分知识产权权利交叉领域的重大问题,旨在促进对这些问题的更好理解网络爬虫从数据(数据提取),一种获取许多大型语言模型开发所需训练数据的关键方法。它分析了不同的技术网络爬虫识别主要利益相关者,以及全球范围内的法律和监管回应。最后,本报告提出了思考和公共政策建议,以促进技术创新,同时保护知识产权。 OECD 人工智能论文 执行摘要OECD 人工智能论文数据抓取现在已经是一种普遍的做法,但它包含多种方法,目前缺乏一个普遍接受的定义。数据抓取一词常与“数据挖掘”相混淆,“数据挖掘”指的是识别模式、趋势和相关性的计算过程,也常与技术“网络爬虫”等相混淆。本报告突出了定义中的不一致性,并提出了数据抓取的广义工作定义。数据抓取的组成部分包括数据收集、数据预处理和数据使用。本报告分析了不同的抓取技术,强调了共同/标准术语的需求以及这些方法之间更清晰的区分。数据抓取生态中的不同参与者引发各种类型的法律问题。其中一些人也利用数据抓取来支持研究和其它事业,这表明需要针对不同使用场景制定政策工具。数据抓取生态系统涵盖研究机构和学术界、AI数据聚合商,以及科技公司和平台运营商。研究机构和学术界经常使用数据抓取来收集学术和科研目的的数据。据报道,AI数据聚合商将抓取的数据提供给第三方,通常没有明确的许可条款或明确的数据来源披露,引发了知识产权和其他法律问题。科技公司和平台运营商既是抓取数据的来源,也是常规的数据抓取者。近期人工智能的进展,特别是生成式人工智能的出现,给知识产权(IP)领域带来了复杂的挑战。人工智能模型的发展、测试和验证严重依赖于对大型数据集的访问,从而推动了对训练数据的激增需求。收集此类数据的一个常用方法是“数据抓取”,在本报告中,数据抓取是指从第三方网站、数据库或社交媒体平台自动提取信息。数据抓取直接影响到拥有知识产权的作品的创作者和所有者,尤其是在未经权利人同意或支付费用的情况下进行时。抓取活动可能涉及多种类型的知识产权和类似权利,包括版权、数据库权利、商标权、商业秘密、公开权和道德权。一项“数据抓取行为准则”、标准合同条款、标准技术工具以及提高意识的相关举措,能够帮助以国际协作为方式,为数据抓取规划出一条负责任的道路。如果它是在广泛而多样的利益相关者(包括权利人、研究人员、人工智能开发者、民间社会和政策制定者)的输入下开发的,这将特别有效。围绕知识产权数据抓取的法律环境错综复杂且快速发展。现行的知识产权法律,许多都早于现代人工智能实践,在不同司法管辖区之间存在差异,增加了其适用难度。数据抓取经常涉及受知识产权保护的内容,引发关于侵权、合理使用或文本和数据挖掘(TDM)条款的适用性以及遵守合同条款和条件的问题。抓取受版权保护的材料引发关于抓取数据的收集或使用是否构成版权侵权的问题。全球范围内,该领域的诉讼正在增加,美国、欧盟以及其他地区出现了备受瞩目的案例。此外,关于人工智能生成输出——尤其是未经授权模仿个人风格、声音或形象的问题——已促使各国采取不同法律措施,旨在保护权利和防止滥用。 10 在被刮取数据的AI中的知•提高意识数据抓取及其法律影响可以赋予利益相关者有关如何保护和管理工作权的信息。这包括帮助权利人了解其保护措施,教育人工智能系统用户关于负责任的使用,并确保人工智能数据生态系统中所有参与者都了解其角色和责任。•标准技术工具有助于保护知识产权,并使权利人更轻松地管理对其数据的访问。这些工具可包括数据访问控制机制、自动合同监控和直接支付系统。此类标准化工具可简化组织的合规流程,同时简化权利人在多个平台上的权利保护。•一份自愿的“数据抓取行为准则”可以制定广泛适用的规定,同时为人工智能生态系统中的不同参与者提供具体指导。这些规定可以解决人工智能数据聚合者和网络数据使用者之间的不同角色。为了促进一致性,该准则可以包含标准术语,确保利益相关者对网络数据采集活动有共同的理解。此外,它还可以包含监督遵守情况的机制,例如一个登记系统,并提供透明度和文档实践方面的建议。最后,该准则可以包含标准合同条款。•标准合同条款可以解决与数据抓取相关的法律和运营问题。这些条款可以作为可选的起点,同