您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国通信院]:人工智能知识产权法律问题研究报告(2023年) - 发现报告

人工智能知识产权法律问题研究报告(2023年)

人工智能知识产权法律问题研究报告(2023年)

(2023年) 中国信息通信研究院知识产权与创新发展中心2023年12月 版权声明 本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其他方式使用本报告的文字或观点,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。 前言 随着新一轮科技革命和产业变革的深入发展,人工智能技术正迅速推动人类社会智力创新、经济高质量发展,以及生产生活方式效率的提升。人工智能为全球产业发展提供新动能的同时,也带来了诸多新的问题和挑战。当前人工智能知识产权治理正处于法律研究和规则制定阶段,迫切需要解决全球范围内多方面的问题。一是产业对大模型数据使用量级的快速提升突出了著作权作品合理使用原则问题,尤其在原创作者和大模型企业的著作权使用上存在明显争议。二是人工智能技术生成的作品呈现成倍释放的趋势,给当前著作权归属和适用制度带来冲击,考验着知识产权治理的能力。 各方都在积极寻求解决人工智能领域知识产权问题的路径。美国政府加速法律问题研究,产业主体主动承担训练数据和作品的侵权责任;日本通过明晰人工智能数据训练中的合理使用标准,平衡企业和原创作者间的关系;欧盟以促进产业发展的数据挖掘原则为抓手,推进著作权治理向精细化方向发展;中国通过立法和司法协同,探索人工智能知识产权最佳保护模式。 各方对于人工智能技术有较大的知识产权风险已经达成共识,知识产权制度必须适应新的现实和新的法律挑战,形成符合产业和各方行为预期的知识产权治理理念和规范。基于新的人工智能发展阶段的知识产权治理理念,需要坚持产业发展优先的原则,秉持共商共建理念,推动输入端和输出端关键规则构建,探索治理主体创新。 目录 一、人工智能产业发展概况和知识产权环境.............................1(一)人工智能产业发展概况......................................1(二)人工智能产业知识产权环境..................................3二、现阶段全球人工智能领域主要知识产权问题.........................4(一)输入端数据训练的合理使用问题..............................5(二)输出端内容著作权保护范围问题..............................8三、人工智能领域各方知识产权治理相关实践..........................11(一)美国:政府加速法律研究,产业主体承担责任.................11(二)日本:明晰合理使用原则,避免侵犯原著作权.................14(三)欧盟:保护企业数据挖掘,推进治理精细水平.................15(四)中国:明确尊重知识产权,立法司法协同探索.................17(五)小结:各方积极应对挑战,治理路径逐渐清晰.................19四、人工智能知识产权治理展望......................................21(一)完善治理理念.............................................22(二)健全治理规则.............................................23(三)统筹治理主体.............................................24 表目录 表1输入端合理使用争议.............................................5表2输出端著作权保护争议...........................................9表3各方应对人工智能著作权问题的保护路径..........................21 一、人工智能产业发展概况和知识产权环境 (一)人工智能产业发展概况 人工智能(Artificial Intelligence,简称AI)被视为引领未来产业发展的战略性新兴技术,正在推动着一场全新的科技变革和产业创新。随着机器学习(machine learning)、计算机视觉(computer vision)、自然语言处理(natural language processing)等领域的快速进展和技术不断完善,人工智能对社会的智力创新和进步、经济的提质增效,以及生产和生活效率的提升都产生了深刻的影响。 从发展阶段来看,深度学习技术的快速突破正在驱动人工智能以前所未有的速度逼近通用智能。自2014年起,随着以生成式对抗网络(Generative Adversarial Network,简称GAN)为代表的深度学习算法的提出和迭代更新,人工智能处理单一任务水平大幅提升,专用式人工智能技术逐渐成熟。而2022年底美国开放人工智能研究中心(OpenAI)发布的ChatGPT则代表了通用式人工智能的技术进化,聚焦于人机交互的封闭环境,人工智能已经能够同时实现多项复杂的任务能力。深度学习在未来仍将持续“大模型+大算力+大数据”的主导路线,逐渐逼近人机交互环境下的有限度通用智能,这也对算力、研发等工程化能力提出更高要求。同时,海量专用小模型正在更深入与行业核心业务能力相结合。在“大模型主导,行业小模型应用落地”两类路线叠加驱动下,人工智能将持续规模化应用,并不断逼近与人、环境交互协同的通用智能。 从产业布局看,领军企业持续迭代基础通用大模型,主导力量正 在逐步形成。一是,领军企业持续迭代基础通用大模型,完善各类模型能力布局,探索产业服务模式。以OpenAI的GPT-4,谷歌(Google)的bard,百度文心一言大模型,科大讯飞星火大模型等为代表,大语言模型正在逐步将其能力范围扩大至金融、医疗、能源等领域,探索大模型落地的专业化场景。二是,开源模型技术体系打破闭源模型垄断壁垒。以元宇宙公司(Meta)Llama2模型,稳定人工智能公司(StabilityAI)的稳定扩散模型(stablediffusion),斯坦福大学羊驼(Alpaca)模型等为代表,开源模型已成为部分企业及高校研究机构的发力点,逐步赋能更多开发者和学习者,加速产业整体发展和进步。三是,贴合业务场景的专业大模型纷纷入局。例如上海人工智能实验室开发的全球首个城市级实景三维大模型书生·天际,网易游戏伏羲大模型等,创新主体及行业企业紧跟大模型热潮,与自身业务场景结合,提升对外服务能力。 从商业化落地来看,人工智能行业主流产品形态是生成式人工智能(AI Generated Content,简称AIGC)。目前,大模型在日常办公、文本创作、图像视频生成、游戏等领域拥有较大发展潜力,商业化前景相对清晰。在文本生成端,AIGC已经可以利用自然语言生成技术自动生成文章、小说、新闻摘要、诗歌等文本内容;在图片生成端,图片风格转换、图像修复和补充、生成艺术作品等产品正逐渐落地;在音视频生成端,合成音乐、生成环境音效、视频合成和特效生成等,AIGC可以提升制作效率。未来,AIGC能够针对科学发现类的任务,逐步渗透生产力变革。大模型有望作为基础赋能工具,发现更多领域 通解,在更多领域实现价值创造和产业升级,如解决数学问题,发现新材料配方,配合药物研发预测药物理化性质等。 (二)人工智能产业知识产权环境 知识产权问题是企业对于使用生成式人工智能的首要担忧。在德国人工智能内容治理公司Acrolinx于2023年8月对86家财富500强公司的调查中1,近三分之一的受访者表示,知识产权是使用生成式AI的最大担忧。而由代码管理公司Gitlab对超过1000名从业者开展的调查发现2,95%的高级技术主管认为知识产权和隐私保护是使用AIGC的首要考虑对象,也有79%的受访者担心人工智能工具会获取知识产权或私人数据。 究其根本,还是现有的人工智能技术在著作权、专利权、商标权、反不正当竞争等方面都面临法律挑战。在著作权方面,人工智能应用程序生成文学和艺术作品的能力日益增强,可利用大模型模拟人类思维活动、从事智力成果的生成与传播活动,这对著作权制度一直与人类的创造精神以及对人类创造力表达的尊重、奖励和鼓励立场产生挑战。如算法和模型的训练阶段,人工智能训练数据可能存在输入端的侵权责任问题;而在内容生成阶段,输出端的生成物是否属于著作权法保护范围也备受争议。在专利权方面,一是人工智能应用或算法是否应被视为可专利的计算机程序或软件,以及其可专利客体的审查规则究竟如何细化一直备受关注;二是人工智能本身是否具备法律主体 或专利权人资格。在商标权方面,随着越来越多地使用人工智能进行营销,以及消费者受算法推荐影响,需要重新考虑人工智能推荐算法是否会淡化品牌的商标价值。在反不正当竞争方面,人工智能生成内容模糊了原创性辨识,难以判定内容的真实性,使得自动化生成的内容可以通过虚假宣传或误导消费者,可能会涉嫌不正当竞争行为。 从产业关心热点来看,核心问题聚焦在著作权上。一方面,需要著作权法界定输入端的合理使用范围和侵权责任承担。在人工智能数据的输入端,大语言模型需要使用大量语料数据。而开发者和企业在未经允许的情况下,通过算法设计和程序运行的自动化,利用他人著作权作品片段组合成创作物表达,“洗稿”“拼凑”其他作品,可能会构成对他人作品的侵权。此时,需要利用著作权法上的合理使用原则来对相关侵权行为进行合法豁免,也需要著作权法主动厘清现有大模型训练中的侵权责任认定规则。另一方面,需要著作权法明确输出端人工智能创作物的保护范围。人工智能的创作活动可能涉及人类作者和人工智能系统之间的合作或分工。尽管人工智能系统可以协助创作者,但通常需要人类创作者来设置参数、提供指导、进行编辑和选择最终的创意成果。著作权可以保护知识和智力劳动的成果,确保创作者得到应有的认可和回报,因而是明确作品权利归属和保护的合理选择。对于产业链上下游的不同参与主体,著作权法参与了重要的利益分配环节。 二、现阶段全球人工智能领域主要知识产权问题 本报告分析主要以著作权问题为主。伴随着人工智能产业的快速 发展,产业界各方在知识产权领域展开博弈,有关人工智能生成物的知识产权争议也在快速出现。本报告对国外人工智能知识产权争议和案例进行梳理,内容如下: (一)输入端数据训练的合理使用问题 输入端合理使用的争议主体主要为著作权作者和大模型公司。一方为担心其作品被人工智能用于数据训练和学习的原创作者,以美国作家协会、George R.R. Martin、Paul Tremblay、Mona Awad、纽约时报、盖蒂图片等为代表。另一方被诉主体为大模型企业,如OpenAI、微软、谷歌等。为了提供更好的使用体验,生成式人工智能在生成文字作品时,必须进行大量高质量的语料训练。语料库一般会包括多领域的文本素材,如新闻、学术论文、小说、科技文章、医学文献等,以确保模型具备广泛的知识。企业一般会在使用数据之前进行数据清洗,删除或替换可能涉及著作权的内容,但仍有可能使用特定的受著作权保护内容进行训练。此外,大模型的多模态能力使涉案作品呈现出多样化的特点,如George R.R. Martin等诉OpenAI案涉及文字作品,Sarah Andersen等诉中道公司(Midjourney)和盖蒂图片(GettyImages)诉Stability AI公司涉及图片作品,MatthewButterick诉GitHub案中涉及程序代码等。目前各方对大模型训练中合理使用的标准不尽相同,也因此引发各方主体困扰和争议。 从争议发生的原因来看,一是,权利人海量但授权机制不明晰。首先,人工智能模型训练需要多个来源的数据,如源自互联网、公共数据库、个人创作等。由于人工智能模型训练的范围越来越广,涉及的权利人也越来越多。在文本生成模型的训练中和在图像生成模型的训练中,海量的作品都存在许可成本问题。其次,不同作品的授权机制和价格各