您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [同济大学法学院&上海市人工智能社会治理协同创新中心]:开源大模型法律风险及防范 (2025) - 发现报告

开源大模型法律风险及防范 (2025)

报告封面

开源大模型法律风险及防范(2025) 版权声明 本指引版权属于开源法律治理课题组及成员单位所有,受法律保护。转载、摘编或利用其它方式使用本指引的,应注明来源。违反上述声明者,本课题组及成员单位将追究其相关法律责任。 编写团队 开源法律治理课题组指导单位: 上海市人工智能社会治理协同创新中心同济大学法学院互联网与人工智能法律研究中心哔哩哔哩法务团队 2025年版本起草人:(姓氏笔画为序) 朱尧、刘烨、陈沪楠、张韬略、曹蕾、曾逸然、廖慧姣 基金项目: 本研究报告获得上海市科学技术委员会科技创新行动计划-软科学项目“开源人工智能的法律风险及防控研究”(项目批准号:25692106900)的资助 执行摘要 1.研究背景与具体问题 随着人工智能(AI)技术从传统的“开源软件”时代迈向“开源大模型”时代,开源已成为推动技术创新和打破科技垄断的重要力量。然而,开源大模型涉及代码、参数(权重)、数据等复杂组件,其法律属性、私法保护及合规义务远比传统软件复杂。本报告由同济大学互联网与人工智能法律研究中心、上海市人工智能社会治理协同创新中心及哔哩哔哩法务团队联合组建课题组编写,旨在识别开源大模型全生命周期(孵化期与市场化期)中的法律风险,并为企业提供系统的合规与防范建议。 目前业界对“开源”定义未达成共识,存在从“完全封闭”到“完全开放”的多种形态。其中,“开放权重”(Open Weights)成为当前高性能模型发布的主流策略(如Meta的LLaMA系列)。开源AI不再仅仅是代码的开放,还涉及人工智能模型本体,即包括实现与运行模型所需的各类技术组件,如模型权重、训练数据和算法,以及模型的衍生物,即基于模型生成的输出内容。通过分析,上述开放对象分别可享有一定的民事权益。 注:○表示司法裁判有争议,个案可能出现支持或反对的结果。 本报告将开源大模型的生命周期划分为“孵化阶段”与“市场化阶段”。孵化阶段指从人工智能项目立项、开源发布前的技术准备和开发阶段、开源项目发布阶段、发布后的社区运营和维护、最后到项目逐步成熟到足以转化为产品或服务的整个时期。市场化阶段指开源模型已经孵化成功后,由开源项目管理者或者第三方以模型供应商、服务提供者的身份向市场推广应用。 尽管闭源模型(如最新的GPT系列)在性能上仍占优势,但开源模型(如DeepSeek、Qwen、LLaMA等)正在迅速追赶,促使更多企业采用“小模型开源、大模型闭源”或“代差开源”的混合策略。传统的开源软件许可证(如Apache 2.0)难以完全覆盖AI的复杂性。新型许可证如RAIL(负责任AI许可证)和LLaMA系列许可证应运而生,它们引 入了“行为限制”(如禁止军事用途、限制大规模商用)等新型内容条款。 2.孵化阶段的风险识别 (1)规划阶段:战略决策与权属厘清 知识产权归属风险:企业需在开源前开展尽职调查,确保对拟开源的大模型及组件享有完整所有权,需排查职务作品、委托开发或合作开发合同中的权属约定,防止第三方干涉。 资产流失风险:开源可能导致商业秘密(如核心算法、参数)直接丧失保护,或因技术方案提前公开而导致专利申请丧失新颖性。此外,公开核心代码可能导致思想被竞争对手轻易借鉴。 监管红线风险:需评估开源模型是否涉及国家安全、国家秘密泄露风险,以及是否触犯特定行业(如金融、银行保险)的准入与合规特别规定。 (2)开发与测试阶段:数据合规与侵权防控 著作权侵权风险:未经授权使用受版权保护的材料进行模型训练存在侵权风险,虽然美欧有部分合理使用抗辩的判例,但中国法律对此尚无明确豁免,且若模型输出与原作品相同或实质性相似,被判定侵权的风险极高。存在员工非法使用前雇主代码(如“美摄诉字节案”)或未遵循开源许可证(如GPL传染性)使用第三方开源代码的风险。 人格权与数据权益风险:训练数据若包含未经授权的肖像或声音,可能侵犯肖像权与声音权益。使用个人信息需遵循《个人信息保护法》的“告知-同意”规则,爬取商业数据需避免违反《反不正当竞争法》。 知识蒸馏风险:利用他人模型生成的数据进行蒸馏训练,若违反了原模型的使用协议(如禁止开发竞品条款),可能构成“以不正当手段获取商业秘密”。 数据合规义务:需履行数据安全保护、风险监测及数据出境安全评估等公法义务。 (3)发布阶段:许可证选型与设计 传统许可证的不适配:Apache 2.0等传统软件许可证仅覆盖代码,难以有效涵盖模型参数、数据集及模型输出等AI特有组件。 许可证冲突与模糊:项目中混用多种许可证可能导致兼容性冲突。若许可证条款设计模糊,未清晰界定“衍生品”范围、商业使用限制及模型输出的权属,将引发后续争议。 涉外争议管辖:鉴于地缘政治因素,开源协议中的准据法与争议解决机制选择成为技术主权争夺的关键,需慎重设计。 (4)运维阶段:社区治理与持续合规 此阶段关注外部贡献的引入风险及持续的监管合规。 贡献者风险管理:接收社区贡献的代码或组件时,需防范侵权代码流入,建议签署贡献者许可协议(CLA)以明确知识产权授权范围。 网络安全与算法监管:开源项目的运维者需履行网络安全漏洞管理义务。若涉及算法推荐、深度合成或生成式AI服务,需履行相应的备案、标识、安全评估及反歧视等法定监管义务。 反垄断合规:需警惕通过开源生态实施经营者集中或滥用市场支配地位(如限制性许可、搭售)的风险。 3.市场化阶段的风险识别 (1)私法风险:知识产权与合同争议 知识产权侵权风险(输出端):即便模型未直接使用侵权数据训练,若用户输入诱导或模型“过拟合”导致输出与他人作品实质性近似,服务商若未尽到过滤、审核等合理注意义务,可能构成间接侵权。若涉及互联网检索增强(RAG),引用内容需符合“适当引用”标准。模型生成带他人商标(如Getty Images水印)的虚假图片,或将商标与低质量内容关联(如《纽约时报》诉案),可能构成商标侵权或驰名商标淡化。模型可能无意中输出训练数据中包含的未公开敏感信息。 合同与用户协议风险:协议中约定“收集用户输入/输出用于模型优化”,若未脱敏或涉及用户知识产权,可能引发侵权及隐私纠纷。尽管协议常声明“不对输出准确性负责”,但若属于格式条款且不合理免除责任,或未采取技术措施过滤违法内容(如涉恐言论),免责条款可能被认定无效。试图通过协议禁止用户利用模型输出开发竞品(如OpenAI、Meta的条款),可能因违反《反不正当竞争法》或构成滥用市场支配地位而无效。用户协议若未适配目标国法律,可能面临合规诉讼。涉及网络安全审查、算法推荐备案、深度合成标识等义务。若模型被用于生成虚假信息或遭受攻击,运营者需承担数据安全主体责任。 (2)公法风险:监管合规与地缘政治 产品质量与安全风险:作为产品生产者,需确保不存在危及人身财产安全的缺陷,符合国家强制标准。需履行网络安全等级保护、漏洞管理及用户信息保护义务。 地缘政治风险:针对先进模型权重(如ECCN 4E091分类)和AI芯片的出口管制加剧,中国企业开发的模型(如DeepSeek)在美国可能面临被禁用的风险(如“脱钩法案”、军事禁令)。AI交互界面、数据分析等技术出口需通过商务部许可,且需防范被列入“不可靠实体清单”的风险。欧盟及成员国(如意大利DPA)可能以数据隐私合规不足为由, 限制中国开源模型在当地的商业运营。 4.企业防范相关法律风险的建议 开源大模型是技术红利与法律风险的共生体。企业在享受开源带来的生态优势时,必须从“代码思维”转向“模型思维”。本报告针对前文识别的法律风险,提出了“许可证选择——合规体系建立”的两维防范体系:企业应从源头的开源策略选择入手,建立跨部门的合规治理架构,并针对私法(知识产权与合同)与公法(监管合规)风险实施精细化管理。通过精细化的许可证设计、严格的数据合规管理以及前瞻性的全球监管应对,构建牢固的法律防火墙。 目录 91.研究的背景和具体问题......................................................................................................11.1开源历程:从开源软件到开源人工智能....................................................................11.1.1开源软件.................................................................................................................11.1.2人工智能的开源争议.............................................................................................21.2开源人工智能的定义、组件及阶段............................................................................41.2.1开源人工智能的开放对象.....................................................................................41.2.2开源人工智能的定义.............................................................................................51.2.3开源人工智能及生成物的民事权益.....................................................................61.2.4开源人工智能的开源孵化阶段与市场化阶段...................................................121.3开源人工智能生态现状..............................................................................................141.3.1开源人工智能项目、组织及平台.......................................................................141.3.2不同类型/程度的开源(开放)人工智能..........................................................161.3.3开源(开放)人工智能的产业地位...................................................................181.3.4开源人工智能的主流许可证...............................................................................281.4研究的问题和意义......................................................................................................322.开源人工智能孵化阶段的法律风险识别........................................................................352.1开源人工智能孵化阶段的主要工作..........................................................................352.2开源人工智能孵化阶段的主要法律风险点...................