您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [上海交通大学&清华大学&阿里研究院]:开源人工智能:合作的价值与未来研究报告 - 发现报告

开源人工智能:合作的价值与未来研究报告

报告封面

引言:人工智能进入开源时代...............................................01开源人工智能的价值:超越竞争的合作............................02开源人工智能在中国:概况与经验.....................................04开源人工智能在中国:来自中国社群的第一份回应.....06发展“负责任开源人工智能”的行动倡议.............................10 一、引言:人工智能进入开源时代人工智能已全面迈入开源时代:人工智能开源项目正在迅速增加①,最先进的人工智能开源模型的性能正在快速逼近闭源模型,而轻量级的开源模型也正在快速降低训练与使用成本,在适配多场景差异化需求的同时赋能千行百业。因为开源,越来越多的人开始使用模型、调试模型、学习模型、创造模型;因为开源,人工智能不再是技术圈的专属而成为普通劳动者的工具、老师及伙伴;因为开源,我们正在重拾以技术创新推动人类社会发展的信心与信念。不过,我们并不能理所当然地认为,人工智能开源及上述美好会自然发生。围绕开源人工智能价值、风险的争议在过去几年里日趋激烈,乃至针对“开源人工智能”本身的定义都出现了较大分歧。人工智能,以及更具体的大语言模型、多模态大模型等,因其与传统软件不同的技术生态演化逻辑,使得诸多问题都需要得到新的回应与探索:开源对人工智能的促进价值是什么,如何回应人工智能开源的安全风险,如何确保开源人工智能的可持续发展?在探求答案过程中所展开的开源人工智能治理改革,也成为事关人工智能未来技术演化方向选择、事关人工智能能否促进人类社会发展的“大问题”。以Qwen、DeepSeek、MiniMax、腾讯混元、百度文心、Kimi等系列国产开源大模型为代表,中国开源力量正在成为人工智能开源国际舞台上的重要参与者、贡献者。开源不仅加速了中国人工智能技术创新与普惠应用进程,同时也为创造“全球公共产品”②注入了来自中国的新动能,打开了人工智能发展与治理全球合作的新空间。本报告将基于中国开源人工智能的发展现实,对人工智能开源时代的“大问题”做出概念性回答,同时发布第一份来自中国人工智能开源社区的调研报告。我们认为,开源人工智能正在预示着“超越竞争的合作”价值,这不仅是人工智能技术生产与再生产的需要,也是人工智能技术回应当前时代现实问题的需要。“开源人工智能”是指将人工智能相关的软件、工具、框架、模型、数据集等过程性要素公开发布,以使用户能够使用或再开发的人工智能技术生产与应用模式,其区别于仅将人工智能产品或服务直接提供给用户的闭源模式。根据斯坦福大学“以人为本人工智能研究所”最新的《2025年人工智能指数报告》,GitHub平台上的开源人工智能项目已经从2011年的1500余个增长至2024年的430万个,在2024年一年就增长了40.3%。参见https://hai.stanford.edu/ai-index/2025-ai-index-report.关于全球公共产品的讨论请参见我们团队在2024世界人工智能大会期间发布的《人工智能安全作为全球公共产品》的研究报告:https://www.sipa.sjtu.edu.cn/Kindeditor/Upload/file/20240704/研究报告手册-04.pdf①② 二、开源人工智能的价值:超越竞争的合作人工智能技术曾一度被认为是竞争者的“游戏”,尤其在“规模定律”范式下更是如此:数据、算力、网络构成了被竞争的对象,海量投入累积成为“玩家”的核心竞争力并秘而不宣,此过程中不断增加的游戏门槛挤出了越来越多的参与者,而留存下的少数寡头在更加激烈的竞争中艰难地推动着人工智能技术的点滴突破。在此模式下,人工智能被塑造为“前沿技术”,并在企业的实验室里演化为又一个技术“孤岛式先锋主义”(insular vanguardism)。但竞争模式是否符合人工智能的技术演化规律呢?以2024年底DeepSeek V3和R1模型的推出为标志性事件,越来越多的利益相关方意识到:尽管“竞争”的价值不应被否定,但“竞争”也必然不是人工智能技术演化的唯一法则。现实复杂性至少在三个层面挑战了竞争模式的有效性:第一,技术发展范式的多重性。“规模定律”只是人工智能发展范式之一,而非唯一范式。有限资源约束条件下依然能够实现高性能模型这一现象的逐渐出现,说明人工智能模型时代的资源“竞争”并不必然保证技术优势领先。第二,技术演化模式的多元性。人工智能技术的演化瓶颈不完全表现为单一维度的资源投入,而体现为知识(例如数学推理模型的瓶颈在于形式化数学规则库)、架构(例如线性注意力框架对原有架构的优化)、系统(例如杰弗里·辛顿主张将学习过程从权重网络延伸至硬件层面以促进硬软结合)等多维度的并行联动,这也使“竞争”难以聚焦单一对象和锚点。第三,技术价值实现的社会性。人工智能推动人类社会进步的赋能价值不可能在企业的实验室里孤立实现,可持续的技术生产与再生产过程要求人工智能从“前沿技术”向“社会技术”转变,而后者既表现为人工智能与千行百业的普遍结合,也表现为社会价值目标内嵌于人工智能的技术演化进程,由此导致的边界模糊使得建立在明确边界划分基础上的“竞争”缺少了支撑与意义。正是基于上述反思,我们提出:应认识到开源人工智能在突破竞争模式三重瓶颈方面的积极作用,并认为其核心价值在于以新的“合作”模式打开了人工智能未来演化的新路线和新空间。“合作”作为一种理论概念和实践模式包含三重内涵:关联性、共识性、递归性。首先,“关联性”是指应认识到不同主体的相互依赖性,并因此强调基于相互关联的结构特征而非基于个体属性做出决策;其次,“共识性”是指应认识到不同主体间存在共同的认知或利益,而合作的价值即在于挖掘出此种共识;第三,“递归性”是指在认识到关联性、共识性的基础上,每个主体的决策逻辑将从“纳什均衡”走向“康德均衡”,即以“己所不欲、勿施于人”的同理心来做出与他人是否合作的选择。 “合作”的三重内涵正是对于人工智能技术演化“竞争”模式所面临困境的突破:认识到“关联性”才可能接受多维度、跨边界合作联动的可能,认识到“共识性”才可能激发展开此种合作联动的多元动力,认识到“递归性”才可能将此种多元动力转变为参与合作的现实决策。人工智能开源的底层逻辑正是表现出了对于关联性、共识性、递归性的承认与接纳,并在此基础上推动了人工智能领域跨主体的合作行为,进而具体表现为政府与社群、政府与企业、企业与企业、企业与社群、社群与社群的多元合作形态。需要指出的是,以“合作”为价值核心的开源人工智能,虽然与开源软件具有关联性,但也具有不可忽视的差异性。源起于将软件视为一种“自由”权利的理念,开源软件的核心价值在于通过开放源代码以实现自由地使用、学习、修正和再发布。在此基础上,“合作”更多作为软件开源的自然结果,而非致力于要实现的首要目标。不过此种定位对于开源人工智能而言存在两点困难:一是人工智能大模型当前还存在较高的使用、学习、修正和再发布门槛,单一主体难以独立实现“四大自由”;二是“四大自由”本身难以有效驱动人工智能技术创新和应用拓展,而“合作”却是突破瓶颈的关键所在。此时,“合作”便从开源软件时代的“副产品”进一步演化为开源人工智能时代的核心价值目标本身。 三、开源人工智能在中国:概况与经验开源人工智能在理论上为人工智能技术演化开辟了新路线、新空间,其同时也在全球各国实践中渐成气候。此股开源浪潮中,以Qwen、DeepSeek等开源模型为代表,中国开源人工智能发展尤其受到国际关注,并为全球的开源人工智能注入了新思想、新动能。从国内来看,当前中国开源人工智能已经形成了较完善的丰富生态。一方面,开源已成为中国人工智能利益相关方的基本共识,诸多主体都选择将其模型开源,由此形成了多维度、多领域、多层次的人工智能开源技术体系;另一方面,中国开源人工智能已形成较完善的社区生态系统,涵盖数据、算力、模型等多个维度,为可持续发展的人工智能开源生态提供了有效支撑。以魔搭社区(ModelScope)为例,当前已汇聚全球30+国家、超过1600万名开发者,提供了超7万个优质人工智能模型并持续更新,包括Qwen、DeepSeek、MiniMax、Wan等国内“顶流”模型都首发在魔搭,成为中国开源人工智能与世界交互的窗口与渠道。从国际来看,当前中国开源人工智能已成为全球人工智能开源社群的重要组成部分。来自中国的人工智能开源项目数量占比仅次于美国、欧洲、印度而排名第四③;同时,中国开源人工智能项目的性能质量也受到了全球关注。例如,中国的人工智能开源项目以相对较少的数量而获得了更多的“喜爱度”,每个中国人工智能开源项目得到的平均“喜爱度”甚至位列全球第一④。从个案来讲,具有代表性的Qwen模型在2024年10月之后即成为全球衍生模型持续领先的基础开源模型。从更一般的情况来看,在2019-2024年间,来自中国的开源程序员数量已经在全球范围排名第二或第三,仅次于美国或印度⑤。中国人工智能开源生态的蓬勃发展,既受益于全球开源趋势的推动,更是形成了独特的探索性经验和创新发展路径。本报告将之总结为以下四点。根据斯坦福大学《2024年人工智能指数报告》数据。根据斯坦福人工智能中心AI指数报告,平均喜爱度为喜爱度总数除以项目总数。Shengyu Zhao, et al.,“OpenRank Leaderboard: Motivating Open-Source Collaborations Through Social Network Evaluation inAlibaba,”Proceedings of the 46th International Conference on Software Engineering: Software Engineering in Practice, 2024.③④⑤ 第一,以“可及性”为目标,准确认知开源模型需求端的瓶颈约束,奠定合作生产基础。模型的复杂性、不可解释性使得人工智能开源难以实现开源软件式的“合力写代码”开发进程,而模型的应用同时要求算力、数据、软硬协同等一系列配套环境支撑。借助平台赋能,人工智能开源帮助普遍提升公众的模型使用能力,任何人都可以以最为便捷地方式学习模型、使用模型、“游戏”模型。普惠可及、让模型“RUN起来”,便成为中国人工智能开源生态建设的重要经验之一。第二,以“公共性”为准则,激发开源模型供给端的参与动力,塑造开源精神认同。当前阶段人工智能的高投入门槛使得模型开源方成为关键瓶颈,服务开源方需求、搭建从模型开源到模型使用之间的全链条服务平台,是鼓励、吸引模型开源的重要机制。中国人工智能开源社群在此方面的实践经验,是秉持公共精神,中立、平等对待各模型厂商及广大开发者,服务、赋能中小创新企业,链接、建设生态网络节点,从而推动人工智能开源合作生态的可持续发展。第三,以“包容性”为方向,推动人工智能开源理念向社会侧拓展,释放合作生态价值。中国人工智能开源生态正显著突破传统技术社群的边界,向更广泛的社会领域延伸,相当数量的模型开源方已经从纯粹的技术开发者演化拓展为各行各业的创作者、生产者。开源为普通劳动者提供了“游戏(Playwith)”模型的可能性,而开源生态则将此种可能性变成了现实,在探索“人-机合作”方向迈出了坚实一步。第四,以“安全性”为底色,推动负责任人工智能开源生态发展,构筑协作治理规范。在开源将如何影响人工智能安全风险尚存争议的背景下,中国人工智能开源生态高度重视安全治理体系改革,发展并形成了系列安全治理机制创新,涵盖人工智能伦理治理倡议、社区治理基本准则、模型内容合规审查、生态参与者行为规范,以及模型安全第三方评估测试等,有效汇聚了开发者智慧,形成了多方协同的风险管控与质量提升闭环,增强了生态整体的安全韧性。 四、开源人工智能在中国:来自中国社群的第一份回应开源人工智能在中国的实践经验展现了先行者的探索与总结,但这并不代表围绕开源人工智能价值、风险的