法律声明 委托© 贝特尔曼基金会,居特斯洛赫 2025年5月 权利 Thetext本出版物根据知识共享署名 4.0 国际许可协议授权。您可以在以下网址找到完整的许可文本:https://creativecommons.org/licenses/by/4.0/ legalcode.en 出版商贝塔斯曼基金会 卡尔·贝塔斯曼街 256 33311 吉特斯洛 电话 +49 5241 81-0 www.bertelsmann-stiftung.de The信息图表根据知识共享署名-非商业性使用-禁止演绎4.0 国际许可协议进行许可。您可以在以下网址找到完整的许可文本:https://creativecommons.org/licenses/by-nc-nd/4.0/legalcode.en 得到支持开启未来 作者 费利克斯·西克博士,贝塔斯曼基金会阿列克·塔科夫斯基博士,开放未来莱亚·金佩尔,数字公共产品联盟凯莱恩·奥斯本博士,牛津互联网研究所 这些可视化并不是详尽的。所有标志被排除在外,因为它们受版权保护,不属于上述CC许可范围,并且可能无法使用。 负责 费利克斯·西克博士,贝塔斯曼基金会 推荐引用格式西克어/塔尔科夫斯基/金佩尔/奥斯本(2025)。公共人工智能——白皮书。贝特尔斯曼基金会。格茨洛。 编辑巴勃拉·塞弗佐,柏林 信息图雅各布·科辛涅夫斯基 DOI 10.11586/2025040 布局与排版妮可·迈耶霍尔茨,比勒费尔德 公共人工智能——白皮书 费利克斯·西克博士,亚历克·塔科夫斯基博士,莉亚·金佩尔博士,凯莱恩·奥斯本博士 审稿人列表 阿尔伯特·卡尼格尔,巴塞罗那超级计算中心 阿明·乌斯拉蒂,未来社会 本·伯特恩肖,Hugging Face 布兰登·杰克逊,公共人工智能网络 胡瓦·罗伯茨,牛津互联网研究所,牛津大学 伊莎贝尔·侯,台湾人工智能学院 雅各布·穆坎德,数字伦理中心,耶鲁大学 詹妮弗·丁,边界对象工作室 劳拉·加林多,人工智能政策专家 卢卡·科曼纳西,人工智能政策专家 马丁·赫尔林,贝特尔曼基金会 马丁·庞佩里,SINE基金会 马尔塔·齐奥西,牛津马丁人工智能治理倡议,牛津大学 保罗·凯勒,开放未来 保罗·夏拉德特,主权技术机构 拉维·伊耶尔,南加州大学马歇尔商学院 亚辛·杰尼特,Hugging Face 霍尔姆斯·霍金斯,科技政策设计研究所 目录 前言 6 8执行摘要 术语表 11 1 | 简介 13 2 | 技术入门:什么是人工智能技术以及它们是如何工作的?17定义人工智能17深度学习范式21“注意力就是你所需的一切”:Transformer与生成式人工智能的崛起22生成式AI开发流程24预训练阶段24训练后阶段26部署26人工智能规模定律:人工智能的未来之争26什么是人工智能缩放定律?27人工智能规模定律的演变27规模和人工智能的环境足迹28人工智能扩展定律的未来是什么?29 3 | 生成式人工智能栈32人工智能堆栈概述32人工智能堆栈概念的优势33人工智能堆栈中的权力集中35堆栈关键层特性37计算37数据39模型42 4 | 公共人工智能框架45公共数字基础设施的概念45公共、私营和公民行为者在公共数字基础设施47公共人工智能提案47公共人工智能网络47莫扎瑞勒基金会48范德堡政策加速器49定义公共AI基础设施49人工智能系统的公开性梯度52公共人工智能政策的宗旨和治理原则55公共人工智能治理56 5 | 人工智能战略和通往公共人工智能的三大途径 58 5860616161636565666868697173公共人工智能战略要素公共AI生态系统及其协调机构通往公共人工智能基础设施的三大途径:计算、数据和模型计算通往公共AI的路径计算:瓶颈计算:机会数据通路至公共AI数据:瓶颈数据:机会模型路径到公共人工智能模型:瓶颈模型:机会补充措施使命驱动的公共人工智能政策 前言 立足于对人工智能堆栈(包括计算、数据和模型)的现实约束分析,该论文将公共人工智能的概念转化为一个包含可执行步骤的具体政策框架。该框架的核心在于坚信,公共人工智能战略必须确保至少有一个完全开源的模型,其能力接近专有尖端系统。实现这一目标需要三个关键行动:协调投资于开源生态系统、提供公共计算基础设施,以及建立强大的人才库和机构能力。 人工智能正站在一个关键路口。虽然其改变社会的潜力巨大,但塑造其发展轨迹的权力正变得越来越集中。如今,少数几家主导科技企业不仅掌控着最先进的AI模型,还掌控着使这些系统得以实现的基础设施——计算能力、数据资源和云平台——这些权力集中代表着不仅仅是市场失衡;它直接威胁着开放性、透明度和民主问责制原则。 当少数几个角色定义人工智能系统的构建和使用时,公共监督就会减弱。这些系统越来越多地反映了其创造者的价值观和经济激励,往往以包容性、问责制和民主监督为代价。如果没有干预,这些趋势有可能会固化结构性不平等,并压缩替代性方法的生存空间。 它要求至少存在一个在能力前沿附近完全开源的模型,并列出了三个实现这一点的要务:加强开源生态系统,投资公共计算基础设施,以及建立人才基础以开发和使用开源模型。 为指导实施,本文将“公开程度梯度”的概念引入人工智能政策——这是一种基于其开放性、治理结构以及与公共价值观的一致性来评估和塑造人工智能计划的工具。该框架使决策者能够评估某一计划在从私有到公有的谱系中处于何种位置,并确定增加公共利益的可行步骤。 这份白皮书概述了一种战略反监管措施:公共人工智能。它提出了一种基于透明度、民主治理和对关键基础设施的开放访问权的AI发展和部署模式。公共人工智能指的是对公众负责的系统,其中计算、数据和模型等基础资源是公开可访问的,并且每一项举措都服务于一个明确界定的公共目的。 我们真诚感谢Alek Tarkowski、Lea Gimpel和Cailean Osborne对他们宝贵的见解和对此工作的贡献。 在与这里提出的观点互动时,我们邀请您思考这一愿景如何能指导您自己的决策,并启发制定既包容又具有前瞻性的政策。让我们携手利用人工智能,既防止其加深分裂,又确保其扩大民主的可能性并加强社会团结。 费利克斯·西克博士项目经理数字化与公共利益 贝特尔斯曼基金会 马丁·胡林 导演数字化与公共利益伯特尔斯曼基金会 执行摘要 今天最先进的AI系统和基础模型在很大程度上是专有的,由少数公司控制。缺乏可行的公共或开放替代方案十分显著。这个差距意味着尖端AI仍然掌握在少数人手中,对公众利益、问责制或监督的导向有限。 现实。特别是,它通过做出以下两项新颖贡献推进了这场及时对话。 一个基于人工智能堆栈现实的公共人工智能愿景 公共人工智能需要一个愿景,需要考虑到人工智能堆栈的计算、数据和模型层今天所面临的限制,并提供克服这些限制的行动步骤。本文白皮书概述了被概念化为相互依赖的元素堆栈的AI系统和基础设施,计算、数据和模型是其核心层。它还确定了当今人工智能生态系统中的关键瓶颈和依赖关系,即对主导甚至垄断的商业解决方案的依赖限制了公共替代方案的发展。它强调了需要能够协调各层资源和各类参与者的政策方法,而不是试图将公共拥有的解决方案实现完全垂直整合。 公共人工智能是一个旨在成为现状有效替代方案的人工智能系统愿景。为了服务于公共利益,它们在透明的治理下开发,具有公众问责制,能够平等获取核心组件(如数据和模型),并明确聚焦于公共服务功能。 在实践中,公共AI项目确保公众能够洞察并影响AI系统的构建和使用。它们旨在以公平的条件让所有人均可获取关键构建模块——数据、开源软件和开源模型。关键在于,公共AI计划以广泛的社会效益为导向,而非私人利益。 要实现这一点,它提出了三条核心政策建议: 在过去的一年里,公共人工智能提案背后的势头稳步增长,公共人工智能网络、Mozilla和范德比尔特政策加速器发布了一系列有影响力的报告和倡议,展示了这种方法的重要性。更重要的是,各种倡议正在开发满足公共人工智能愿景的各种组件和整个人工智能系统。 1. 研发和/或全面加强完全开源模型和更广泛的开源生态系统 2. 提供公共计算基础设施,以支持开放模型的发展和使用 3. 按比例增加对人工智能能力的投资,以确保有足够的人才在开发和采用这些模型 本白皮书基于先前关于公共人工智能的提案,旨在帮助将公共人工智能的愿景变为现实,面向政策制定者及资助者。 “公开性的梯度”:公共人工智能的一个框架 为了实现这一点,需要追求公共AI发展的互补途径,聚焦于AI堆栈的三个核心层级:计算、数据和模型: 该白皮书还提供了一个基于“公共性梯度”框架,根植于公共数字基础设施原则。该框架可以指导围绕人工智能基础设施投资决策的制定,并在承认构建完全公共人工智能的现有限制的同时,帮助提高公共价值。 1. 计算通路:它专注于提供战略性公共计算资源,特别支持开源AI开发。关键建议包括确保完全开源项目的计算访问,扩大研究机构的计算能力,并改进公共计算计划之间的协调。 该框架根据其属性(例如可访问性、开放性、互操作性)、功能(例如实现社会或经济目标)和控制模式(例如民主治理和问责制),将人工智能干预措施沿着一个连续统一体映射——从完全公开到完全私有。它既是一个诊断工具,也是一个战略工具,用于评估干预措施在该连续统一体中的位置,以及识别能够增强其公共价值的干预措施。 2. 数据通路:它强调通过基于共同体的治理,将高质量数据集作为数字公共产品来创建。这包括将数据集作为公共可访问资源来开发,同时防止价值提取,并建立具有适当治理机制的数据公共领域。 3. 模型通路:它侧重于培养一个完全开源的AI模型生态系统,包括一个最先进的“旗舰模型”和专门的较小模型。该战略强调构建可持续的开源AI开发能力,而不是简单地与商业实验室竞争。 公开性的梯度包含以下六个不同级别,每个级别代表不同的公开属性、功能和控制程度: 一级:商业提供具有公共属性的AI组件 商业实体开发和共享开放源组件(例如,Meta开源PyTorch),具有高度公共可访问性,但公共功能和控制有限。 一些额外的措施被强调,这些措施不属于三个途径中的任何一个,但有助于实现关键公共利益目标。这包括投资人工智能人才和能力,以开发和部署公共利益的人工智能系统,支持范式转变的创新以实现更高效的技术,资助开源软件和工具,以及为公共人工智能应用建立有效的部署途径。 二级:具备公共属性和功能的商业AI基础设施 像 Hugging Face Hub 这样由私人控制、民主化 AI 工具访问权限、同时保持商业监督但服务于公共利益目标的平台。 这种方法承认了为实现公共人工智能所必须考虑的不同层级以及可以采取的不同途径的重要性。它还主张在整个人工智能技术栈上进行协调干预,并由能够管理去中心化人工智能开发生态系统的新的公共机构来协调。 三级:公共计算基础设施 政府资助的超级计算机和数据中心(例如,欧盟人工智能工厂),通过公私合作提供计算资源,具有中等到较高的公共控制。 四级:公共提供的AI组件公共资助的数据集、基准和工具(例如Mozilla的Common Voice),专门作为具有高公共控制权和明确公共功能的数字公共产品而开发。 如果您是政策制定者或资助者,寻求具体的政策或资助指导: •• 从引言开始,然后重点关注章节- ter 4 用于公共性框架的梯度,第 5 章用于具体的政策建议。 五级:使用商业计算构建的全栈公共AI基础设施 像艾伦人工智能研究所的OLMo模型这样的完全开源的AI系统,依赖于商业计算基础设施,从而限制了在计算层面的公共控制。 六级:全栈公共AI基础设施类似于西班牙的Alia的完全自主的公共AI系统,使用公共数据、模型和计算基础设施构建,实现所有层级的最高公共性。 阅读指南 我们鼓励读者探索完整报告,以全面了解公共人工智能愿景及其影响。根据您的具体兴趣,我们推荐以下入口。 如果您对AI的技术基础以及推动生成式模型