您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [牛津经济研究院]:2025年人工智能指数报告 - 发现报告

2025年人工智能指数报告

报告封面

介绍2025年人工智能指数报告欢迎阅读第八版人工智能指数报告。恰逢人工智能对社会、经济和全球治理的影响不断加强的关键时期,我们在这一重要时刻发布了2025年人工智能指数报告。它也是我们迄今为止发布过的最全面的指数。今年的报告新增了对人工智能硬件发展状况的深入分析、对推理成本的新估算,以及对人工智能论文发表和专利申请趋势的新分析。我们还首次披露了企业采用负责任的人工智能实践的最新数据,并扩展了人工智能在科学和医学领域日益重要的作用的分析维度。发起于2017年,作为“人工智能百年研究(One Hundred Year Study of Artificial Intelligence)”项目分支,人工智能指数报告一直致力于为政策制定者、新闻工作者、高管、研究人员和公众提供准确、经过严格验证和全球来源的数据。我们的使命始终如一:帮助这些利益相关方就人工智能的发展和部署做出更明智的决策。在这个从会议室到厨房餐桌到处都在讨论人工智能的世界里,这一使命显得尤为重要。从地缘政治格局的变化和底层技术的快速发展,到人工智能在商业、决策和公共生活中不断扩大的作用,人工智能指数持续引领行业关键趋势的追踪与解读。纵向追踪始终是我们的核心任务。在这一高速发展的领域,本报告提供了重要的背景信息:帮助我们了解人工智能的现状、发展历程以及未来走向。作为全球公认的人工智能领域权威资源之一,人工智能指数报告被《纽约时报》、彭博社和《卫报》等主要媒体引用,成为数百篇学术论文的文献参考,并服务于世界各地的政策制定者和政府机构。我们已经向埃森哲、IBM、富国银行和富达等公司提供了人工智能现状的简报,并将继续为全球人工智能生态系统输送独立见解。 1 联合主任致辞随着人工智能持续重塑人类生活、企业界和公共话语体系,人工智能指数报告始终跟踪其进展情况,通过独立的、数据驱动的视角,跨时间、跨地域地全方位观察人工智能的发展、应用和影响。对于人工智能来说,2024 年是多么美好的一年。诺贝尔物理学奖和化学奖,以及因强化学习方面的奠基性工作而获得的图灵奖,都体现了人们对人工智能在推动人类知识进步方面所起作用的认可。曾经令人望而生畏的图灵测试已不再被视为一个雄心勃勃的目标,今天的精尖系统已经超越了它。与此同时,人工智能的应用正以前所未有的速度渗透社会生活,数以百万计的人们在专业工作和休闲活动中高频使用人工智能。随着高性能、低成本和开源模型的普及,人工智能的可及性和影响力必将进一步扩大。在经历了短暂的放缓之后,企业对人工智能的投资出现反弹。生成式人工智能初创企业融资案例数量增加了近三倍。商业应用在经过多年的低迷后于 2024 年迎来显著增长。人工智能已从边缘领域成为业务价值的核心驱动力。各国政府也在加大参与力度。政策制定者们不再停留于讨论人工智能,他们正在对其进行投资。一些国家启动了价值数十亿美元体量的国家人工智能基础设施计划,包括能源扩容以支持人工智能发展的重大努力。全球协作机制日益完善,地方性措施也同步成型。然而,信任仍然是一项重大挑战。公众对人工智能企业数据保护能力的信任度持续走低,对算法公平性和偏见的担忧依然存在。虚假信息继续构成风险,深度伪造技术在选举等场景的滥用引发广泛担忧。对此,各国政府正在推进新的监管框架,旨在促进透明度、负责任和公平性。公众的态度也在转变。2024 年的一项全球调查显示,尽管疑虑犹存,公众对人工智能带来广泛社会效益的潜力的乐观情绪明显上升。人工智能不再只是一个关于可能发生什么的故事,而是一个关于正在发生什么以及我们如何共同塑造人类未来的故事。敬请品读本年度《人工智能指数报告》并亲自洞见这一切。 Yolanda Gil 和 Raymond Perrault《人工智能指数报告》联合主任2 核心要点1.人工智能在严苛比较基准测试中的性能持续提升。2023年,研究人员推出了MMMU、GPQA和SWE-bench等一系列新型比较基准,旨在测试前沿人工智能系统的极限。仅一年后,性能就大幅提升:MMMU、GPQA和SWE-bench的得分分别提高了18.8%、48.9%和 67.3%。除这些比较基准,人工智能系统在生成高质量视频方面也取得了重大进展,在某些特定场景下,基于语言模型的智能体在时间受限的编程任务中甚至表现优于人类。2.人工智能日益融入日常生活。从医疗到交通,人工智能正迅速从实验室走向日常生活。2023年,美国食品和药物管理局(FDA)批准的人工智能医疗设备达223款,较2015年的6款实现跨越式增长。在公共道路上,自动驾驶汽车已走出试验阶段:美国头部运营商之一Waymo每周提供超过 15 万次自动驾驶乘车服务,而百度推出的经济型Apollo Go自动驾驶出租车所提供的服务目前已覆盖中国众多城市。3.随着不断的研究显示出人工智能对生产效率的强大影响,企业界全面拥抱人工智能,投资与应用双创新高。2024年,美国私人人工智能投资达1091亿美元,约为中国(93亿美元)的12倍、英国(45亿美元)的24倍。生成式人工智能的发展势头尤为强劲,吸引了全球339亿美元的私人投资——同比增长了18.7%。人工智能的商业应用也在加速普及,78%的企业在2024年应用了人工智能技术,较前一年的55%有所提升。同时,越来越多的研究证实,人工智能不仅可以提高生产效率,在多数情况下还有助于缩小劳动力的技能差距。4. 美国在开发顶级人工智能模型方面仍处于领先地位,但中国正在缩小与美国的差距。2024 年,美国机构共开发了 40 个标志性的人工智能模型,而中国只有 15 个,欧洲只有 3 个。虽然美国在数量上保持领先,但中国的模型在质量上迅速缩小了差距:在 MMLU 和 HumanEval 等主要比较基准上的性能差距从 2023 年的两位数缩小到 2024 年的接近持平。中国在人工智能论文和专利方面继续保持领先。模型开发日益全球化,中东、拉美和东南亚都推出了引人注目的模型。5.负责任的人工智能生态系统发展不平衡。在人工智能相关的事故激增的同时,主要的工业模型开发商采用标准化的负责任的人工智能(Responsible AI,RAI)评测仍然很少见。不过,HELM Safety、AIR-Bench 和 FACTS 等新比较基准为评估真实性和安全性提供了前景广阔的工具。企业层面,对负责任的人工智能风险的认知与实质性行动之间仍存在差距。相较而言,各国政府则表现出了更强的紧迫感:2024年,全球人工智能合作显著深化,经合组织、欧盟、联合国和非盟等组织相继发布了监管框架,聚焦透明度、可信度等负责任的人工智能核心原则。 3 核心要点(续)6.全球对人工智能的乐观情绪正在攀升,但地区间仍存在较大差异。在中国(83%)、印度尼西亚(80%)和泰国(77%)等国家,绝大多数人认为人工智能产品和服务利大于弊。相比之下,加拿大(40%)、美国(39%)和荷兰(36%)等地的乐观程度仍然较低。不过,人们的情绪正在转变。自2022年以来,多个原持怀疑态度的国家的乐观情绪大幅增长,包括德国(+10%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)。7. 人工智能变得更加高效、经济和易用。依托小型模型能力跃升,执行 GPT-3.5 级别的系统的推理成本在 2022 年 11 月至2024 年 10 月间骤降 280 多倍。硬件层面,年化成本降幅达 30%,能效年提升率达 40%。开源模型正在缩小与闭源模型的差距,在某些比较基准上,性能差距从 8% 缩小到仅 1.7%。这些趋势加在一起,正在迅速降低先进人工智能的应用门槛。8. 各国政府正在加强对人工智能的监管和投资。2024 年,美国联邦机构出台了 59 项与人工智能相关的法规,是 2023 年的两倍多,发布法规的机构数量也是2023年的两倍。全球范围内,75个国家的人工智能立法提及率自2023年以来增长21.3%,较2016年累计增幅达 9 倍。加强监管的同时,各国政府展开大规模投资:加拿大承诺投资 24 亿美元,中国启动了 475 亿美元的半导体基金,法国承诺投资1090亿欧元,印度拨款12.5亿美元,沙特阿拉伯更推出规模达千亿美元的 “超越计划(Project Transcendence)”。9.人工智能和计算机科学教育加速普及,但在资源获取和准备程度方面仍存落差。全球三分之二的国家现在已实施或规划基础教育阶段计算机科学教育,覆盖率是2019年的两倍,其中非洲和拉美地区进展最为显著。美国过去10年中计算机专业本科毕业生人数增长22%。然而,在许多非洲国家,由于电力等基础设施的不足,获得计算机学位的机会仍然有限。在美国,81%基础教育阶段的计算机教师认同将人工智能纳入基础课程,但只有不到一半的教师认为自己具备相关教学能力。10. 产业依然在人工智能竞争中引领——但技术前沿竞争加剧。2024 年,全球近 90% 的标志性的人工智能模型来自产业界,高于 2023 年的 60%,而学术界仍然是高引用率研究的首要来源。模型规模持续快速扩张——训练计算每五个月翻一番,数据集每八个月倍增,能耗年增速 100%。然而模型性能差距正在缩小,一年内,榜首和第十名模型的 Elo 技能得分差距从 11.9% 降至5.4%,现在前两名的差距仅为 0.7%。技术前沿领域的竞争日趋激烈,头部阵营也日益集聚。 4 核心要点(续)11. 人工智能因其科学影响力获得最高学术荣誉。人工智能日益增长的重要性在重大科学奖项中得到了体现:两项诺贝尔奖分别授予深度学习(物理学奖)及人工智能在蛋白质折叠中的应用(化学奖),图灵奖则颁给了对强化学习的突破性贡献。12. 复杂推理仍是一项挑战。人工智能模型在国际数学奥林匹克竞赛问题等任务中表现出色,但在 PlanBench 等复杂推理比较基准中仍然举步维艰。即使存在理论正确解法,它们也常常无法可靠地解决逻辑任务。在精度至关重要的领域里,人工智能的有效性依然存在局限。 5 指导委员会主席Raymond PerraultSRI 国际研究院当选主席Yolanda Gil南加州大学信息科学研究所工作人员和研究人员研究主管兼总编辑Nestor Maslej,斯坦福大学研究助理Loredana Fattorini, 斯坦福大学附属研究员Elif Kiesow Cortez, 斯坦福法学院研究员Julia Betts Lotufo, 研究员Anka Reuel,斯坦福大学Alexandra Rome, 研究员Angelo Salatino, 英国开放大学知识媒体研究所Lapo Santarlasci,卢卡高等研究学院 成员Erik Brynjolfsson斯坦福大学Ja c k C l a r kA n t h r o p i c , OECDJohn Etchemendy斯坦福大学Katrina Ligett希伯来大学 Malou van Draanen Glismann, 斯坦福大学Vanessa Parli斯坦福大学Yoav Shoham斯坦福大学AI21 实验室Russell Wald斯坦福大学Tobi Walsh悉尼新南威尔士大学 研究生研究员Emily Capstick, 斯坦福大学Njenga Kariuki, 斯坦福大学本科生研究员Armin Hamrah, 克莱蒙特 · 麦肯纳学院Sukrut Oak, 斯坦福大学Ngorli Fiifi Paintsil, 斯坦福大学Andrew Shi, 斯坦福大学Terah Lyons摩根大通James Manyika谷歌牛津大学Juan Carlos Niebles斯坦福大学Salesforce 如何引用本报告Nestor Maslej, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Njenga Kariuki, Emily Capstick, AnkaReuel, Erik Brynjolfsson, John Etchemendy, Katrina Ligett