行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

介绍经合组织人工智能能力指标

信息技术 2025-06-03 OECD 心大的小鑫

核心观点

OECD 发布了新的 AI 能力指标，旨在为政策制定者提供基于证据的框架，以了解 AI 能力并将其与人类能力进行比较。这些指标由 AI 和未来技能团队与 50 多位外部专家合作开发，涵盖了九个领域：语言、社交互动、问题解决、创造力、元认知和批判性思维、知识、学习和记忆、视觉、操作和机器人智能。

关键数据

指标采用五级量表来描述 AI 系统在不同能力领域的进展，从简单的任务到复杂任务。
目前，最先进的 AI 系统在语言、社交互动、问题解决、创造力、元认知和批判性思维、知识、学习和记忆、视觉、操作和机器人智能等领域的表现水平在 2 级和 3 级之间。
语言指标：最先进的语言模型（如 ChatGPT）被评估为处于 3 级水平，能够可靠地理解和生成语义信息，并表现出先进的逻辑和社会推理能力。
社交互动指标：AI 系统在社交记忆方面表现良好，但缺乏实体、身份感和社交感知能力。
问题解决指标：符号 AI 系统在狭窄的领域（如物流规划和模型检查）表现出超人的能力，而大型语言模型在处理自然语言问题时表现出一些 3 级能力，但由于其脆弱性，仍被评估为 1 级。
创造力指标：当前 AI 系统可以创建对人类有价值、新颖和令人惊讶的输出，但由于其依赖人类生成的文本，因此无法生成与现有人类知识显著不同的输出。
元认知和批判性思维指标：最先进的语言模型通常在 2-3 级水平，能够监控自己的理解并调整方法，但难以整合不熟悉的信息或评估自己的知识。
知识、学习和记忆指标：大型语言模型和相关生成式 AI 系统在 3 级水平，能够通过分布式表示学习信息的语义，并将其推广到新的情况。
视觉指标：最先进的视觉系统在 3 级水平，能够处理一些目标物体外观和光照的变化，但无法根据自我反馈改进性能或处理大量变化。
操作指标：操作系统在 2 级水平，能够在高度受控的环境中处理各种物体形状和中等柔性的材料，但在动态和不可预测的环境中表现不佳。
机器人智能指标：最先进的机器人系统在 2 级水平，能够在结构化环境中执行预定义的任务，但难以处理复杂、不可预测的场景。

研究结论

AI 能力指标为政策制定者提供了一个框架，以了解 AI 对教育、工作和社会的影响。
通过将 AI 能力与人类能力进行比较，政策制定者可以确定哪些职业可能受到自动化影响，以及哪些学习目标需要改变。
AI 能力指标还可以帮助政策制定者预测 AI 的潜在突破，并制定相应的政策。
OECD 将继续开发和更新指标，使其成为国际社会了解 AI 能力和其影响的重要参考。

介绍经合组织人工智能能力指标介绍经合组织人工智能能力指标本出版物由经济合作与发展组织秘书长负责出版。文中表达的观点和所使用的论点不一定反映经济合作与发展组织成员国的官方立场。本文件，以及其中包含的任何数据和信息，均不损害任何领土的地位或主权，也不影响国际边界和界限的划定以及任何领土、城市或地区的名称。以色的统汁数据由相的以色提供，并受相的以色当的责。经合组织使用这样的数据，不影响国际法下戈兰高地、东耶路撒冷和约旦河西岸的以色定居点的地位。土耳其共和国备忘录本文中关于“塞浦路斯”的信息指的是该岛南部。岛上没有单一的权力机构代表土耳其裔和希腊裔塞浦路斯人。土耳其承认北塞浦路斯土耳其共和国（TRNC）。在联合国框架内找到持久且公平的解决办法之前，土耳其将保留其关于“塞浦路斯问题”的立场。由经合组织所有欧盟成员国和欧盟共同注：塞浦路斯共和国为联合国所有成员国所承认，唯土耳其除外。本文件中的信息与塞浦路斯共和国政府有效控制下的地区相关。请引用此出版物： OECD(2025),介绍经合组织人工智能能力指标,经济合作与发展组织出版物,巴黎,https://doi.org/10.1787/be745f04-en. ISBN978-92-64-53190-1(print)ISBN978-92-64-89309-2(PDF)ISBN978-92-64-83602-0(HTML) 摄影鸣谢：封面©瓦西里耶夫·亚历山大/Shutterstock.com。 https://www.oecd.org/en/publications/support/corrigenda.html.oecd出版物中的勘误表可在以下网址找到： ©经合组织2025 知识共享署名4.0国际许可协议(CCBY4.0) 这项工作根据知识共享署名4.0国际许可协议提供。使用这项工作，即表示你接受受该许可协议条款的约束（https://creativecommons.org/licenses/by/4.0/).归因–你必须引用这项作品。翻译—你必须引用原始文献，识别对原始内容的修改，并添加以下文本：如果原作和译文之间存在任何差异，仅应视为原作文字有效。适应性–你必须引用原始作品并添加以下文字：这是经合组织（OECD）原作的一个改编版本。在此改编版本中所表达的意见和所采用的论点不应被视为代表经合组织或其成员国官方观点。第三方材料–本许可不适用于作品中的第三方材料。如使用此类材料，您须负责获得第三方许可并承担任何侵权索赔责任。未经明确许可，您不得使用经合组织标志、视觉识别或封面图片，也不得暗示经合组织认可您使用该作品。根据本许可产生的任何争议应根据1899年仲裁院仲裁规则（PCA仲裁规则2012年）进行仲裁。仲裁地点为巴黎（法国）。仲裁员人数为一名。前言对于人工智能（AI）的进步及其在整个社会中的影响，人们了解得远远不够。在教育领域，人们有很多讨论关于AI能如何改变教育内容的传递，但很少了解AI是如何改变学生学习的基本规则，以便有效地补充AI的能力。如果公共政策希望做的不只是事后适应市场推出的每一种新AI工具而修改课程和教学系统，它就需要积极发挥作用来预见AI能力的演变。本报告概述了一种实现该目标的方法论。该方法论提供了一套指标，涵盖人类能力的关键维度，每个指标描述了人工智能向完全人类等价的发展。这些指标描述了：语言；社交互动；问题解决；创造力；元认知和批判性思维；知识、学习和记忆；视觉；操控；以及机器人智能。这些指标以五个等级的量表呈现，其中人工智能系统最具挑战性的能力位于顶端。基于人类心理学，这种方法为人工智能发展提供了结构化和高层次的视角。将人工智能能力与人类能力相结合，使政策制定者能够评估人工智能在教育中的潜在作用。例如，人工智能能够在多大程度上模仿对教师工作至关重要的社交能力，从而在哪些方面可以替代或补充教师的不同任务？当人工智能能力提升到下一个层面时，会带来什么影响？这些指标将使部长能够讨论人工智能对未来教育的影响——从课程设计到教学法。这将涉及如何在教育中配置空间、时间、人员、技术和人际关系，以创造一种能够培养学习者为未来而学习、而非为过去而学习的学习环境。除了教育之外，这些指标还为部长们提供了一个框架，使他们能够讨论人工智能对其他领域的影响：就业、公民参与、休闲活动和日常生活。在所有这些领域，政策都需要着眼于未来，而不是过去。安德里亚斯·施莱歇尔, 经济合作与发展组织教育与技能司司长致谢该出版物由经济合作与发展组织的“人工智能与技能未来”项目团队策划和开发——斯图尔特·艾略特（项目负责人）、阿贝尔·巴拉特、希维·钱德拉、马克斯·富斯特-拉巴利亚、布里安娜·杰斯米、玛格丽塔·卡拉莫娃、奥蕾莉亚·马西乌特埃、萨姆·米切尔、诺拉·雷瓦伊、吉安卢卡·里斯、米拉·斯坦耶娃和蔡志森。如果没有支持该项目的著名计算机科学家和心理学家的宝贵贡献，本出版物将不可能完成。首先，我们向开发第一份经合组织人工智能能力指标（按字母顺序排列）的专家expressesourgratitude：AnaTeresaAntunes，JoanaBrito，ReginadeBritoDuarte，Kexin-JiangChen，AnthonyG.Cohn，HenriqueCorreiadaFonseca，HaohuaDong，NicholasC.Georgiou，MiguelFaria，AntónioM.Fernandes，RobertB.Fisher，KennethD.Forbus，GiorgioFranceschelli，JonathanFrancis，ArthurC.Graesser，YvetteGraham，JoséHernández-Orallo ，CherieHo，RyotaKanai，PatrickKyllonen，ChristianLebiere，InêsLobo，ChristopherLochhead，RebeccaMartin，ElenaR.Messina，MircoMusolesi，JeanOh，AnaPaiva，RuiPrada，RebeccaRamnauth，SwenRibeiro，BrianScassellatiandAnaVilaçaCarrasco。其次，我们感谢为指标开发提供评论或建议的专家（按字母顺序）：PhillipL.Ackerman，JohnAnderson，GuillaumeAvrin，EvaL.Baker，ChandraBhagavatula，OliverBown，AdrienDoerig，AngeloCangelosi，LucyCheke，EmmanuelChemla，HenrikI.Christensen，MichaelCohen，ErnestDavis，CharlesFadel，DanGutfreund，DavidHogg，JonathanGratch，SamJohnson，ZeidKootbally，NoémieLeDonné，JoelLeibo，MarthaLewis，MatthiasMichel，HaroldF.O’Neil，BrittaRüschoff，UteSchmid，EricSchwitzgebel，LorrieShephard，TadahiroTaniguchi，MarkoTešić，DavidTraum，MichaelWitbrock和HiroshiYamakawa。我们谨感谢教育研究中心（CERI）的同事。CERI主任爱德蒙·米森（EdmundMisson）和IMEP部门副主任斯特凡·文森特-兰克雷（StéphanVincent-Lancrin）在过程中提供了监督、指导宝贵的建议。这个项目和它的团队从前任部门负责人蒂亚·洛克洛卡的专注支持、周到领导及指导下获益良多。在她意外离世之前，她的远见和承诺对项目发展和成功起到了关键作用。我们怀着深深的感激和钦佩纪念她，她的贡献将永远成为这项工作的一个持久部分。教育和技能通讯部的同事以及公共事务和通讯部的同事都对出版物的格式编排和准备工作做出了贡献。我们的谢意延伸至马克·福斯，他对出版物进行了实质性及结构性编辑，确保了连贯、易懂的阅读。我们感谢CERI管理委员会在项目发展中的鼓励和支持。本出版物有助于经济合作与发展组织（OECD）的“工作、创新、生产力和技能中的人工智能”（AI-WIPS）计划。该计划为政策制定者提供新的证据和分析，以了解人工智能能力快速发展的变化及其对工作领域的影响。该计划旨在帮助确保在工作领域中采用人工智能是有效的、有利于所有人、以人为本并得到广大民众的接受。AI-WIPS由德国联邦劳动和社会事务部（BMAS）支持，并将补充该部政策实验室“数字、工作与社会”（PolicyLabDigital,Work&Society ）中德国人工智能观测站的工作。欲了解更多信息，请访问https://oecd.ai/workinnovation-productivity-skills和https://denkfabrik-bmas.de/. 目录前言3 致谢4 执行摘要8 参考文献10 1当前人工智能能力概述11 当前人工智能能力比较表当前评级评论参考12 文献14 16 2构建衡量AI能力的框架17 人工智能已超越我们对它能力的理解方法：一种新颖且独特的方法构18 建和发展指标局限性下一步人工智能能力指标的作用参考文献19 21 23 23 24 26 3经合组织人工智能能力指标27 语言量表社会互动量表问题解决量表创造28 力量表元认知与批判性思维量表知识、学30 习与记忆视觉量表操作量表机器人智能量表参考文献32 34 36 38 40 42 44 46 4人工智能能力指标的政策使用案例47 将指标映射到人类能力职业需求上的转型教育结论参考文献48 51 52 53 图例图2.1.经合组织人工智能能力指标的发展20 图2.2.经合组织人工智能能力指标20 图2.3AI五级概述22 图4.1将语言、问题解决和社会互动的人工智能能力指标映射到教师任务的能力要求49 图4.2。一个用于分析教育中人工智能能力提升影响的分析框架51 表表1.1当前AI能力水平概述表3.1AI语言量表表3.2AI社会13 互动量表表3.3AI问题解决量表表3.4AI创造力量表表3.29 5AI元认知与批判性思维量表表3.6AI知识、学习与记忆31 量表表3.7AI视觉量表表3.8AI操作量表表3.9AI机器人智能量表33 35 37 39 41 43 45 盒子第4.1框。问题解决等级中层的AI辅助应对疫情案例50 执行摘要随着2022年11月ChatGPT的推出，人工智能的潜在影响1(AI)对人类活动开始引起大众的想象。然而，尽管人工智能正在快速发展，公众对其影响的理解并未跟上。仍有许多工作需要做，才能理解人工智能如何改变人类活动。本报告介绍了经合组织的最新人工智能能力指标。这些指标旨在为政策制定者提供一个以证据为基础的框架，以理解人工智能能力并将其与人类能力进行比较。历时五年开发的这些指标，借鉴了庞大的一个由人工智能研究人员、心理学家和其他专家组成的网络。随附的技术报告（经合组织，2025）的章节[1])是由32位专家撰写的，并由另外25位专家进行评审。九项指标涵盖了一系列人类能力，每一项都描述了人工智能朝着完全人类等价发展的方向：语言；社会互动；问题解决；创造力；元认知和批判性思维；知识、学习和记忆；视觉；操作；以及机器人智能。这些指标以五级量表呈现，其中人工智能系统最具挑战性的能力位于顶部。每个级别都包括对在该级别人工智能系统能够准确且持续执行的能力类型的简要描述。当前人工智能在每个量表上的评级与现有证据相关联。指标在这里发布β一个面向两个关键利益相关者群体（人工智能研究人员和政策制定者）征求反馈的表格：研究人员的人工

点击免费查看完整报告

介绍经合组织人工智能能力指标

核心观点

关键数据

研究结论

你可能感兴趣

经合组织人工智能能力指标技术报告

2025年健康概览：经合组织指标

经合组织贸易便利化指标：到2025年的监测政策

经合组织2025年生产力指标简编

2025年教育概览：经合组织指标

2025年养老金概览：经合组织和G20指标

促进东南亚国家联盟的贸易：来自经合组织最近贸易便利化指标趋势的见解

经合组织2026年数字教育展望：探索生成性人工智能在教育中的有效应用

中小企业采用人工智能：经合组织七国集团讨论文件

经合组织负责任人工智能尽职调查指南