您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [谷歌(Google)]:2025负责任人工智能进展报告 - 发现报告

2025负责任人工智能进展报告

信息技术 2025-03-31 - 谷歌(Google) 落枫
报告封面

前言 人工智能是一项变革性技术,它既为我们实现使命提供了独特的机会,也为我们扩展科学发现和解决世界上一些最重要的问题提供了机会。在谷歌,我们相信我们继续负责任地开发和部署人工智能至关重要,重点是确保人们、企业和政府 世界各地都可以从其非凡潜力中受益,同时缓解其潜在风险。 关于我们最新研究与实践成果的信息,涉及AI安全和责任主题。它详细介绍了我们根据NIST框架进行治理、映射、衡量和管理AI风险的方法,以及我们如何在谷歌内部实施负责的AI创新的相关更新。我们还提供了关于从严格的红队评估流程到如何使用包括更好的安全微调和过滤器、安全和隐私控制、产品中的来源技术以及广泛的AI素养教育等技术的风险缓解等主题的更多具体见解和最佳实践。 框架从其他公司和学术机构中涌现。我们更新的AI原则——以大胆创新、负责任的发展和协作伙伴关系为中心——反映了随着AI的快速发展,我们所学到的东西。 2018年,我们是行业内首批采用AI原则的企业之一,自那以后,我们每年都发布了AI责任报告,详细说明了我们的进展。今年的报告分享了 随着人工智能技术及其发展及应用的讨论持续演变,我们将继续从我们的研究和用户那里学习,并创新新的负责任的发展和应用方法。在此过程中,我们承诺通过发布此类报告等方式,与更广泛的生态系统分享我们所学的知识,并通过持续参与、讨论和与更广泛社区的合作,以最大限度地提高人工智能对每个人的益处。 我们的AI责任方法在过去几年中不断发展,以应对我们产品的动态特性、外部环境和全球用户的需求。自2018年以来,AI已经演变成为一种通用技术,被数十亿人以及无数组织和企业每日使用。广泛建立责任框架是这一演变的重要组成部分。我们鼓励G7和国际标准化组织等机构在AI治理方面的进展,并也 劳里·理查森 副总裁,信任与安全,谷歌 我们的负责任人工智能方法概述 我们已经开发了一种专注于人工智能开发全生命周期的责任治理方法。这种方法以我们的AI原则为指导,强调大胆创新、负责任的发展和协作进步。我们在这个领域的持续工作反映了行业指南中的关键概念,如NIST人工智能风险管理框架。 管理 我们通过研究和专家咨询采用科学方法来绘制人工智能风险图,并将这些输入编码成一个风险分类法。 我们部署和演进缓解措施以管理内容安全、隐私和安全性例如,安全过滤器和越狱保护。 核心组件是风险管理研究涵盖新兴人工智能模型能力、来自人工智能的新兴风险以及潜在的人工智能滥用。这项研究,我们已在超过300篇论文中发表,直接指导我们的人工智能风险分类法, 启动评估,以及缓解技术。 我们通常逐步推出我们的产品。与针对特定受众的测试,并进行发布后监控of用户反馈对于快速修复. 多层次的红队攻击在我们的方法中扮演着关键角色,内部和外部团队积极对AI系统进行弱点测试,并识别潜在的风险。以安全为重点的红队模拟真实世界的攻击,而以内容为重点的红队识别潜在的漏洞和问题。外部合作伙伴关系并列符号人工智能辅助的红队行动进一步优化此过程。 我们的前及后发布流程确保通过明确要求、缓解支持和领导审查与这些原则和政策保持一致。这些涵盖了模型与应用要求,重点关注安全性、隐私和安全性。发射后监控并且评估有助于持续改进和风险管理。 我们的方法还借鉴了外部领域专业知识提供新的见解以帮助我们更好地理解新兴风险,并补充内部工作。 我们定期发布外部模型卡片和技术报告,以提供透明度关于模型创建、功能以及预期用途。我们在此方面进行投资。模具和数据谱系工具促进透明度和问责制。 摘要:至今为止我们负责任的人工智能成果概览 负责任地构建人工智能需要众多团体之间的合作,包括研究人员、行业专家、政府和用户。 300+关于人工智能责任和安全主题的研究论文 实现了第三方评估中Google Cloud AI在准备度方面的“成熟”评级。美国国家标准与技术研究院人工智能风险管理框架治理与ISO/IEC 42001合规性 我们积极贡献于这个生态系统,致力于最大化人工智能的潜力,同时保障安全、隐私和安全性。 与外部团体和机构合作,共同承担人工智能的责任。前沿模型论坛、人工智能伙伴关系、世界经济论坛、MLCommons、Thorn、内容溯源与真实性联盟、数字信任与安全伙伴关系、安全AI联盟和广告委员会 19,000安全专业人士已完成了SAIF风险评估,以获取针对其组织相关的个性化人工智能风险报告。 内容安全政策。我们的政策旨在减轻在儿童安全、自杀和自残等领域的伤害,这些政策基于多年的研究、用户反馈和专家咨询。这些政策指导我们的模型和产品,以最大限度地减少某些类型的危害输出。一些个别应用,如Gemini应用,也有它们自己的政策指南。我们还优先考虑中立和包容性设计原则,目标是最大限度地减少不公平的偏见。我们还有禁止使用政策,规定了人们如何与我们的人工智能模型和功能互动。 安全和隐私框架。我们的安全人工智能框架专注于人工智能的安全性和隐私维度。 特定应用的开发框架。除了谷歌公司范围内的框架和政策外,我们的几个应用程序都有特定的框架来指导它们的日常开发和运营。 我们的Gemini应用方法指导了我们对应用的日常开发和其行为。我们认为Gemini应用应该: Govern:全栈AI治理 政策与原则 1. 遵循你的指令Gemini的首要任务是为您提供优质服务 我们的治理过程建立在我们的原则和框架之上: 。 AI 原则。我们建立了并不断演进我们的AI原则,以指导我们开发和部署AI模型和应用程序的方法。这些原则的核心在于追求AI努力,其中预期整体利益远大于可预见的风险。 2. 适应您的需求 Gemini力求成为最有帮助的人工智能助手。 确保您的体验安全。 模型安全框架。《前沿安全框架》,我们最近对其进行了更新,有助于我们积极准备应对更强大的未来AI模型可能带来的潜在风险。该框架遵循英国AI安全研究所提出的“负责任的规模扩展”新兴方法。 Gemini旨在与一系列政策指南保持一致,并受Google的禁止使用政策所管辖。 我们采用全栈式方法来治理人工智能——从负责任地开发和应用模型,到发布后的监控和修复。 我们的政策和原则指导我们的决策过程,包括在产品发布前后的明确要求、领导层审查以及文件记录。 预上市和上市后评价 文档 我们的负责任AI方法反映了行业指南中的关键概念,例如:NIST人工智能风险管理框架——治理、映射、测量和管理。 我们鼓励在人工智能治理过程中实现透明度和问责制。 我们通过一套启动要求、领导审查和发布后要求体系来实施我们的原则、框架和政策,旨在支持持续改进。 模型文档。外部模型卡和技术报告定期发布,作为透明度证据。技术报告提供了关于我们最先进的AI模型是如何创建以及如何工作的详细信息。这包括对预期用例的阐明、模型可能存在的任何限制,以及我们的模型是如何与安全、隐私、安全和责任团队协作开发的。此外,我们还发布了我们最强大模型和开源模型的模型卡。这些卡片以“营养标签”格式总结了技术报告,以展示下游开发者所需的重要信息,或帮助政策领导者评估模型的安全性。 模型要求。治理模型的要求主要集中在筛选用于训练数据的质量、模型性能以及对政策的遵守,以及在技术报告和模型卡中记录训练技术。这些过程还包括安全、隐私和安全标准。 应用要求。应用启动要求旨在应对风险,并包括测试和设计指导。例如,生成视听内容的应用需要整合如SynthID等稳健的来源解决方案。这些要求基于产品的性质、目标用户群、计划功能以及涉及到的输出类型。例如,向未成年人提供的应用可能在家长监督和适宜年龄内容等方面有额外的要求。 数据和模型谱系。我们正在投资于强大的基础设施以支持数据和模型谱系跟踪,使我们能够了解我们在AI应用中使用的数据和模型的来源及转换。 领导力评审。高级管理审评人员根据其对负责任AI领域的专业知识,详细审查评估结果、风险缓解措施,然后基于这些内容制定推出决策。同时,他们还监控我们的框架、政策流程,确保其不断完善,以适应该领域的新范式和功能。 项目启动后需求。我们的治理在产品发布后继续进行,以评估可能出现在产品上的任何问题。发布后治理识别未经缓解的残留风险和新兴风险,以及改进我们的模型、应用和治理流程的机会。 启动基础设施。我们正在优化我们的基础设施,以简化人工智能发布管理、责任测试以及缓解进展监控。 案例研究:提升人工智能透明度:利用模型卡片 然而,随着生成式AI模型的进步,我们已经调整了我们最新的模型卡片,例如我们最高质量文本到图像模型Imagen 3的卡片,以反映AI开发和部署的快速演变格局。虽然这些模型卡片仍然包含我们于2019年最初提出的部分元数据类别,但它们也优先考虑清晰度、实用性,并包括对模型预期用途、局限性、风险和缓解措施的评估,以及伦理和安全考量。 2019 年,谷歌研究论文中介绍了模型卡片,作为记录并提高透明度的方式来展示我们对模型的评估方式。 模型卡片 模型详情 指标 指标应选择以反映模型在现实世界中的潜在影响。• 模型性能指标 • 决策阈值 • 变化方法 模型的基本信息。• 开发模型的个人或组织 • 模型日期 •模型版本 • 模型类型 • 训练算法、参数、公平性约束或其它应用方法以及特征等信息 • 获取更多信息的相关论文或其他资源 • 引用详细信息 • 许可证 • 关于提出有关模型的问题或意见的联系地址 该论文提出了一些基本的模型卡片字段,这些字段有助于为模型最终用户提供所需信息,以评估何时以及如何使用模型。许多最初提出的字段仍然是当前整个行业中模型卡片中发现的至关重要元数据类别。 评估数据 关于用于定量分析的数据集(们)的详细信息对卡片的分析。数据集、动机、预处理 训练数据 我们模型卡的先前版本,例如预测3D面部表面几何形状的版本以及一个对象检测模型版本,传达了关于相应模型的重要信息。 可能在实践中无法提供。在可能的情况下,本部分应与评估数据保持一致。如果无法提供此类详细信息,此处应提供最低限度的可接受信息,例如训练数据集中各种因素分布的详情。 预期用途 用例开发期间所设想的情况。• 主要预期用途 • 范围外的用例 因素 定量分析 可能包括人口统计学或表型群体、环境条件、技术属性,或其他按要求列出的因素。• 相关因素 • 评估因素 • 统一结果 • 交叉结果 伦理考量 注意事项与建议 本研究论文《模型报告之模型卡》中建议的模型卡字段。 关于人工智能滥用的研究。绘制生成式AI潜在误用的地图已成为研究的核心领域,这有助于我们评估和评估自己在这些风险领域中的模型,以及潜在的缓解措施。这包括最近关于政府支持的网络威胁行为者如何试图使用AI的研究,以及这种活动是否代表新的风险。 外部领域专业知识 我们通过与外部领域专家和受信任的测试人员合作,增强我们的研究,他们可以帮助我们进一步绘制和理解风险。 外部专家反馈。我们在全球的谷歌安全工程中心以及行业会议上举办研讨会和演示,从学术界、民间社会和商业组织中收集见解。 受信任的测试员。团队还可以利用外部可信的测试小组,这些小组根据其领域专业知识获得安全访问权限以测试模型和应用程序。 风险分类法 我们已经将我们的映射工作编纂成与AI相关的潜在风险的分类法,该分类法建立在NIST AI风险管理框架之上,并借鉴了我们开发部署各种AI模型和应用的实践经验。这些风险涵盖安全、隐私和安全,以及透明度和问责制风险,例如来源不明确或缺乏可解释性。此风险图旨在使人们能够清楚地了解,对于特定发射而言,哪些风险最为相关,以及可能需要采取哪些措施来缓解这些风险。 图:识别和理解风险 风险管理研究 我们已在负责任的人工智能主题上发表了300多篇论文,并与世界各地的科研机构进行了合作。近期关注的领域包括: 关于新型人工智能能力的研究。我们研究了新兴人工智能能力(如新的模态和代理人工智能)的潜在影响,以更好地理解它们是否以及如何实现,同时识别潜在缓解措施和政策。 本质上迭代的,与技术的发展同步,