行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

2025负责任人工智能进展报告

信息技术 2025-03-31 - 谷歌（Google）落枫

谷歌发布2025年2月负责任的人工智能进展报告，概述了其在AI安全和责任方面的最新研究成果与实践。报告核心围绕以下方面展开：

负责任的人工智能方法概述

治理框架：基于NIST框架，通过治理、映射、衡量和管理AI风险，确保模型与应用符合安全、隐私和安全性要求。
红队攻击：内部和外部团队进行多层次红队攻击，识别AI系统弱点，以安全为重点模拟真实攻击，以内容为重点识别漏洞。
政策与原则：AI原则指导决策，包括Secure AI框架和Frontier Safety Framework，涵盖设计、安全和禁止使用政策。
评估流程：预发布和发布后评估，确保与原则和政策一致，包括模型与应用要求、领导力评审和发布后监控。
透明度工具：发布外部模型卡和技术报告，提供模型创建、功能和预期用途的透明度，促进问责制。

核心成果与数据

第三方评估：Google Cloud AI在准备度方面获得“成熟”评级。
合规性：符合ISO/IEC 42001标准，与外部机构合作共同承担AI责任。
合作伙伴关系：参与前沿模型论坛、AI伙伴关系、世界经济论坛等，推动AI生态发展。
研究贡献：发表300+篇关于AI责任和安全的研究论文，与全球科研机构合作。
模型卡：发布外部模型卡和技术报告，提供模型透明度信息。

风险管理与缓解措施

风险分类法：基于NIST框架，涵盖安全、隐私、透明度和问责制风险。
外部专家反馈：通过研讨会和演示收集学术界、民间社会和商业组织的见解。
受信任的测试员：利用外部可信测试小组进行模型和应用程序测试。
AI辅助评估：开发AI代理模拟攻击，加速评估和标注流程，实现规模化风险管理。

案例研究：AlphaFold 3

应用场景：AlphaFold 3加速生物学领域突破，预测分子结构和相互作用。
道德与安全评估：外部专家进行评估，确定潜在风险和收益。
合作与推广：与EMBL合作推出教程，扩大课程规模，加速模型公平采用。
风险映射：持续识别和映射AI到生物安全的潜在风险和效益。

评估方法与技术

模型与应用评估：预发布和发布后评估，涵盖安全、隐私和安全性风险。
红队演习：内部和外部红队模拟攻击，识别系统弱点。
AI辅助红队：训练AI代理寻找潜在漏洞，如间接提示注入攻击。
内容对抗红队：识别AI系统中的弱点，减轻发布前风险。
自动化测试：投资自动化解决方案，加速发布前和发布后测试。

Gemma模型评估

安全性评估：自动化技术过滤敏感数据，人类反馈微调模型。
内部评估：红队行动、自动对抗测试、评估危险活动适用能力。
外部评估：与学术基准对比，如MLCommons AILuminate v1.0。
评估指标：文本内容安全性、记忆、大规模损害、表征损害。

风险管理措施

安全管理：SAIF框架减轻安全风险，如数据中毒、模型泄露。
内容安全：建立模型级和应用级缓解措施，减少生成有害内容风险。
隐私保护：投资隐私风险缓解措施，研究代理性产生的新风险。
多方面方法：实施内容安全、安全和隐私缓解措施，分阶段发布，赋予用户权力。

总结

谷歌通过全栈AI治理方法，结合NIST框架和AI原则，持续提升AI系统的安全性和透明度。通过红队攻击、AI辅助评估和外部合作，识别和缓解潜在风险，推动AI负责任发展，最大化其对全球的益处。

前言人工智能是一项变革性技术，它既为我们实现使命提供了独特的机会，也为我们扩展科学发现和解决世界上一些最重要的问题提供了机会。在谷歌，我们相信我们继续负责任地开发和部署人工智能至关重要，重点是确保人们、企业和政府世界各地都可以从其非凡潜力中受益，同时缓解其潜在风险。关于我们最新研究与实践成果的信息，涉及AI安全和责任主题。它详细介绍了我们根据NIST框架进行治理、映射、衡量和管理AI风险的方法，以及我们如何在谷歌内部实施负责的AI创新的相关更新。我们还提供了关于从严格的红队评估流程到如何使用包括更好的安全微调和过滤器、安全和隐私控制、产品中的来源技术以及广泛的AI素养教育等技术的风险缓解等主题的更多具体见解和最佳实践。框架从其他公司和学术机构中涌现。我们更新的AI原则——以大胆创新、负责任的发展和协作伙伴关系为中心——反映了随着AI的快速发展，我们所学到的东西。 2018年，我们是行业内首批采用AI原则的企业之一，自那以后，我们每年都发布了AI责任报告，详细说明了我们的进展。今年的报告分享了随着人工智能技术及其发展及应用的讨论持续演变，我们将继续从我们的研究和用户那里学习，并创新新的负责任的发展和应用方法。在此过程中，我们承诺通过发布此类报告等方式，与更广泛的生态系统分享我们所学的知识，并通过持续参与、讨论和与更广泛社区的合作，以最大限度地提高人工智能对每个人的益处。我们的AI责任方法在过去几年中不断发展，以应对我们产品的动态特性、外部环境和全球用户的需求。自2018年以来，AI已经演变成为一种通用技术，被数十亿人以及无数组织和企业每日使用。广泛建立责任框架是这一演变的重要组成部分。我们鼓励G7和国际标准化组织等机构在AI治理方面的进展，并也劳里·理查森副总裁，信任与安全，谷歌我们的负责任人工智能方法概述我们已经开发了一种专注于人工智能开发全生命周期的责任治理方法。这种方法以我们的AI原则为指导，强调大胆创新、负责任的发展和协作进步。我们在这个领域的持续工作反映了行业指南中的关键概念，如NIST人工智能风险管理框架。管理我们通过研究和专家咨询采用科学方法来绘制人工智能风险图，并将这些输入编码成一个风险分类法。我们部署和演进缓解措施以管理内容安全、隐私和安全性例如，安全过滤器和越狱保护。核心组件是风险管理研究涵盖新兴人工智能模型能力、来自人工智能的新兴风险以及潜在的人工智能滥用。这项研究，我们已在超过300篇论文中发表，直接指导我们的人工智能风险分类法, 启动评估，以及缓解技术。我们通常逐步推出我们的产品。与针对特定受众的测试，并进行发布后监控of用户反馈对于快速修复. 多层次的红队攻击在我们的方法中扮演着关键角色，内部和外部团队积极对AI系统进行弱点测试，并识别潜在的风险。以安全为重点的红队模拟真实世界的攻击，而以内容为重点的红队识别潜在的漏洞和问题。外部合作伙伴关系并列符号人工智能辅助的红队行动进一步优化此过程。我们的前及后发布流程确保通过明确要求、缓解支持和领导审查与这些原则和政策保持一致。这些涵盖了模型与应用要求，重点关注安全性、隐私和安全性。发射后监控并且评估有助于持续改进和风险管理。我们的方法还借鉴了外部领域专业知识提供新的见解以帮助我们更好地理解新兴风险，并补充内部工作。我们定期发布外部模型卡片和技术报告，以提供透明度关于模型创建、功能以及预期用途。我们在此方面进行投资。模具和数据谱系工具促进透明度和问责制。摘要：至今为止我们负责任的人工智能成果概览负责任地构建人工智能需要众多团体之间的合作，包括研究人员、行业专家、政府和用户。 300+关于人工智能责任和安全主题的研究论文实现了第三方评估中Google Cloud AI在准备度方面的“成熟”评级。美国国家标准与技术研究院人工智能风险管理框架治理与ISO/IEC 42001合规性我们积极贡献于这个生态系统，致力于最大化人工智能的潜力，同时保障安全、隐私和安全性。与外部团体和机构合作，共同承担人工智能的责任。前沿模型论坛、人工智能伙伴关系、世界经济论坛、MLCommons、Thorn、内容溯源与真实性联盟、数字信任与安全伙伴关系、安全AI联盟和广告委员会 19,000安全专业人士已完成了SAIF风险评估，以获取针对其组织相关的个性化人工智能风险报告。内容安全政策。我们的政策旨在减轻在儿童安全、自杀和自残等领域的伤害，这些政策基于多年的研究、用户反馈和专家咨询。这些政策指导我们的模型和产品，以最大限度地减少某些类型的危害输出。一些个别应用，如Gemini应用，也有它们自己的政策指南。我们还优先考虑中立和包容性设计原则，目标是最大限度地减少不公平的偏见。我们还有禁止使用政策，规定了人们如何与我们的人工智能模型和功能互动。安全和隐私框架。我们的安全人工智能框架专注于人工智能的安全性和隐私维度。特定应用的开发框架。除了谷歌公司范围内的框架和政策外，我们的几个应用程序都有特定的框架来指导它们的日常开发和运营。我们的Gemini应用方法指导了我们对应用的日常开发和其行为。我们认为Gemini应用应该： Govern:全栈AI治理政策与原则 1. 遵循你的指令Gemini的首要任务是为您提供优质服务我们的治理过程建立在我们的原则和框架之上：。 AI 原则。我们建立了并不断演进我们的AI原则，以指导我们开发和部署AI模型和应用程序的方法。这些原则的核心在于追求AI努力，其中预期整体利益远大于可预见的风险。 2. 适应您的需求 Gemini力求成为最有帮助的人工智能助手。确保您的体验安全。模型安全框架。《前沿安全框架》，我们最近对其进行了更新，有助于我们积极准备应对更强大的未来AI模型可能带来的潜在风险。该框架遵循英国AI安全研究所提出的“负责任的规模扩展”新兴方法。 Gemini旨在与一系列政策指南保持一致，并受Google的禁止使用政策所管辖。我们采用全栈式方法来治理人工智能——从负责任地开发和应用模型，到发布后的监控和修复。我们的政策和原则指导我们的决策过程，包括在产品发布前后的明确要求、领导层审查以及文件记录。预上市和上市后评价文档我们的负责任AI方法反映了行业指南中的关键概念，例如：NIST人工智能风险管理框架——治理、映射、测量和管理。我们鼓励在人工智能治理过程中实现透明度和问责制。我们通过一套启动要求、领导审查和发布后要求体系来实施我们的原则、框架和政策，旨在支持持续改进。模型文档。外部模型卡和技术报告定期发布，作为透明度证据。技术报告提供了关于我们最先进的AI模型是如何创建以及如何工作的详细信息。这包括对预期用例的阐明、模型可能存在的任何限制，以及我们的模型是如何与安全、隐私、安全和责任团队协作开发的。此外，我们还发布了我们最强大模型和开源模型的模型卡。这些卡片以“营养标签”格式总结了技术报告，以展示下游开发者所需的重要信息，或帮助政策领导者评估模型的安全性。模型要求。治理模型的要求主要集中在筛选用于训练数据的质量、模型性能以及对政策的遵守，以及在技术报告和模型卡中记录训练技术。这些过程还包括安全、隐私和安全标准。应用要求。应用启动要求旨在应对风险，并包括测试和设计指导。例如，生成视听内容的应用需要整合如SynthID等稳健的来源解决方案。这些要求基于产品的性质、目标用户群、计划功能以及涉及到的输出类型。例如，向未成年人提供的应用可能在家长监督和适宜年龄内容等方面有额外的要求。数据和模型谱系。我们正在投资于强大的基础设施以支持数据和模型谱系跟踪，使我们能够了解我们在AI应用中使用的数据和模型的来源及转换。领导力评审。高级管理审评人员根据其对负责任AI领域的专业知识，详细审查评估结果、风险缓解措施，然后基于这些内容制定推出决策。同时，他们还监控我们的框架、政策流程，确保其不断完善，以适应该领域的新范式和功能。项目启动后需求。我们的治理在产品发布后继续进行，以评估可能出现在产品上的任何问题。发布后治理识别未经缓解的残留风险和新兴风险，以及改进我们的模型、应用和治理流程的机会。启动基础设施。我们正在优化我们的基础设施，以简化人工智能发布管理、责任测试以及缓解进展监控。案例研究：提升人工智能透明度：利用模型卡片然而，随着生成式AI模型的进步，我们已经调整了我们最新的模型卡片，例如我们最高质量文本到图像模型Imagen 3的卡片，以反映AI开发和部署的快速演变格局。虽然这些模型卡片仍然包含我们于2019年最初提出的部分元数据类别，但它们也优先考虑清晰度、实用性，并包括对模型预期用途、局限性、风险和缓解措施的评估，以及伦理和安全考量。 2019 年，谷歌研究论文中介绍了模型卡片，作为记录并提高透明度的方式来展示我们对模型的评估方式。模型卡片模型详情指标指标应选择以反映模型在现实世界中的潜在影响。• 模型性能指标 • 决策阈值 • 变化方法模型的基本信息。• 开发模型的个人或组织 • 模型日期 •模型版本 • 模型类型 • 训练算法、参数、公平性约束或其它应用方法以及特征等信息 • 获取更多信息的相关论文或其他资源 • 引用详细信息 • 许可证 • 关于提出有关模型的问题或意见的联系地址该论文提出了一些基本的模型卡片字段，这些字段有助于为模型最终用户提供所需信息，以评估何时以及如何使用模型。许多最初提出的字段仍然是当前整个行业中模型卡片中发现的至关重要元数据类别。评估数据关于用于定量分析的数据集（们）的详细信息对卡片的分析。数据集、动机、预处理训练数据我们模型卡的先前版本，例如预测3D面部表面几何形状的版本以及一个对象检测模型版本，传达了关于相应模型的重要信息。可能在实践中无法提供。在可能的情况下，本部分应与评估数据保持一致。如果无法提供此类详细信息，此处应提供最低限度的可接受信息，例如训练数据集中各种因素分布的详情。预期用途用例开发期间所设想的情况。• 主要预期用途 • 范围外的用例因素定量分析可能包括人口统计学或表型群体、环境条件、技术属性，或其他按要求列出的因素。• 相关因素 • 评估因素 • 统一结果 • 交叉结果伦理考量注意事项与建议本研究论文《模型报告之模型卡》中建议的模型卡字段。关于人工智能滥用的研究。绘制生成式AI潜在误用的地图已成为研究的核心领域，这有助于我们评估和评估自己在这些风险领域中的模型，以及潜在的缓解措施。这包括最近关于政府支持的网络威胁行为者如何试图使用AI的研究，以及这种活动是否代表新的风险。外部领域专业知识我们通过与外部领域专家和受信任的测试人员合作，增强我们的研究，他们可以帮助我们进一步绘制和理解风险。外部专家反馈。我们在全球的谷歌安全工程中心以及行业会议上举办研讨会和演示，从学术界、民间社会和商业组织中收集见解。受信任的测试员。团队还可以利用外部可信的测试小组，这些小组根据其领域专业知识获得安全访问权限以测试模型和应用程序。风险分类法我们已经将我们的映射工作编纂成与AI相关的潜在风险的分类法，该分类法建立在NIST AI风险管理框架之上，并借鉴了我们开发部署各种AI模型和应用的实践经验。这些风险涵盖安全、隐私和安全，以及透明度和问责制风险，例如来源不明确或缺乏可解释性。此风险图旨在使人们能够清楚地了解，对于特定发射而言，哪些风险最为相关，以及可能需要采取哪些措施来缓解这些风险。图：识别和理解风险风险管理研究我们已在负责任的人工智能主题上发表了300多篇论文，并与世界各地的科研机构进行了合作。近期关注的领域包括：关于新型人工智能能力的研究。我们研究了新兴人工智能能力（如新的模态和代理人工智能）的潜在影响，以更好地理解它们是否以及如何实现，同时识别潜在缓解措施和政策。本质上迭代的，与技术的发展同步，

点击免费查看完整报告