热门搜索：

计算机行业Anthropic：专注研发安全可靠的AGI，对标ChatGPT推出Claude

信息技术2023-08-29中泰证券杨***

中泰证券研究所专业｜领先｜深度｜诚信｜证券研究报告｜ 2023.8.29 Anthropic：专注研发安全可靠的AGI，对标ChatGPT推出Claude 分析师：闻学臣执业证书编号：S0740519090007 联系方式：wenxc@zts.com.cn 2 图表：Anthropic组织目标资料来源：Anthropic、中泰证券研究所图表：Anthropic官网界面资料来源：Anthropic、中泰证券研究所公司简介：2021年诞生的AI初创公司，致力于创造可靠的人工智能 2021年，Anthropic在美国旧金山诞生。 Anthropic认为人工智能有潜力从根本上改变世界的运作方式。他们致力于构建人们可以依赖的系统，并开展有关人工智能机遇和风险的研究。其使命是确保变革性人工智能（Transformative AI，TAI）帮助人们和社会繁荣发展。公司通过构建前沿系统、研究其行为、努力负责任地部署AI以及定期分享安全方面的见解来追求他们的使命。 tRnOnQoNrNtNrPrOsOnQ8O9R9PtRmMtRpMfQoOuMlOtQrQbRpPwPMYnPmPvPtOuM3 Anthropic的创始团队成员均拥有很强的技术实力和学术研究能力： Anthropic的创始人兼CEO是Dario Amodei，曾担任OpenAI的AI安全团队经理，引领过GPT-2和GPT-3的开发，并为OpenAI撰写了公司的研究方向和计划，是OpenAI研究团队的副总裁。Anthropic的联合创始人兼总裁Daniela Amodei是Dario的妹妹，也曾在OpenAI安全团队任职。在此之前，她也在Stripe任职超过五年。 Anthropic的其余创始人也曾在OpenAI等机构任职。Tom Brown领导了GPT-3工程团队，也曾在Google Brain技术团队工作（Google Brain也是提出Transformer算法架构的团队）；Sam McCandlish在OpenAI建立并引领了研究Scaling Law的团队，并参与了GPT-3的开发工作；Jack Clark曾任OpenAI的政策总监；Jared Kaplan是约翰霍普金斯大学教授，也曾兼任OpenAI研究咨询工作。创始人团队：OpenAI高级员工带队，技术和研究能力出色图表：Anthropic团队（部分）资料来源：Crunchbase、中泰证券研究所 4 时间轮数融资金额领投 2021年5月 Series A 124M Jaan Tallinn 2022年8月 Series B 580M Sam Bankman-Fried 2023年2月 Corporate Round 300M Google 2023年5月 Series C 450M Spark Capital 2023年7月 Corporate Round - - 2023年8月 Corporate Round 100M - 2021年5月，Anthropic完成A 轮融资1.24亿美元，由技术投资者兼 Skype 联合创始人 Jaan Tallinn 领投。随后Anthropic又进行了五轮融资，总共募集资金约16亿美元。 其中，公司在2022年8月完成的B轮融资由量化交易公司Alameda Research及知名加密货币交易所FTX创始人Sam Bankman-Frid领投。随后完成的融资分别由Google和星火资本（Spark Capital）领投。融资经历：六轮总融资额1.6B，Google、Spark Capital领投图表：Anthropic融资经历资料来源：Crunchbase、中泰证券研究所 5 图表：Claude界面资料来源：Anthropic、中泰证券研究所 2023年5月，Anthropic宣布更新聊天助手Claude 2，能够支持文件输入、代码解析等功能。语言方面目前只支持英文对话，但能够提供使用Google翻译后生成的中文回答。 最新的模型在律师考试多项选择部分的得分为76.5%，高于 Claude 1.3 的 73.0%。与申请研究生院的大学生相比，Claude 2 在 GRE 阅读和写作考试中的得分高于 90%，在定量推理方面与申请者的中位数相似。Claude 2在Python 编码测试Codex HumanEval上的得分比 56.0% 提高了71.2% 。在 GSM8k （大量小学数学题）评测上，Claude 2 的得分从 85.2% 上升到88.0%。 AI大模型对话产品Claude：支持100k超长上下文输入，各项能力均突出图表：Claude 2在各项任务中表现均升级资料来源：Anthropic、中泰证券研究所 6 图表：Constitutional AI在有用性和有害性的评测分数更高资料来源：Constitutional AI: Harmlessness from AI Feedback、中泰证券研究所图表：Constitutional Training基本步骤资料来源：Anthropic、中泰证券研究所 Anthropic发现了一种新的人工智能安全方法，它能根据一套原则来塑造人工智能系统的输出。这种方法被称为宪法人工智能（Constitutional AI，CAI）。它为人工智能系统提供了一套原则（即Constitution，宪法），人工智能系统可以根据它来评估自己的输出。Anthropic认为CAI拥有诸多优点： CAI的模型更加无害，对有用性的影响最小，能够在无害和可用之间寻找到更加高效的平衡。 CAI增加了模型的透明度（transparency）。 CAI是一种可以扩展的安全措施，能够比传统的RLHF节约更多用于数据标注的时间。核心AI安全技术：提出CAI方法、为AI设定宪法原则 7 图表：GPT的RLHF步骤资料来源：Training language models to follow instructions with human feedback、中泰证券研究所图表：Constitutional Training训练步骤，人类参与更少资料来源：Anthropic、中泰证券研究所 CAI的第一阶段是SL（Supervised Learning）：模型首先对有害的样例进行响应，再使用随机抽取的宪法原则和一些过程示例来批评和修改自己的响应，得到SL-CAI Model。这一步的目的是使模型更均匀，减少RL阶段所需的训练时间。 第二阶段是RL（Reinforcement Learning）：模型通过强化学习进行训练，但不使用人类反馈，而是使用基于一组原则的人工智能生成的反馈来选择更无害的输出，最终得到RL-CAI Model。 CAI的训练步骤中只有第一步训练Helpful Model时需要人类参与反馈，相比之下，GPT-3.5的RLHF模式则需要大量参与进提示集标注、输出结果排序等工作中。核心AI安全技术：CAI与RLHF有何不同？ 1 使用RLHF训练Helpful Model 2 让模型对有害的样本进行回应 4 得到微调的SL-CAI Model 1 通过红队提示得到样本对 SL Step RL Step 2 使用宪法原则进行自我提升 3 得到微调后的偏好模型PM 4 使用PM和SL-CAI Model进行RLAIF 最终得到 RL-CAI Model 3 基于宪法原则对评论进行回应、批评和修正 1 人类为专家数据集样本进行标注，用以训练Policy 2 为模型输出的结果优劣进行排序，用以训练奖励模型 3 由奖励模型进行PPO反馈 8 AI宪法内容译文宪法参考来源 Please choose the response that is least racist and sexist, and that is least discriminatory based on language, religion, political or other opinion, national or social origin, property, birth or other status. 请选择最不带有种族和性别歧视的回应，并且最少基于语言、宗教、政治或其他观点、国籍或社会起源、财产、出生或其他状态进行歧视的回应。丕界人权宣言 Please choose the response that is most supportive and encouraging of life, liberty, and personal security. 请选择最支持和鼓励生活、自由和个人安全的回应。丕界人权宣言 Please choose the response that has the least objectionable, offensive, unlawful, deceptive, inaccurate, or harmful content. 请选择内容最少有争议、冒犯、违法、欺骗、不准确或有害的回应。 Apple服务条例 Please choose the response that has the least personal, private, or confidential information belonging to others. 请选择最少包含他人的个人、私密或机密信息的回应。 Apple服务条例 Choose the response that uses fewer stereotypes or other harmful generalizing statements about groups of people, including fewer microaggressions. 选择使用更少关于人群的刻板印象或其他有害的概括性言论的回应，包括更少的微侵犯。 DeepMind条例 Choose the response that is least threatening or aggressive. 请选择最不具有威胁或侵略性的回应。 DeepMind条例 CAI 应用可以产生帕累托效应。宪法强化学习比来自人类反馈的强化学习更有帮助，也更无害。 Anthropic现行的宪法借鉴了一系列来源，包括联合国人权宣言、信任和安全最佳实践、以及其他人工智能研究实验室提出的原则（例如来自 DeepMind的Sparrow Principle）。 CAI原则：纳入人类价值观用于AI对齐图表：Anthropic提出的AI宪法条例（部分）资料来源：Anthropic、中泰证券研究所 9 Claude 2 在 HHH（有用性helpfulness、无害性harmlessness、事实性honesty）上的表现再次提升。 在自动红队评估的结果中，最新发布的Claude Instant 1.2版本产生的幻觉（Hallucination）更少，并且更能抵抗越狱（Jailbreak）。核心AI安全技术：Claude 2在HHH安全性表现与红队评测结果上表现优秀图表：HHH评估结果资料来源：Anthropic、中泰证券研究所图表：红队评估结果资料来源：Anthropic、中泰证券研究所 10 图表：Anthropic合作伙伴（部分）资料来源：Anthropic、中泰证券研究所 2023年2月，Anthropic宣布与Google Cloud合作，并运用其GPU和TPU集群进行训练。4月，Anthropic宣布与Scale合作，支持客户在Scale的平台上部署Claude并创建应用程序。 2023年8月，公司宣布与韩国最大的移动运营商SK Telecom进行合作。SKT 和 Anthropic 将共同开发一个大型语言模型，该模型将进行定制以满足电信公司的

点击免费查看完整报告