您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华创证券]:计算机行业重大事项点评Claude3点评:Anthropic第三代AI模型 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业重大事项点评Claude3点评:Anthropic第三代AI模型

信息技术2024-03-12-华创证券喜***
计算机行业重大事项点评Claude3点评:Anthropic第三代AI模型

证 券 研 究 报告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 计算机 2024年03月12日 计算机行业重大事项点评 Anthropic第三代AI模型——Claude 3点评 事项:  2024年3月4日,Anthropic发布Claude 3系列模型,公司称这是迄今为止速度最快、功能最强大的人工智能模型。 评论:  Claude 3包含三个模型Sonnet、Opus、Haiku。其中Opus能力最强但成本最高;Sonnet,则是性能与速度平衡的绝佳选择,相较之下,Opus 的性能虽然更强,但响应的速度模型却和旧模型大致相同;Haiku能力最弱,却是成本效益的轻量级选择。  Claude 3 在克服幻觉上有大幅度进步。Claude 3 Opus在100Q Hard评测的准确率达到46.5%,是Claude 2的近2倍;在Multi-factual评测中准确率提高到62.8%,而错误回答的比例减半。  Claude 3在拒答率上做了优化。其Opus 的错误拒答率从Claude 2的35%降到了9%。通过人工反馈优化,Opus能更好判断什么是真正有害的,什么是可以回答的。  投资策略:Claude 3 具备长文本处理能力,实现多项突破,有望带动AI技术创新和商业世界的发展,涉及算力、大模型以及AI+应用(绘图、视频)等领域。建议关注:1)算力基础:海光信息、寒武纪、龙芯中科;2)服务器:中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等;3)大模型:科大讯飞、商汤、三六零等;4)AI+应用:金山办公、万兴科技、美图、虹软科技、当虹科技。  风险提示:多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 行业基本数据 单击此处输入文字。 相对指数表现 % 1M 6M 12M 绝对表现 22.9% -12.6% -14.7% 相对表现 16.0% -8.2% -5.4% 相关研究报告 《两会系列专题二:数智两会:低空提速,促新质生产力发展》 2024-03-12 《计算机行业周报(20240304-20240308):数智两会:AI+ 赋能产业智能升级》 2024-03-10 《AI+专题系列点评(七):Gemini、Sora、V-JEPA三大模型对比点评》 2024-03-08 -41%-21%-2%18%23/0323/0523/0823/1023/1224/032023-03-13~2024-03-12计算机沪深300华创证券研究所 AI+专题系列点评(八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 2 目 录 一、Claude 3性能行业卓越领先 ..................................................................................... 4 (一)Opus:AI 模型的领衔之作................................................................................... 4 (二)Sonnet:性能与速度平衡的绝佳选择 .................................................................. 5 (三)Haiku:成本效益的轻量级的选择........................................................................ 6 二、Claude 3 三大亮点 .................................................................................................... 6 (一)幻觉克服能力增强 ................................................................................................. 6 (二)缩小长文本理解准确率与人类的差距 ................................................................. 7 (三)拒答率大幅下降 ..................................................................................................... 8 三、投资策略 ..................................................................................................................... 8 四、风险提示 ..................................................................................................................... 8 AI+专题系列点评(八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 3 图表目录 图表 1 Claude 3性能行业卓越领先 ...................................................................................... 4 图表 2 Claude 3 Opus性能最强 ............................................................................................ 5 图表 3 Sonnet响应速度快于Opus ........................................................................................ 6 图表 4 Claude 3 Haiku成本效益更高 ................................................................................... 6 图表 5 Claude 3准确性提高 .................................................................................................. 7 图表 6 Claude 3上下文窗口测试召回率近乎完美 .............................................................. 8 AI+专题系列点评(八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 4 一、Claude 3性能行业卓越领先 Claude 3性能行业卓越领先。Anthropic推出Claude 3系列模型,包括Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。官方公布的数据中,无论是在 MMLU这样的通用推理任务,还是MATH、APPS等数学和编程任务,或是RACE-H、QuALITY等阅读理解和常识问答数据集测试,Claude 3都取得了行业领先成绩,多次超越GPT-4、PaLM、Gemini 1.0 Ultra等强劲模型,展现了顶尖的综合能力。 图表 1 Claude 3性能行业卓越领先 资料来源:Anthropic官网 (一)Opus:AI 模型的领衔之作 Claude 3 Opus全面超越GPT-4等系列大模型。官方发布的数据显示,在知识测试 MMLU、推理测试 GPQA、基础数学测试 GSM8K 等一系列基准测试中,Claude 3 Opus模型展现了卓越的性能,其每一项得分都全面超越了GPT-4以及 Gemini 1.0 Ultra。Anthropic 宣称,Claude 3 Opus为Claude 3系列模型的最强版本,具有接近人类的理解能力,能够游刃有余地应对开放式问题,并巧妙解决各种复杂挑战。 AI+专题系列点评(八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 5 图表 2 Claude 3 Opus性能最强 资料来源:Anthropic官网 (二)Sonnet:性能与速度平衡的绝佳选择 Claude 3 Sonnet性价比最高。在大多数任务中,Sonnet的速度是Claude 2和Claude 2.1的2倍,且在智能处理能力上也实现了质的飞跃。擅长需要迅速响应的任务,例如知识检索和销售自动化。相较之下, Opus的性能虽然更强,但响应的速度模型却和旧模型大致相同。 AI+专题系列点评(八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 6 图表 3 Sonnet响应速度快于Opus 资料来源:Anthropic官网 (三)Haiku:成本效益的轻量级的选择 Claude 3 Haiku可作为轻量级的选择。Haiku模型响应速度最快且可作为轻量级选择。它能在不到三秒的时间内快速消化 arXiv 上的长达约10000个词汇的高密度研究论文及其图表。官方测试结果显示,Haiku 模型的性能水平介于GPT-4 和GPT-3.5 之间,然而在成本效益上,Haiku 模型的性价比远超GPT-4。 图表 4 Claude 3 Haiku成本效益更高 产品名称 Input($/M) Output($/M) 结论 Claude 3 Opus 15 75 Opus相较GPT-4 Turbo更贵 GPT-4 Turbo 10 30 Claude 3 Sonnet 3 5 无对应GPT系列比较 Claude 3 Haiku 0.25 1.25 Turbo相较GPT-3.5 Turbo更便宜 GPT-3.5 Turbo 0.5 1.5 资料来源:Anthropic官网、OpenAI官网、华创证券 二、Claude 3 三大亮点 (一)幻觉克服能力增强 Claude 3 在克服幻觉上有大幅度进步。Anthropic 开发了几个内部评测来考察模型回答的事实准确程度,并与标准做对比。Claude 3 Opus在100Q Hard评测(包含一些晦涩的开放式问题)的准确率达到46.5%,是Claude 2的近2倍;在 Multi-factual 评测中准确率提高到62.8%,而错误回答的比例减半。模型更多地表示“不确定”而不是给出错误信息。模型很大程度上学会了“不确定” 的中间状态,而不是给出生编硬造的错误答案。 AI+专题系列点评(八) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210号 7 图表 5 Claude 3准确性提高 资料来源:Anthropic官网 (二) 缩小长文本理解准确率与人类的差距 Claude 3 长文本理解能力显著增强。QuALITY 阅读理解基准测试是平均5000个token的长篇章,远超一般模型的输入长度。Claude 3 Opus在1-shot 下达到90.5%的准确率,在0-s