您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:量化漫谈系列之十六:Cursor的更强搭档:Claude 3.7 sonnet代码生成评测 - 发现报告

量化漫谈系列之十六:Cursor的更强搭档:Claude 3.7 sonnet代码生成评测

2025-03-01高智威、许坤圣国金证券陈***
AI智能总结
查看更多
量化漫谈系列之十六:Cursor的更强搭档:Claude 3.7 sonnet代码生成评测

Claude 3.7 Sonnet更新介绍 2025年2月25日,Anthropic宣布推出Claude系列的新模型Claude 3.7 Sonnet,该模型凭借强大的编程能力引发了用户的关注。Claude 3.7 Sonnet相比于之前版本的核心优势体现在多模态处理、混合推理模式、安全机制和计算机操作四个方面。在多模态处理方面,Claude 3.7 Sonnet能够解析图表、图像和屏幕像素输入等视觉数据,生成结构化分析报告。在混合推理模式方面,模型加入了拥有思维链的扩展思考模式(extended-thinking),并且可以根据用户的问题自动切换标准模式和扩展思考模式。在安全机制方面,Claude 3.7 Sonnet在处理模糊或潜在有害请求时,减少了不必要的拒绝。在计算机操作方面,模型可以执行鼠标点击、文本输入、按钮导航等操作,并且支持跨平台操作。 Claude 3.7 Sonnet编程能力介绍 Claude3.7 Sonnet在编程能力方面具有显著的优势,在编程基准评估测试中该模型的准确率达到了70.3%,远超同期模型约49%的水平;在智能体工具使用方面同样相比3.5版本存在显著提升,在TAU-bench的两个任务准确率分别达到81.2%和58.4%。Anthropic还基于Claude 3.7 Sonnet模型开发了终端集成式AI编程工具Claude Code,具备全流程代码开发支持能力,为用户提供了类似Cursor的AI编程辅助功能。 Claude 3.7 Sonnet项目编写测试 我们用三个来自《量化漫谈系列之十三:基于大模型实现对话式自动编程-Cursor使用指南与实战》的项目,结合AI代码编辑器Cursor,测试Claude 3.7 Sonnet从无到有编写项目的能力,并且与Claude 3.5 Sonnet、OpenAI o3 mini模型进行对比。在网页爬虫任务中,Claude 3.7 Sonnet成功爬取了所有研报的信息,但是经过多次尝试未能获取研报正文;在本地数据分析任务中,Claude 3.7 Sonnet生成了图文并茂的.md格式报告,且分析角度比较全面; 在回测系统构建任务中,Claude 3.7 Sonnet实现了回测框架的数据获取、信号生成、交易执行、策略评估以及参数优化模块,并且完成了四种策略测试。对比Claude3.5Sonnet和OpenAI o3 mini,Claude 3.7 Sonnet生成的代码在功能完整性、灵活性和可扩展性都表现较好,体现了在任务完成度和代码质量方面的优势。不过在目前阶段,Claude 3.7 Sonnet还存在api不稳定和Cursor针对模型适配不到位的问题,可能会在未来版本得到改善。 风险提示 以上结果通过历史数据统计、建模和测算完成,历史规律不代表未来;在市场环境发生变化时,模型存在失效的风险;策略依据一定的假设通过历史数据回测得到,当交易成本或其它条件改变时,可能导致策略收益下降甚至出现亏损;大模型输出的内容存在一定的随机性和准确性风险;本文所提炼的观点,基于一定的提示词产生,大语言模型输出的结果可能随着提示词的变化而发生变化。 一、Claude 3.7 Sonnet更新介绍 2025年2月25日,Anthropic宣布推出Claude系列的新模型Claude 3.7 Sonnet,该模型凭借强大的编程能力引发了用户的关注。 Claude 3.7Sonnet是Anthropic推出的首个混合推理模型,融合即时响应与扩展思考两种模式。其技术架构采用串行测试时间计算(允许模型通过多步骤推理提升准确性 )和并行测试时间计算(同时探索多种解题路径)。在编码任务中,模型通过bash工具集成和文件编辑工具直接操作开发环境,支持单会话内完成代码规划、修改和测试。 1.1Claude模型产品线 Anthropic的Claude系列模型根据性能和应用场景分为三个层级: 1.Claude Haiku:轻量级模型,目前版本3.5,注重速度和成本效益,适合简单任务。 2.ClaudeSonnet:均衡型模型,目前版本3.7,兼顾性能和效率,适用于企业级复杂任务。 3.Claude Opus:旗舰模型,目前版本3.0,具备最高智能水平,专需前沿能力的场景。 Anthropic, 图表1:Claude系列模型产品线 Claude3.7 Sonnet属于Sonnet系列的升级版,首次引入混合推理架构,标志着从纯语言模型向深度推理模型的跨越。总体而言,Claude 3.7 Sonnet相比于之前版本的核心优势体现在多模态处理、混合推理模式、安全机制和计算机操作四个方面。 图表2:Claude 3.7 Sonnet和Claude 3.5系列对比 1.2多模态处理 Claude 3.7 Sonnet能够解析图表、图像和屏幕像素输入等视觉数据,并转化为可操作的商业洞察。在数据提取与分析方面,模型可以从复杂图表、图形中提取关键信息, 生成结构化分析报告。在跨模态协作方面,模型能够结合文本和视觉信息处理任务。如在测试多模态AI智能体计算机操作能力的OSWorld基准测试中,模型通过观察屏幕像素并执行虚拟鼠标点击、键盘输入等方式完成开放式任务。单次成功率(Pass@1)是OSWorld评估中模型仅有一次尝试机会解决问题的成功率,而Claude 3.7 Sonnet相对于Claude 3.5 Sonnet在这方面有较大的提升。 图表3:Claude 3.7 Sonnet的多模态能力提升 从OSWorld的评估结果中,可以看出Claude 3.7 Sonnet相对于Claude 3.5 Sonnet在多模态能力的提升。 1.3混合推理模式 Claude 3.7 Sonnet整合了普通大语言模型和推理模型的双重能力,用户可选择标准模式或扩展思考模式(extended-thinking),此前版本用户仅能使用标准模式。在对话网页中,混合推理模式可以让模型根据用户给出的任务来自动切换标准模式和扩展思考模式。 在标准模式下,模型实现了快速响应(毫秒级延迟),适用于简单问答和基础任务 。在扩展思考模式下,模型通过序列化测试时间计算(Serial Test-Time Compute),进行多个步骤的连续推理,显著提升数学、物理、编码等任务的准确性,例如,在GPQA评估中达到84.8%的准确率,物理子项高达96.5%。开发者还可以设定思考部分的token上限(最高128K),平衡速度与质量。 图表4:在模型对话界面选择标准模式和扩展思考 因此,用户在处理数理或编程等高难度问题时,可以优先考虑使用扩展思考模式来获得全面和深度的回答;在处理文本理解、多模态信息提取等问题时,可以优先使用标准模式,以较快的速度完成任务。目前Claude 3.7 Sonnet的扩展思考模式仅有Anthropic会员用户可以使用,普通用户仅能使用标准模式。 1.4安全机制 Claude 3.7 Sonnet采用多重防护措施保障安全性。签名验证机制使得所有思考块均附带数字签名,确保未被篡改。模型自带命令黑名单来拦截高风险指令(如curl、wget),阻止潜在恶意操作。模型安全的标准维持了ASL-2安全等级,在关键CBRN(化学/生物/辐射/核)相关问题中阻止生成有害的回答。模型的权限系统要求敏感操作(如文件写入)只能在用户显式批准之后实行。 相比在回答问题方面“过于谨慎”的3.5版本模型,Claude 3.7 Sonnet在处理模糊或潜在有害请求时,减少了不必要的拒绝,标准模式下减少了45%,扩展模式下减少了31%。 在针对提示注入攻击的防御方面,新版通过新训练和分类器,阻止攻击的成功率提升了14%,达到88%。 1.5计算机操作 通过集成API,Claude 3.7 Sonnet可模拟人类级计算机交互。在界面操控方面,模型可以执行鼠标点击、文本输入、按钮导航等操作,并且支持跨平台操作。在开发工具链方面,Anthropic即将推出终端级AI助手Claude Code,可编辑代码、运行测试、提交Git请求。模型能够与VS Code等IDE深度整合,生成复杂前端界面。 图表5:Claude 3.7 Sonnet在《宝可梦红》的表现,用于评估计算机操作能力 在配备了内存模块和屏幕像素输入的条件下,Claude 3.7 Sonnet可以通过操作虚拟键盘鼠标游玩游戏《宝可梦红》,相比于无法走出新手村的3.0版,Claude 3.7 Sonnet成功击败了3个道馆主并赢得了徽章,体现了计算机操作能力的显著提升。 二、Claude 3.7 Sonnet编程能力介绍 2.1SWE-bench表现 作为Claude最新一代的编码模型 ,Claude 3.7 Sonnet在编程基准评估SWE-bench(Software Engineering Evaluation)中达成62.3%通过率,是目前通过率最高的大语言模型。在使用了“高级计算”模式时,模型能够增加并行采样、拒绝不符合回归测试的补丁,并利用评分模型筛选最佳结果,从而将SWE-bench的准确率提高到70.3%。作为对比,OpenAI o1、DeepSeek R1等模型的准确率不超过50%,体现了Claude 3.7 Sonnet相比于同期模型在编程能力上的优势。 图表6:Claude 3.7 Sonnet的编程基准评估表现 2.2智能体能力比较 在使用智能体工具处理现实问题的能力上,Claude 3.7 Sonnet同样展现了较好的表现。 Claude3.7 Sonnet在TAU-bench上实现了最先进的性能,TAU-bench是一个测试AI智能体在复杂现实任务中与用户和工具交互的框架。TAU-bench上的得分是通过在Airline Agent Policy中添加提示实现的,该提示指示Claude更好地利用“规划”工具,在多轮交互中鼓励模型在解决问题时写下其思考过程,这与我们通常的思维模式不同,以充分发挥其推理能力。 图表7:Claude 3.7 Sonnet的智能体工具使用能力表现 从TAU-bench表现上看,Claude 3.7 Sonnet取得了相对于Claude 3.5和o1的优势,意味着Claude 3.7 Sonnet可能成为接入智能体工具的首选模型。Claude 3.7 Sonnet强大的智能体能力使得其能够结合AI编辑器(例如Cursor、Windsurf)、命令行工具等工具,通过多步骤的试错和调试处理现实问题。 2.3思维能力对比 和市面上现有的大语言模型相比,Claude 3.7 Sonnet在逻辑思考和数理能力上同样具有优势。通过在视觉推理、多语言问答、研究生水平推理等基准上进行对比,可以发现Claude 3.7 Sonnet在编程测试中的相对优势最大,但是在视觉推理、高中数学竞赛等方面略弱于o1模型,存在一定程度的“偏科”。这或许表明Claude 3.7 Sonnet的训练数据更侧重于企业遇到的实际问题,而非数理竞赛的题目。 图表8:Claude 3.7 Sonnet的思维能力表现 由此可以看出Claude 3.7 Sonnet模型在处理实际编程问题上较高的准确率,为用户解决企业级编程项目提供了强大的帮助。 2.4Claude Code工具 Claude Code是Anthropic基于Claude 3.7 Sonnet模型开发的终端集成式AI编程工具,具备全流程代码开发支持能力。截至目前,Claude Code还处于抢先体验状态,暂未开放给普通用户。 ClaudeCode作为新开发的命令行工具,为用户提供了类似Cursor的AI编程辅助功能。 其核心功能包括智能代码操作、深度代码理解和Git集成。在智能代码操作方面,Claude Code能够通过自然语言指令跨文件编辑代码、自动修复错误、重构逻辑结构,以及运行测试并生成诊断报告。在深度代码理解方面