行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

量化漫谈系列之十六：Cursor的更强搭档：Claude 3.7 sonnet代码生成评测

2025-03-01 高智威,许坤圣国金证券陈曦

Claude 3.7 Sonnet更新介绍

核心优势与特性

多模态处理：解析图表、图像和屏幕像素输入等视觉数据，生成结构化分析报告，在OSWorld基准测试中单次成功率提升显著。
混合推理模式：整合即时响应与扩展思考两种模式，标准模式适用于简单任务，扩展思考模式通过多步骤推理提升数学、物理、编码等任务的准确性（GPQA评估达84.8%）。
安全机制：采用签名验证、命令黑名单、ASL-2安全等级和权限系统，减少对模糊或潜在有害请求的不必要拒绝（标准模式下减少45%）。
计算机操作：模拟人类级计算机交互，执行鼠标点击、文本输入等操作，支持跨平台，并通过终端级AI助手Claude Code支持全流程代码开发。

编程能力

SWE-bench表现：准确率达70.3%，领先同期模型约49%。
智能体能力：在TAU-bench上表现最佳，展现使用智能体工具处理现实问题的能力。
思维能力：在编程测试中优势显著，但在视觉推理、高中数学竞赛等方面略弱于o1模型。
Claude Code工具：提供智能代码操作、深度代码理解和Git集成，支持MCP协议，未来将增强长任务执行与终端渲染优化。

项目编写测试

多层级多任务爬虫：成功爬取研报信息，代码灵活性强，但存在API不稳定和Cursor适配问题。
本地数据分析：生成图文并茂的.md格式报告，分析角度全面，表现优于Claude 3.5 Sonnet和OpenAI o3 mini。
回测系统构建：实现回测框架的完整功能模块，并通过参数优化提升策略收益，在代码框架完整性和任务完成度上表现良好。

结论

Claude 3.7 Sonnet在多模态处理、混合推理模式、安全机制和计算机操作方面显著提升，编程能力领先同期模型，具备强大的代码生成、单元测试和自动调试能力。结合Cursor表现优异，但在API稳定性和Cursor适配方面需改进。

风险提示

历史规律不代表未来；
市场环境变化导致模型失效风险；
交易成本或条件改变可能导致策略亏损；
大模型输出存在随机性和准确性风险；
提示词变化可能影响输出结果。

Claude 3.7 Sonnet更新介绍 2025年2月25日，Anthropic宣布推出Claude系列的新模型Claude 3.7 Sonnet，该模型凭借强大的编程能力引发了用户的关注。Claude 3.7 Sonnet相比于之前版本的核心优势体现在多模态处理、混合推理模式、安全机制和计算机操作四个方面。在多模态处理方面，Claude 3.7 Sonnet能够解析图表、图像和屏幕像素输入等视觉数据，生成结构化分析报告。在混合推理模式方面，模型加入了拥有思维链的扩展思考模式（extended-thinking），并且可以根据用户的问题自动切换标准模式和扩展思考模式。在安全机制方面，Claude 3.7 Sonnet在处理模糊或潜在有害请求时，减少了不必要的拒绝。在计算机操作方面，模型可以执行鼠标点击、文本输入、按钮导航等操作，并且支持跨平台操作。 Claude 3.7 Sonnet编程能力介绍 Claude3.7 Sonnet在编程能力方面具有显著的优势，在编程基准评估测试中该模型的准确率达到了70.3%，远超同期模型约49%的水平；在智能体工具使用方面同样相比3.5版本存在显著提升，在TAU-bench的两个任务准确率分别达到81.2%和58.4%。Anthropic还基于Claude 3.7 Sonnet模型开发了终端集成式AI编程工具Claude Code，具备全流程代码开发支持能力，为用户提供了类似Cursor的AI编程辅助功能。 Claude 3.7 Sonnet项目编写测试我们用三个来自《量化漫谈系列之十三：基于大模型实现对话式自动编程-Cursor使用指南与实战》的项目，结合AI代码编辑器Cursor，测试Claude 3.7 Sonnet从无到有编写项目的能力，并且与Claude 3.5 Sonnet、OpenAI o3 mini模型进行对比。在网页爬虫任务中，Claude 3.7 Sonnet成功爬取了所有研报的信息，但是经过多次尝试未能获取研报正文；在本地数据分析任务中，Claude 3.7 Sonnet生成了图文并茂的.md格式报告，且分析角度比较全面；在回测系统构建任务中，Claude 3.7 Sonnet实现了回测框架的数据获取、信号生成、交易执行、策略评估以及参数优化模块，并且完成了四种策略测试。对比Claude3.5Sonnet和OpenAI o3 mini，Claude 3.7 Sonnet生成的代码在功能完整性、灵活性和可扩展性都表现较好，体现了在任务完成度和代码质量方面的优势。不过在目前阶段，Claude 3.7 Sonnet还存在api不稳定和Cursor针对模型适配不到位的问题，可能会在未来版本得到改善。风险提示以上结果通过历史数据统计、建模和测算完成，历史规律不代表未来；在市场环境发生变化时，模型存在失效的风险；策略依据一定的假设通过历史数据回测得到，当交易成本或其它条件改变时，可能导致策略收益下降甚至出现亏损；大模型输出的内容存在一定的随机性和准确性风险；本文所提炼的观点，基于一定的提示词产生，大语言模型输出的结果可能随着提示词的变化而发生变化。一、Claude 3.7 Sonnet更新介绍 2025年2月25日，Anthropic宣布推出Claude系列的新模型Claude 3.7 Sonnet，该模型凭借强大的编程能力引发了用户的关注。 Claude 3.7Sonnet是Anthropic推出的首个混合推理模型，融合即时响应与扩展思考两种模式。其技术架构采用串行测试时间计算（允许模型通过多步骤推理提升准确性）和并行测试时间计算（同时探索多种解题路径）。在编码任务中，模型通过bash工具集成和文件编辑工具直接操作开发环境，支持单会话内完成代码规划、修改和测试。 1.1Claude模型产品线 Anthropic的Claude系列模型根据性能和应用场景分为三个层级： 1.Claude Haiku：轻量级模型，目前版本3.5，注重速度和成本效益，适合简单任务。 2.ClaudeSonnet：均衡型模型，目前版本3.7，兼顾性能和效率，适用于企业级复杂任务。 3.Claude Opus：旗舰模型，目前版本3.0，具备最高智能水平，专需前沿能力的场景。 Anthropic, 图表1：Claude系列模型产品线 Claude3.7 Sonnet属于Sonnet系列的升级版，首次引入混合推理架构，标志着从纯语言模型向深度推理模型的跨越。总体而言，Claude 3.7 Sonnet相比于之前版本的核心优势体现在多模态处理、混合推理模式、安全机制和计算机操作四个方面。图表2：Claude 3.7 Sonnet和Claude 3.5系列对比 1.2多模态处理 Claude 3.7 Sonnet能够解析图表、图像和屏幕像素输入等视觉数据，并转化为可操作的商业洞察。在数据提取与分析方面，模型可以从复杂图表、图形中提取关键信息，生成结构化分析报告。在跨模态协作方面，模型能够结合文本和视觉信息处理任务。如在测试多模态AI智能体计算机操作能力的OSWorld基准测试中，模型通过观察屏幕像素并执行虚拟鼠标点击、键盘输入等方式完成开放式任务。单次成功率（Pass@1）是OSWorld评估中模型仅有一次尝试机会解决问题的成功率，而Claude 3.7 Sonnet相对于Claude 3.5 Sonnet在这方面有较大的提升。图表3：Claude 3.7 Sonnet的多模态能力提升从OSWorld的评估结果中，可以看出Claude 3.7 Sonnet相对于Claude 3.5 Sonnet在多模态能力的提升。 1.3混合推理模式 Claude 3.7 Sonnet整合了普通大语言模型和推理模型的双重能力，用户可选择标准模式或扩展思考模式（extended-thinking），此前版本用户仅能使用标准模式。在对话网页中，混合推理模式可以让模型根据用户给出的任务来自动切换标准模式和扩展思考模式。在标准模式下，模型实现了快速响应（毫秒级延迟），适用于简单问答和基础任务。在扩展思考模式下，模型通过序列化测试时间计算（Serial Test-Time Compute），进行多个步骤的连续推理，显著提升数学、物理、编码等任务的准确性，例如，在GPQA评估中达到84.8%的准确率，物理子项高达96.5%。开发者还可以设定思考部分的token上限（最高128K），平衡速度与质量。图表4：在模型对话界面选择标准模式和扩展思考因此，用户在处理数理或编程等高难度问题时，可以优先考虑使用扩展思考模式来获得全面和深度的回答；在处理文本理解、多模态信息提取等问题时，可以优先使用标准模式，以较快的速度完成任务。目前Claude 3.7 Sonnet的扩展思考模式仅有Anthropic会员用户可以使用，普通用户仅能使用标准模式。 1.4安全机制 Claude 3.7 Sonnet采用多重防护措施保障安全性。签名验证机制使得所有思考块均附带数字签名，确保未被篡改。模型自带命令黑名单来拦截高风险指令（如curl、wget），阻止潜在恶意操作。模型安全的标准维持了ASL-2安全等级，在关键CBRN（化学/生物/辐射/核）相关问题中阻止生成有害的回答。模型的权限系统要求敏感操作（如文件写入）只能在用户显式批准之后实行。相比在回答问题方面“过于谨慎”的3.5版本模型，Claude 3.7 Sonnet在处理模糊或潜在有害请求时，减少了不必要的拒绝，标准模式下减少了45%，扩展模式下减少了31%。在针对提示注入攻击的防御方面，新版通过新训练和分类器，阻止攻击的成功率提升了14%，达到88%。 1.5计算机操作通过集成API，Claude 3.7 Sonnet可模拟人类级计算机交互。在界面操控方面，模型可以执行鼠标点击、文本输入、按钮导航等操作，并且支持跨平台操作。在开发工具链方面，Anthropic即将推出终端级AI助手Claude Code，可编辑代码、运行测试、提交Git请求。模型能够与VS Code等IDE深度整合，生成复杂前端界面。图表5：Claude 3.7 Sonnet在《宝可梦红》的表现，用于评估计算机操作能力在配备了内存模块和屏幕像素输入的条件下，Claude 3.7 Sonnet可以通过操作虚拟键盘鼠标游玩游戏《宝可梦红》，相比于无法走出新手村的3.0版，Claude 3.7 Sonnet成功击败了3个道馆主并赢得了徽章，体现了计算机操作能力的显著提升。二、Claude 3.7 Sonnet编程能力介绍 2.1SWE-bench表现作为Claude最新一代的编码模型，Claude 3.7 Sonnet在编程基准评估SWE-bench(Software Engineering Evaluation)中达成62.3%通过率，是目前通过率最高的大语言模型。在使用了“高级计算”模式时，模型能够增加并行采样、拒绝不符合回归测试的补丁，并利用评分模型筛选最佳结果，从而将SWE-bench的准确率提高到70.3%。作为对比，OpenAI o1、DeepSeek R1等模型的准确率不超过50%，体现了Claude 3.7 Sonnet相比于同期模型在编程能力上的优势。图表6：Claude 3.7 Sonnet的编程基准评估表现 2.2智能体能力比较在使用智能体工具处理现实问题的能力上，Claude 3.7 Sonnet同样展现了较好的表现。 Claude3.7 Sonnet在TAU-bench上实现了最先进的性能，TAU-bench是一个测试AI智能体在复杂现实任务中与用户和工具交互的框架。TAU-bench上的得分是通过在Airline Agent Policy中添加提示实现的，该提示指示Claude更好地利用“规划”工具，在多轮交互中鼓励模型在解决问题时写下其思考过程，这与我们通常的思维模式不同，以充分发挥其推理能力。图表7：Claude 3.7 Sonnet的智能体工具使用能力表现从TAU-bench表现上看，Claude 3.7 Sonnet取得了相对于Claude 3.5和o1的优势，意味着Claude 3.7 Sonnet可能成为接入智能体工具的首选模型。Claude 3.7 Sonnet强大的智能体能力使得其能够结合AI编辑器（例如Cursor、Windsurf）、命令行工具等工具，通过多步骤的试错和调试处理现实问题。 2.3思维能力对比和市面上现有的大语言模型相比，Claude 3.7 Sonnet在逻辑思考和数理能力上同样具有优势。通过在视觉推理、多语言问答、研究生水平推理等基准上进行对比，可以发现Claude 3.7 Sonnet在编程测试中的相对优势最大，但是在视觉推理、高中数学竞赛等方面略弱于o1模型，存在一定程度的“偏科”。这或许表明Claude 3.7 Sonnet的训练数据更侧重于企业遇到的实际问题，而非数理竞赛的题目。图表8：Claude 3.7 Sonnet的思维能力表现由此可以看出Claude 3.7 Sonnet模型在处理实际编程问题上较高的准确率，为用户解决企业级编程项目提供了强大的帮助。 2.4Claude Code工具 Claude Code是Anthropic基于Claude 3.7 Sonnet模型开发的终端集成式AI编程工具，具备全流程代码开发支持能力。截至目前，Claude Code还处于抢先体验状态，暂未开放给普通用户。 ClaudeCode作为新开发的命令行工具，为用户提供了类似Cursor的AI编程辅助功能。其核心功能包括智能代码操作、深度代码理解和Git集成。在智能代码操作方面，Claude Code能够通过自然语言指令跨文件编辑代码、自动修复错误、重构逻辑结构，以及运行测试并生成诊断报告。在深度代码理解方面

点击免费查看完整报告

量化漫谈系列之十六：Cursor的更强搭档：Claude 3.7 sonnet代码生成评测

Claude 3.7 Sonnet更新介绍

核心优势与特性

编程能力

项目编写测试

结论

风险提示

你可能感兴趣

量化漫谈系列之十三：基于大模型实现对话式自动编程-Cursor使用指南与实战

量化漫谈系列之十四：DeepSeek部署与蒸馏模型推理评测

量化漫谈系列之九：金融文本解析评测：Llama3是最强开源模型吗？

量化漫谈系列之二十一：Hermes Agent解析：自进化智能体范式与OpenClaw对比评测

量化漫谈系列之六：低成交量下的抽样复制策略-如何精确跟踪微盘股指数？

量化漫谈系列之二十：DeepSeek-V4发布：超长文本分析与Agent能力的全新进化

量化漫谈系列之十九：AI选股模型失效的三种应对方法

量化专题报告多因子系列之十六：基本面因子的收益分解

量化研究系列报告之十六：探索股价动态关联，捕捉属性敏感的动量溢出

量化漫谈系列之十：RAG-ChatGPT读季报：公募基金经理一致观点解析