行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Anthropic Claude插件测试报告

2025-12-26 猫猫头&AIwatch.ai 郭生根

核心观点与测试感受

Claude插件的意义：Claude插件的推出代表AI交互范式的转变，从传统的代码指令搭建工作流转变为模仿人类操作搭建工作流，降低了自动化流程的门槛，但也带来了人被取代的风险。
测试平台综合表现：Genspark浏览器表现最佳，Manus插件次之，OpenAI Atlas和Anthropic Claude插件表现相对较弱。
各平台具体感受：
- OpenAI Atlas：进步显著，Agent模式自动化处理任务高效精准。
- Anthropic Claude插件：操作缓慢，但认真执行任务，交互体验像人。
- Manus插件：处理任务果断准确，实力超出预期。
- Genspark浏览器：功能全面，工具丰富，对待任务认真。

任务测试结果与分析

总结Youtube视频：
- Genspark浏览器和Manus插件成功完成任务，并进行了实际的视频分析。
- OpenAI Atlas和Anthropic Claude插件仅分析了视频页面信息，未能实际分析视频内容，导致任务失败。
根据邮件内容买东西：
- 所有平台均成功完成任务，但执行时间差异较大。
- OpenAI Atlas执行迅速，Anthropic Claude插件执行缓慢但认真，Manus插件和Genspark浏览器表现良好。
旅行储蓄预算规划：
- Genspark浏览器提供详细的分析和计划，表现最佳。
- OpenAI Atlas和Manus插件内容简单，策略敷衍。
- Anthropic Claude插件在无法上传文档的情况下，直接在表格中编辑，完成了部分任务。
设计品牌Logo(咖啡店)：
- Genspark浏览器和Manus插件成功生成符合要求的Logo，设计风格现代。
- OpenAI Atlas生成的Logo简约大气，Anthropic Claude插件使用“手搓”方式生成，耗时较长且效果一般。
旧金山财务报告查找：
- Genspark浏览器和Manus插件成功找到所有报告并给出具体链接。
- OpenAI Atlas和Anthropic Claude插件仅找到文件所在页面链接，需要用户手动点击。
将简历转网站：
- Genspark浏览器生成可直接预览的网页，设计高端，动画丰富。
- Manus插件设计简约现代，但缺少亮点。
- OpenAI Atlas和Anthropic Claude插件因浏览器安全限制，无法直接访问文件或生成预览版本。

研究结论

AI浏览器和插件在自动化任务方面展现出巨大潜力，但仍处于发展初期，存在操作缓慢、成功率不高等问题。
Genspark浏览器在测试中表现全面，具备较强的任务处理能力和用户体验。
AI技术的进步可能会对部分重复性工作造成冲击，但也为提高工作效率提供了新的工具。

报告封面

2025.12.26郎瀚威猫猫头AIwatch.ai 2aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站关于作者 •作者郎瀚威及团队，郎瀚威现居美国硅谷Palo Alto，AI GTM顾问，第二作者猫猫头，也在硅谷，小红书：107279551 •更多数据内容请关注公众号：郎瀚威Will，新闻资讯请关注推特：@financeyf5获取更多信息官网飞书：https://aiwatch.ai/；GenAI网页数据2025Q1报告：链接，2025Q2报告：链接，2025Q3报告：链接。 •到飞书查看更多Agent测试报告：链接，含综合能力测试及多个垂类场景能力测试（如写报告、数据抓取、视频总结等） •商务合作洽谈，请加微信lang2057，请备注公司信息，因为作者微信已经满了 •服务包括：1对1推特增长咨询服务等。咨询服务包含专业团队对于公开数据的收集，调研，增长分析等，5000美元/月。 4aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 5aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站任务解析表 6aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站测试感受——by Will 2025/12/26•Claude插件的推出是个重要试水。它代表的不是技术能力的提升,而是交互范式的转变——从"用代码指令搭建工作流"到"模仿人类操作搭建工作流"。•这让我想起网游外挂时代的按键精灵。当年玩家要实现自动打怪,可以写脚本调用游戏API，也可以用按键精灵录制鼠标点击、读取屏幕像素点判断怪物位置。后者门槛更低,因为它复制的是人的操作逻辑,不需要理解底层代码。•Claude插件在做类似的事：读取屏幕内容,理解用户的自然操作行为,结合大语言模型解读意图,然后执行。比如“帮我把这个表格数据复制到Google Sheets”，用传统API调用要处理认证、格式转换、数据映射；但用操作模拟，就是“打开网页-找到表格-复制-切换标签页-粘贴”，跟人的思维方式一致。•这个方向的价值在于：跨平台操作用coding语言描述很复杂(每个网站API不同)，但用操作描述很简单(都是点击、输入、复制粘贴)。当AI能看懂屏幕、模拟操作,原来需要懂代码才能搭的自动化流程,现在普通人说一句话就能实现。•但这也带来一个问题：当AI学会模仿人的操作，人就更容易被取代了。以前企业要实现自动化,得找工程师写代码、对接API,成本高、周期长,所以很多重复性工作还是人在做。现在AI直接看着你的屏幕学,你怎么点鼠标它就怎么点,你的工作流程越标准化,就越容易被复制。数据录入员、客服专员、初级分析师——这些岗位的护城河不是专业知识,而是"会操作系统",而这恰恰是Claude插件要攻克的。•更关键的是,这次不是某个行业的问题。只要你的工作大部分时间在电脑屏幕前完成,只要操作步骤能被观察和记录,理论上都可以被模仿。这不是技术进步的副作用,而是这条路的终点。•现在这个插件确实很笨拙——操作慢、经常卡住、成功率不高。但2007年第一代iPhone也卡得要死,ChatGPT刚出来时胡说八道。技术早期的笨拙常被低估,因为多数人看不到迭代速度。六个月后再看,可能就不是"能不能用"的问题,而是"哪些工作还需要人"的问题。 7aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站测试感受——by Will团队成员1wzy 本次测试了全部的6个任务，在4个平台上（OpenAI Atlas、Anthropic Claude插件、Manus插件、Genspark浏览器）的表现。一、总体感受 Genspark浏览器> Manus插件>OpenAI Altas >Claude插件二、各平台综合感受 1.OpenAI Altas：颇有进步。Atlas刚发布时我认为其只是OpenAI为了赶上AI浏览器这个浪潮的占位品，只是ChatGPT的浏览器套壳，经过这次的测试，发现其进步很大，Agent模式自动化处理任务快准狠，在买菜任务中取得了最好的成绩，之后的发展令人期待。2.Anthropic Claude插件：慢。Claude的能力总结成一个字，就是慢，说干也能干，就是干不好，干的还贼慢，处理任务用最笨的方法，像一个不会学习但学的很认真的笨学生，如生成logo任务中，它打开了可画手搓logo，效果也很差，进步空间很大。3.Manus插件：处理任务果断、准确。它的实力还是很超出预期的，处理任务果断、准确，能处理的任务方面不如Genspark多，没那么全能，但是能干的都会干好。4.Genspark浏览器：全能大师。样样都会，样样都能做的好，对于各种任务都有相应的工具来处理，表格任务有表格工具，视频任务有视频分析工具，购买任务有浏览器自动化工具，而且对待任务很认真，不仅仅只是满足用户的需求，会尽力做好。 8aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站测试感受——by Will团队成员2dyr 本次测试了全部的6个任务，在Anthropic Claude插件上的表现。核心印象是“像人、慢、但可信”。先规划，再让用户决定后执行，全程让用户监督。 1.信息获取方式是依赖浏览器截图，读取文字，无法直接解析视频，导致YouTube摘要任务只能凭周边文字“猜”，最终失败。 2.干活之前必出任务清单。需要用户确认才开始。途中遇到新变量，立即制作新清单再确认。可随时把决定权交给Claude。 3.交互体验像人。第一次见到打开canvas手搓logo的AI，操作路径和人类一样。鼠标跟随功能像录制游戏脚本，人工演示一遍，然后Claude理解意图，保存为可复用技能。调用不是机械地按我的顺序跑一遍，Claude会根据自己的理解，问我是不是要做某件事，得到肯定回答后，它才会做。 4.能完成Google Slide表格的单元格级读写改，和Genspark的表格功能类似，可惜不能直接上传表格。 5.目前使用不方便的地方： 1）对话无法保存和分享，关掉浏览器就没了。测试的6个任务，我只留下了截图，无法分享对话。 2）上传类型仅限图片与文本，Excel、Word、PPT、TXT、视频音频都不支持；3）整体运行速度慢，我猜是截图+识别的流程比较麻烦。 9aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站总结Youtube视频(案例Prompt来自Genspark官方，链接) aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站总结Youtube视频任务来源：Genspark官方链接 Prompt：Summarize Video视频链接主要测试Agent的视频内容理解能力、信息识别和提取能力、多模态数据处理能力。 11aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站总结Youtube视频–结果表 Prompt：Summarize Video视频链接 aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站总结Youtube视频–OpenAI Atlas OpenAI Atlas执行结果：失败测试感受（人写） •十份迅速的完成了任务•观察其执行过程，它并没有对视频进行分析，可能也是读取了页面内容，•由于此视频介绍处有作者写好的时间段，根据此信息与页面信息给出的总结。图片来自测试结果截图 13aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站总结Youtube视频–Google Gemini插件 Anthropic Claude插件执行结果：失败测试感受（人写） •检视其执行过程，发现它其实是对这个链接的页面进行了总结•通过对视频页面的截图来分析截图内容，并没有实际分析视频内容。 aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站总结Youtube视频–Perplexity Comet Manus插件执行结果：成功测试感受（人写） •观察Manus的执行过程，它成功进行了对视频的分析。•通过对视频的分析与对页面信息的提取，综合完成了对视频的总结•对于一个6小时长视频而言，完成的速度不慢图片来自测试结果截图目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站总结Youtube视频–Genspark浏览器 Genspark浏览器执行结果：成功测试感受（人写） •检查了它的执行过程，发现Genspark有实际性的分析行为。•Genspark调用了其自带的视频分析工具，并没有只是单纯的分析页面信息，给出的总结符合视频内容图片来自测试结果截图 16aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站根据邮件内容买东西根据邮件内容买东西(案例Prompt来自Gemini官方，链接) 17aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站根据邮件内容买东西任务来源：Gemini官方链接 Prompt：Buy these ingredients for me onInstacart.com using the Sprouts store任务分析：根据邮件内容在Instacart上买东西，而且还指定了要用Sprouts这个店。这涉及到真实的购物操作，需要Agent能够导航购物网站，添加商品到购物车，甚至可能需要处理支付。主要测试AI的邮件读取能力，电商网站操作，商品搜索添加，还有购物流程执行能力。 18aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站根据邮件内容买东西–结果表 Prompt：Buy these ingredients for me on Instacart.com using the Sprouts store 19aiwatch.ai｜目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站根据邮件内容买东西–OpenAI Atlas OpenAI Atlas执行结果：成功测试感受（人写） •识别-搜索-加购物车行云流水，执行果断，丝毫不拖泥带水，行动迅速。 •购买的物品及数量也没问题，最后检查购物车阶段检查到了我上次任务遗漏的物品，给果断删除了，没有询问用户是否需要删除。根据邮件内容买东西–Anthropic Claude插件 Anthropic Claude插件执行结果：成功测试

点击免费查看完整报告

你可能感兴趣

热门浏览器Agent插件测试报告

AIwatch.ai2025-09-25

Claude Excel，Word，PPT能力测试报告

郎瀚威&GPTDAO&猫猫头&AIwatch.ai2025-09-15

传媒互联网春节传媒行业曝光度提升，海外 Anthropic Cowork 和插件发布

信息技术太平洋证券2026-02-12

Anthropic 因安全风险限制发布新模型 Claude Mythos

信息技术国泰海通证券2026-04-11

【九点特供】首次反超OpenAI！Anthropic估值冲爆1.2万亿，旗下Claude模型已形成Haiku、Sonnet、Opus三大管线；重庆出台细则规范L3级-20260508

未知机构2026-05-08

传媒行业事件点评：Anthropic发布Claude 3，关注大模型底层进展

信息技术民生证券2024-03-06

人工智能周报（24年第10周）：ChatGPT 新增朗读功能，Anthropic 发布Claude 3系列大语言模型

信息技术国信证券2024-03-10

随着Anthropic推出Claude安全工具网络安全股集体下滑

未知机构2026-02-24

计算机行业先进科技主题周报-周观点：苹果全面拥抱AI，Anthropic发布旗舰大模型Claude 3.5 Sonnet

信息技术上海证券2024-06-28

互联网传媒行业周报-周观点：Lightricks推出AI电影制作平台LTX Studio，Anthropic发布Claude 3模型

信息技术上海证券2024-03-06