您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[猫猫头&AIwatch.ai]:Anthropic Claude插件测试报告 - 发现报告

Anthropic Claude插件测试报告

2025-12-26猫猫头&AIwatch.ai郭***
Anthropic Claude插件测试报告

2025.12.26郎瀚威猫猫头AIwatch.ai 2aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 关于作者 •作者郎瀚威及团队,郎瀚威现居美国硅谷Palo Alto,AI GTM顾问,第二作者猫猫头,也在硅谷,小红书:107279551 •更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5获取更多信息 官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告:链接,2025Q2报告:链接,2025Q3报告:链接。 •到飞书查看更多Agent测试报告:链接,含综合能力测试及多个垂类场景能力测试(如写报告、数据抓取、视频总结等) •商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了 •服务包括:1对1推特增长咨询服务等。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等,5000美元/月。 4aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 5aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 任务解析表 6aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 测试感受——by Will 2025/12/26•Claude插件的推出是个重要试水。它代表的不是技术能力的提升,而是交互范式的转变——从"用代码指令搭建工作流"到"模仿人类操作搭建工作流"。•这让我想起网游外挂时代的按键精灵。当年玩家要实现自动打怪,可以写脚本调用游戏API,也可以用按键精灵录制鼠标点击、读取屏幕像素点判断怪物位置。后者门槛更低,因为它复制的是人的操作逻辑,不需要理解底层代码。•Claude插件在做类似的事:读取屏幕内容,理解用户的自然操作行为,结合大语言模型解读意图,然后执行。比如“帮我把这个表格数据复制到Google Sheets”,用传统API调用要处理认证、格式转换、数据映射;但用操作模拟,就是“打开网页-找到表格-复制-切换标签页-粘贴”,跟人的思维方式一致。•这个方向的价值在于:跨平台操作用coding语言描述很复杂(每个网站API不同),但用操作描述很简单(都是点击、输入、复制粘贴)。当AI能看懂屏幕、模拟操作,原来需要懂代码才能搭的自动化流程,现在普通人说一句话就能实现。•但这也带来一个问题:当AI学会模仿人的操作,人就更容易被取代了。以前企业要实现自动化,得找工程师写代码、对接API,成本高、周期长,所以很多重复性工作还是人在做。现在AI直接看着你的屏幕学,你怎么点鼠标它就怎么点,你的工作流程越标准化,就越容易被复制。数据录入员、客服专员、初级分析师——这些岗位的护城河不是专业知识,而是"会操作系统",而这恰恰是Claude插件要攻克的。•更关键的是,这次不是某个行业的问题。只要你的工作大部分时间在电脑屏幕前完成,只要操作步骤能被观察和记录,理论上都可以被模仿。这不是技术进步的副作用,而是这条路的终点。•现在这个插件确实很笨拙——操作慢、经常卡住、成功率不高。但2007年第一代iPhone也卡得要死,ChatGPT刚出来时胡说八道。技术早期的笨拙常被低估,因为多数人看不到迭代速度。六个月后再看,可能就不是"能不能用"的问题,而是"哪些工作还需要人"的问题。 7aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 测试感受——by Will团队成员1wzy 本次测试了全部的6个任务,在4个平台上(OpenAI Atlas、Anthropic Claude插件、Manus插件、Genspark浏览器)的表现。 一、总体感受 Genspark浏览器> Manus插件>OpenAI Altas >Claude插件 二、各平台综合感受 1.OpenAI Altas:颇有进步。Atlas刚发布时我认为其只是OpenAI为了赶上AI浏览器这个浪潮的占位品,只是ChatGPT的浏览器套壳,经过这次的测试,发现其进步很大,Agent模式自动化处理任务快准狠,在买菜任务中取得了最好的成绩,之后的发展令人期待。2.Anthropic Claude插件:慢。Claude的能力总结成一个字,就是慢,说干也能干,就是干不好,干的还贼慢,处理任务用最笨的方法,像一个不会学习但学的很认真的笨学生,如生成logo任务中,它打开了可画手搓logo,效果也很差,进步空间很大。3.Manus插件:处理任务果断、准确。它的实力还是很超出预期的,处理任务果断、准确,能处理的任务方面不如Genspark多,没那么全能,但是能干的都会干好。4.Genspark浏览器:全能大师。样样都会,样样都能做的好,对于各种任务都有相应的工具来处理,表格任务有表格工具,视频任务有视频分析工具,购买任务有浏览器自动化工具,而且对待任务很认真,不仅仅只是满足用户的需求,会尽力做好。 8aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 测试感受——by Will团队成员2dyr 本次测试了全部的6个任务,在Anthropic Claude插件上的表现。核心印象是“像人、慢、但可信”。先规划,再让用户决定后执行,全程让用户监督。 1.信息获取方式是依赖浏览器截图,读取文字,无法直接解析视频,导致YouTube摘要任务只能凭周边文字“猜”,最终失败。 2.干活之前必出任务清单。需要用户确认才开始。途中遇到新变量,立即制作新清单再确认。可随时把决定权交给Claude。 3.交互体验像人。第一次见到打开canvas手搓logo的AI,操作路径和人类一样。鼠标跟随功能像录制游戏脚本,人工演示一遍,然后Claude理解意图,保存为可复用技能。调用不是机械地按我的顺序跑一遍,Claude会根据自己的理解,问我是不是要做某件事,得到肯定回答后,它才会做。 4.能完成Google Slide表格的单元格级读写改,和Genspark的表格功能类似,可惜不能直接上传表格。 5.目前使用不方便的地方: 1)对话无法保存和分享,关掉浏览器就没了。测试的6个任务,我只留下了截图,无法分享对话。 2)上传类型仅限图片与文本,Excel、Word、PPT、TXT、视频音频都不支持;3)整体运行速度慢,我猜是截图+识别的流程比较麻烦。 9aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 总结Youtube视频(案例Prompt来自Genspark官方,链接) aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 总结Youtube视频 任务来源:Genspark官方链接 Prompt:Summarize Video视频链接 主要测试Agent的视频内容理解能力、信息识别和提取能力、多模态数据处理能力。 11aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 总结Youtube视频–结果表 Prompt:Summarize Video视频链接 aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 总结Youtube视频–OpenAI Atlas OpenAI Atlas执行结果:失败 测试感受(人写) •十份迅速的完成了任务•观察其执行过程,它并没有对视频进行分析,可能也是读取了页面内容,•由于此视频介绍处有作者写好的时间段,根据此信息与页面信息给出的总结。 图片来自测试结果截图 13aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 总结Youtube视频–Google Gemini插件 Anthropic Claude插件执行结果:失败 测试感受(人写) •检视其执行过程,发现它其实是对这个链接的页面进行了总结•通过对视频页面的截图来分析截图内容,并没有实际分析视频内容。 aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 总结Youtube视频–Perplexity Comet Manus插件执行结果:成功 测试感受(人写) •观察Manus的执行过程,它成功进行了对视频的分析。•通过对视频的分析与对页面信息的提取,综合完成了对视频的总结•对于一个6小时长视频而言,完成的速度不慢 图片来自测试结果截图 目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 总结Youtube视频–Genspark浏览器 Genspark浏览器执行结果:成功 测试感受(人写) •检查了它的执行过程,发现Genspark有实际性的分析行为。•Genspark调用了其自带的视频分析工具,并没有只是单纯的分析页面信息,给出的总结符合视频内容 图片来自测试结果截图 16aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 根据邮件内容买东西 根据邮件内容买东西(案例Prompt来自Gemini官方,链接) 17aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 根据邮件内容买东西 任务来源:Gemini官方链接 Prompt:Buy these ingredients for me onInstacart.com using the Sprouts store任务分析:根据邮件内容在Instacart上买东西,而且还指定了要用Sprouts这个店。这涉及到真实的购物操作,需要Agent能够导航购物网站,添加商品到购物车,甚至可能需要处理支付。主要测试AI的邮件读取能力,电商网站操作,商品搜索添加,还有购物流程执行能力。 18aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 根据邮件内容买东西–结果表 Prompt:Buy these ingredients for me on Instacart.com using the Sprouts store 19aiwatch.ai|目录|作者|测试结果|测试感受|总结视频|根据邮件内容买东西|储蓄预算规划|设计Logo|报告查找|简历转网站 根据邮件内容买东西–OpenAI Atlas OpenAI Atlas执行结果:成功 测试感受(人写) •识别-搜索-加购物车行云流水,执行果断,丝毫不拖泥带水,行动迅速。 •购买的物品及数量也没问题,最后检查购物车阶段检查到了我上次任务遗漏的物品,给果断删除了,没有询问用户是否需要删除。 根据邮件内容买东西–Anthropic Claude插件 Anthropic Claude插件执行结果:成功 测试