您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [GPTDAO&AIwatch.ai]:OpenAI Agent 数据抓取能力测试报告 - 发现报告

OpenAI Agent 数据抓取能力测试报告

2025-08-01 GPTDAO&AIwatch.ai 顾小桶🙊
报告封面

2025.08.01 郎瀚威/GPTDAO猫猫头AIwatch.ai aiwatch.ai|目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 关于作者 •更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5获取更多信息 •官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告:链接 •加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。 •商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了 •服务包括:1对1推特增长咨询服务等。数据库服务,包含对于市场上产品的详细跟踪和打标,了解商机先人一步。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等,4000美元/月。推特增长顾问服务,分析欧美竞对,构建推特增长路径。价格同上。 2025/8/1 4aiwatch.ai|目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 测试Prompt执行结果表格 报告一些Takeaway-by郎瀚威 •Manus在今天launch了自己的Pro plan,主要prompt场景为数据抓取和图片设计。正好我们之前没测过数据抓取。与是就启动了这次任务。 •为什么是测试数据抓取?因为根据我个人经验,公司员工用这个功能做市场调研,其刚需程度大于图片抓取。比如销售找线索leads,比如调研竞品公司等等。大家可以仔细看看原Prompt,条件其实还挺苛刻的。 •市场进化非常快,大家功能上你追我赶,技术路线,效果上也是如此。今天的效果不代表明天的效果。另外测试员工评价的,仅代表其个人观点和感受,大家看看一乐得了。 •幕后花絮:这次任务一波三折。 •我们看到Manus发布新功能,就计划开始测试,从硅谷时间下午就开始了。把所有任务跑出来,文件下载等等,一开始,和上次分析PPT一样,用大模型评测结果。结果比较奇怪。一开始不同人测试分数不同,后来发现同一个人测试分数也不同。这时候已经硅谷半夜1点了。我们紧急开会讨论。最后回归到只计算数量,不评价的这个状态。中间还多人反复跑了下几个任务。由于时间仓促,没有精调测试评价Prompt,可以说是被自己的不小心和LLM幻觉小坑了一回。不过最后好歹算是在硅谷时间早上5点收尾力挽狂澜。因此本次测试的定位,就是给大家当一下基础设施,帮大家跑一下任务,做一回远程公共牛马。 •本次6个任务,Manus花了约2300点数,平均每个任务300-500左右。 •Prompt看板开源(到Notion:链接) aiwatch.ai|目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 测试感受——by猫猫头 •Manus在今天launch了自己的Pro plan,主要prompt场景为数据抓取和图片设计。故而,本次测试主线为数据抓取。 •比较意外的是,我心爱的comet竟然在这一功能上掉队了,呜呜呜。这次没有记录时间,因为大家执行都挺慢的,所以核心考核点在于能抓取多少数据。测试下来,大家实际表现大差不差 •OpenAI:至少3条任务都没有以csv/xlsx格式deliver,只停留在一般chatbot的UX水平。我也想过:是否因为prompt中没有明确说明“以表格形式交付”,所以给了AI自主发挥的空间。但我又以表格的形式作为交付打分,是否有失公允?但我后来想了想,其他两家都能正确理解我期待的交付形态,但你不能。只能说明你自然语言处理这种基本能力都有问题 •Manus:个别任务的交付没有给到我csv/xlsx格式,其他爬取数量和质量上都挺好的(啥时候mac能在文件下载之前preview就好了 •Genspark:巅峰,王大师,一首《萨菲罗斯》送给你。为通用Agent的roadmap指明了前进的方向 测试感受——by Will团队成员dyr目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 主要测了Genspark在6个prompt的不同表现。顺带着也看了OAI和Manus的表现。 Genspark: 1.Genspark下载表格非常非常麻烦。套娃式下载我真受不了,Genspark表格生成完毕后,右上角出现“查看和导出”按钮,点击它会开一个新窗口,这个窗口可以看到表格的全貌,右上角还有个按钮,需要再点一下导出到CSV。弹出窗口提示导出成功,让我从AI Drive中查看。打开AI Drive,选中了对应的csv才能下载到本地,小心不要点到了文件名,否则又打开了一个新窗口,浏览这个csv文件。下载表格为什么要那么麻烦,真的不可以搞一个一键导出吗?这对我真的很重要 2.Genspark表格胡说八道现象,找100个运动鞋比对的任务,Genspark只给出了64个有效的鞋子,剩下的36个是Popular Model65到Popular Model 100,前半部分没有找到的数据会空着,比较实事求是,后36个如果找不到就直接说找不到了即可,编数据丢失用户的信任感。 3.Genspark的Jupyter功能很惊喜。在旧金山政府预算数据分析任务中使用Jupyter工具给我了一份详细美观的综合Excel工作簿,里面还有折线图。 Manus:Manus还是太喜欢写报告了,虽然这些任务都是测评各Agent的抓取能力,Manus每个任务都生成了一份或多份markdown报告,而且报告写的很好。 OpenAI agent:OpenAI agent一般不生成可下载的表格。如果不是prompt明确的要求,不会生成可下载的表格。所以即使测试前选了表格也没有用,还是需要明确提要求。 旧金山政府预算数据分析(来自OpenAI官方推特) 目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 旧金山政府预算数据分析 任务来源:OpenAI官方 Prompt: Create a comprehensive spreadsheet with San Francisco's annualbudget expenses and revenues for the past5years. Find the officialcity budget data from government sources, extract the relevantfinancial figures, and compile them into a well-formatted Excelworkbook 任务分析:涉及搜索、数据获取、表格生成等 10aiwatch.ai|目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 旧金山政府预算数据分析–结果表 Prompt:Create a comprehensive spreadsheet with San Francisco's annual budget expenses and revenues for the past 5 years. Findthe official city budget data from government sources, extract the relevant financial figures, and compile them into a well-formattedExcel workbook 旧金山政府预算数据分析–OpenAI Agent OpenAI Agent执行结果:成功链接 测试感受(人写) •任务成功。 •成功理解了我的需求,收集旧金山过去五年的官方年度预算支出和政府收入,对过去五年的时间范围理解正确,数据也是来自于官方,给出了可以下载的电子表格,结构清晰明了 链接 Manus执行结果:成功 测试感受(人写) •任务成功。 •按要求生成表格,并在表格中对数据进行分类整理。在DataSF汇总2010以来旧金山预算数据,生成包含2022财年至2026财年预算数据的表格和报告。 aiwatch.ai|目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 Genspark执行结果:成功链接 测试感受(人写) •任务成功。 •根据要求在SF GOV中提取过去5年的相关财务信息。最后给出五年年度预算数据的表格,并附带一张财务分析图。 Epic公司潜在客户开发(来自Genspark官方推特) 目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 Epic公司潜在客户开发 任务来源:Genspark官方 Prompt: This is my company: https://www.epic.com Generate potential clientsin Northeast Us with 50-200 employees, include decision-makers,revenue estimates, tech stack, recent news showing buyingopportunities, and contacts, with customized cold outreach emails 任务分析:涉及搜索、数据获取、邮件设计等 aiwatch.ai|目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 Epic公司潜在客户开发-结果表 Prompt:This is my company: https://www.epic.com Generate potential clients in Northeast Us with 50-200 employees, includedecision-makers, revenue estimates, tech stack, recent news showing buying opportunities, and contacts, with customized coldoutreach emails OpenAI Agent执行结果:1条链接 测试感受(人写) •任务失败。•根据我的需求分析出了一家公司里的几个员工,但没有生成可供下载的表格。 图片来自测试结果截图 目录|作者|测试感受|旧金山数据查找|客户开发|运动鞋对比|医疗创业公司|Genspark视频分析|设计师招聘 Epic公司潜在客户开发–Manus Manus执行结果:23条链接 测试感受(人写) •任务部分成功。 •根据需求生成24个客户信息表格和公司购买机会分析报告,但是只生成了6个定制冷门邮件。 Epic公司潜在客户开发–Genspark Genspark执行结果:30条链接 测试感受(人写) •任务成功。 •根据要求成功生成综合表格,包括30家公司信息和提供的定制冷门邮件。并对公司进行筛选排序。 100款运动鞋对比矩阵(来自Manus官方推特) 100款运动鞋对比矩阵 任务来源:Manus官方 Prompt: Compare 100 consumer sneaker models across multiple dimensions—core features, pricing models, target