行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

OpenAI Agent测试报告

2025-07-18 GPTDAO&AIwatch.ai 张东旭

核心观点与测试感受

Agent 大战：2024年末至2025年，Agent 赛道兴起，Perplexity 和 OpenAI 等纷纷入局，市场潜力巨大，竞争激烈。
测试感受：不同 Agent 在任务执行、速度、成本和用户体验方面存在差异。OpenAI Agent 速度较慢，Fellou 卡死，Genspark 性价比高，Manus 交互性强。
难度分级：使用 Claude 对 Prompt 进行难度分级，1-2分为简单级，4-5分为专家级，高难度任务需要专业知识和多步骤思考。

OpenAI 任务测试

旧金山财务报告查找：所有 Agent 均成功完成。
旧金山寿司餐厅预订：OpenAI Agent 失败，其他 Agent 成功。
网球锦标赛旅行规划：所有 Agent 均成功完成。
新加坡办公室开设研究+PPT：所有 Agent 均成功完成。

群友任务测试

Whole Foods 订购：OpenAI Agent 无法执行，其他 Agent 提供指南。
YouTube 视频用例总结：Comet 和 Genspark 成功，Manus 成功但无法访问视频。
视频 Prompt 提取：Comet 和 Genspark 成功，Manus 成功。
OpenAI Twitter 分析：Comet 和 Genspark 成功，Manus 成功。
智能眼镜行业分析：所有 Agent 均成功完成。
YouTube 找宣传博主：Comet 和 Genspark 成功，Fellou 成功但无链接。
Dify AI 投资报告+PPT：所有 Agent 均成功完成。
稳定币全面分析：所有 Agent 均成功完成。

关键数据

市场数据：2024年全球智能眼镜出货量预计达 1451.8 万台，增速超 40%；中国市场预计 2025 年出货达 290 万台，年增速 121%。
稳定币市场：2024年市场规模约 19.3 亿美元，预计 2030 年超 82 亿美元。
Agent 流量：Manus 和 Genspark 在 5 月 15 日后流量增长明显，Fellou 5 月流量爆发。

研究结论

Agent 发展迅速：Agent 赛道发展迅速，产品功能不断完善，市场潜力巨大。
竞争激烈：各 Agent 之间存在竞争，需在功能、性能和用户体验方面持续改进。
应用场景广泛：Agent 可应用于个人生活、办公、投资等多个领域。

2025/7/18关于作者•感谢孔一一，李福祥，张倩，张有鱼提供的Prompt。我们从30个群友提供的prompt中随机抽了4个。•作者郎瀚威及团队，郎瀚威现居美国硅谷Palo Alto，GPTDAO分析师，第二作者猫猫头，也在硅谷，小红书：107279551•更多数据内容请关注公众号：郎瀚威Will，新闻资讯请关注推特：@financeyf5获取更多信息•官网飞书：https://aiwatch.ai/；GenAI网页数据2025Q1报告：链接•加数据报告群：下方企业微信扫码，备注加Will的数据报告分享群，请简单自我介绍，仅用于讨论行业数据，发广告会飞机。•商务合作洽谈，请加微信lang2057，请备注公司信息，因为作者微信已经满了•服务包括：1对1推特增长咨询服务等。数据库服务，包含对于市场上产品的详细跟踪和打标，了解商机先人一步。咨询服务包含专业团队对于公开数据的收集，调研，增长分析等，4000美元/月。推特增长顾问服务，分析欧美竞对，构建推特增长路径。价格同上。Will小助手企业微信进不去群扫这个1群满了可以加目录|作者|测试感受|难度分级说明|OpenAI任务测试|群友任务测试微信公众号数据报告群2 2025/7/18测试结果来源旧金山财务报告查找旧金山寿司餐厅预订网球锦标赛旅行规划新加坡办公室开设研究+PPTWhole Foods订购YouTube视频用例总结视频prompt提取OpenAI Twitter分析智能眼镜行业分析YouTube找宣传博主Dify AI投资报告+PPT稳定币全面分析官方群友 2025/7/18报告一些Takeaway-by郎瀚威•6月我预测，Browerser和通用Agent，必有一战，但我还是没想到，Agent大战到来比想象的还要早的多！•从2023年Agent概念兴起，沉寂了一年多，到2024年末ComputerUse，2025年Claude模型能力的持续提高，再到产品的井喷涌现，Perplexity，OpenAI纷纷下场，新赛道的出现已经成为必然。究竟鹿死谁手？乾坤未定，你我皆是黑马。•总体来看，目前Agent已经能做到很多事情！•敲下这段文字，已经是硅谷的凌晨7点，我还是很兴奋，从2014年进入互联网行业，听了很多的故事，到有机会在硅谷亲眼见证经历这一切，有机会和从业者们分享，我感到很幸运。•我知道这个报告会出现在各家大小公司的投屏上，借此机会打破第四面墙，向各位一线工作者们，开发们，产品们，运营们，产品极客们，自媒体们，VC们，致敬！You know, you know ,•这个结果，仅仅是今天的结果。不代表明天，明天创始人就会更新，我们可能也会持续测试。所以别拿这个报告当个事，就是个讨论看板而已。•欢迎到推特和公众号留言，我们会持续收集Prompt，目前已经将Prompt看板开源（到Notion：https://three-recorder-52a.notion.site/234fc520994e806db6b1da924e7f67dd）•电脑端Agent需要选按钮，可以提升性能。这次时间有限，并未对应选择，全部是默认。这个交互Genspark作了引导，但OpenAI和Manus引导不是很明显。AI浏览器不需要选择。•像sheets这类case，prompt其实没说清楚要多少数据，agent会先做一些任务看是否满足你的要求目录|作者|测试感受|难度分级说明|OpenAI任务测试|群友任务测试 2025/7/18测试感受——by猫猫头猫猫头使用感受：1.给全部5款产品测试了4个prompt，prompt等级均为Level32. OpenAI的Agent功能只在网页版更新了，如何开启Agent功能没有任何提示，像是在跟用户玩找彩蛋。已经是Pro用户了，也只能抱着试试看的心态自愿上缴200刀开盲盒，看看有没有可能开启agent功能。某种程度上，算是隔绝了大批非死忠粉用户，保护服务器别崩，非常鸡贼。Perplexity上线comet时，也采取了同样的trick。区别在于，Comet本身是一个独立的电脑端软件，虽然也很贵（$199），但胜在明码标价、童叟无欺。3.OpenAI：交付非常失望，等待时间过长，同时无法track进展，让人有火没处发。唯一的优点是，等待时的UI很好看，不过着实脱裤子放屁4.Fellou：没有幻觉是绝对的优势；同时有订餐厅这样的任务是真能执行，很棒。但是，不能全托管，需要手动补齐信息，陷入死循环还在耗credit。策划案出来之后，还得手动run。单一任务执行成本其高，堪比manus（btw，执行过程中，我的mac电脑风扇第一次开了；and没有分享功能）5.Genspark：个别任务执行幻觉程度跟comet差不多，但价格只有comet的1/10（还要什么自行车）。GENSPARK，我的天神！（但是，交付结果直接上云，无法直接下载，需要好几个跳转，贼啦麻烦。excel导出是cvs格式，ppt除非直接是pdf下载，download为pptx格式时经常出现乱码。虽然昨天的AI Slide上新了更多edit功能，但UX体验还不够丝滑6.Manus：视频读取能力比genspark差，credit贵7.Comet：绝杀！七步之内，枪又快又准。别家任务还在reasoning的时候，Perplexity已经交付了。（测试以外的日常：我愿称为“学生写作业的神”：从读homework要求，到执行，再到文件下载、回传，只需要1分钟。老师对assignment的交付评分50/50，同比Fellou的交付只有48.5/50） 2025/7/18测试感受——by Will团队成员1zwtOpenAI Agent给我的感受是：1.订餐等任务支持：OpenAI Agent能帮助我完成一些实际的任务，比如订餐、预定等，虽然需要手动填写手机号码等信息，但操作还是相对简单。2.速度还可以：处理任务的速度总体上还可以，虽然比不上某些即时的工具，但完成任务的效率相对稳定。3.多任务处理：可以同时处理多个任务并通过多窗口提高效率，这样可以节省不少时间，特别是同时处理简单任务时。Fellou给我的感受是：1.处理速度较慢：相比OpenAI Agent，Fellou处理任务的速度要慢一些，特别是复杂任务时，会明显感觉到慢。2.卡住死循环：当任务比较复杂时，Fellou有时会在某些环节卡住，进入死循环，任务无法继续进行。3.消耗较多Credit：复杂任务的消耗非常大，1000-2000个Credit可能就不够，做一个复杂任务比较烧钱。4.赠送5000 Credit：好在注册后会赠送5000个Credit，可以暂时抵消一些费用，这在一定程度上缓解了压力。5.购物与餐厅预定非常有用：Fellou能够协助购物等任务，表现不错，实际应用中确实能带来便利。目录|作者|测试感受|难度分级说明|OpenAI任务测试|群友任务测试 2025/7/18测试感受——by Will团队成员2dyr测试人：测试了8个任务分别在Genspark和Manus中的表现感受：单个感受1.Genspark超级智能体给我的感受是响应速度真快，prompt提交3分钟左右就能拿到结构清晰带配图的初稿，这期间能看到搜集的资料图，也会给我提供额外的灵感.2.Manus下载报告麻烦，下载到本地仅支持pdf和Markdown3.购物、付款等涉及金钱、密码的任务，使用Manus人工接管体验很丝滑，向我索要账号密码，接管后使用manus的浏览器能顺利注册Amazon账号对比感受：Genspark与Manus两者的可交互性有差异，我在测试中发现，Genspark分享的链接带有会话记忆，回放链接仍保留原始上下文，可追加追问，系统能在原稿基础上继续扩展。Manus的分享模式为静态的，点击分享的链接，仅能观看回放，无法基于先前结果扩展修改其他感受：1.Genspark输出的报告观感上比Manus好太多，Manus似乎不太擅长图文结合的报告，输出内容以Markdown为主2.Manus的ppt可以直接点进去编辑文字内容很方便，可惜不能调整字号颜色字体；Genspark有Aislide编辑，提出修改请求它能按要求修改，还能新开窗口调整字号字体颜色下划线对齐插图等精细操作，属实赢麻了。目录|作者|测试感受|难度分级说明|OpenAI任务测试|群友任务测试 2025/7/18OpenAI产品界面1.200刀可体验，20刀可以下周体验2.除了选取Agent，对应的任务，还需要选取工具 2025/7/18Manus产品界面对应的任务，默认统一入口，如果选取工具，可以提升性能。本次测试没有选择对应Agent，因此部分结果会受影响。 2025/7/18Genspark产品界面对应的任务，SuperAgent是统一入口，如果选取工具，可以提升性能。本次测试没有选择对应Agent，因此部分结果会受影响。 2025/7/18无需选择任务类型。 2025/7/18难度分级说明我们用Claude做了难度分级，相关Prompt，难度评级分析表https://claude.ai/public/artifacts/d7d22bee-9e85-4e18-a38a-1e4b8bba23a3难度等级说明1-2分：简单级-基础任务，单一工具，minimal专业知识2-3分：中低级-需要一定理解和分析能力3-4分：中高级-需要专业知识和多步骤思考4-5分：专家级-需要深度专业知识和综合能力关键难度因素1.高难度驱动因素：大型输出要求（2万字）、高度专业领域知识、多维度分析2.中等难度特征：实时信息搜索、内容理解和提取、多步骤任务3.复杂度escalation：从简单信息检索到专业投资分析的跨度很大特殊注释：*这个prompt虽然表面简单，但实际上AI无法直接执行购买操作，需要用户自行完成或使用专门的购物API工具。目录|作者|测试感受|难度分级说明|OpenAI任务测试|群友任务测试 2025/7/18OpenAI任务Prompt难度评级分析表（1）难度评级分析表https://claude.ai/public/artifacts/d7d22bee-9e85-4e18-a38a-1e4b8bba23a3分类序号Prompt简述综合难度等级主要挑战认知复杂度1旧金山财务报告查找(2020-2024)2官方文档定位简单2新加坡办公室开设研究+演示3商业政策研究+演示制作复杂3旧金山寿司餐厅预订2日历整合+预订执行简单4棕榈泉网球赛旅行规划3个性化需求+预算约束复杂5Whole Foods订购1工具限制导致无法执行简单6YouTube上ChatGPT Agent宣传博主查找2需要准确识别"宣传"行为中等7视频中prompt提取2准确识别prompt内容中等8OpenAI Twitter视频总结和意图分析2需要推断发布意图中等9智能眼镜行业分析3国内外对比分析中等10YouTube视频用例总结2视频内容理解中等11Dify AI投资报告(2万字+PPT)4深度行业分析+竞争格局复杂12稳定币全面分析(2万字图文)4金融专业性+政策分析复杂OpenAI官方任务群友任务目录|作者|测试感受|难度分级说明|OpenAI任务测试|群友任务测试 OpenAI任务列表 2025/7/18OpenAI任务1：旧金山财务报告查找任务难度：低OpenAI Agent完成时间：5min测试结果：成功链接Prompt：Perform the following steps in order:Find the San Francisco city Annual Comprehensive Financial Reports (ACFR) for 2020-2024PerpComet完成时间：44S测试结果：成功链接Manus完成时间：8min测试结果：成功链接任务提出人：OpenAI官方任务难度：2You already have your answer!Here are the officia

点击免费查看完整报告

OpenAI Agent测试报告

核心观点与测试感受

OpenAI 任务测试

群友任务测试

关键数据

研究结论

你可能感兴趣

OpenAI Agent 数据抓取能力测试报告

OpenAI Agent 长视频总结测试报告

热门浏览器Agent插件测试报告

通用Agent 写报告能力测试报告

OpenAI Atlas测试报告（二）

OpenAI Atlas测试报告

行业周报：DeepSeek/OpenAI或加速Agent/多模态、端侧AI落地

【盘中宝】OpenAI发布ChatGPT智能体，机构称Agent商业模式正从“提供工具”向“交付价值”转变，这家企业和多个合作伙伴研发细分Agent

传媒互联网：Claude更新功能向Agent演进，OpenAI关停Sora

计算机行业周报：月之暗面开源KimiK2大模型，OpenAI发布ChatGPT Agent