行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

通用Agent 写报告能力测试报告

2025-07-25 GPTDAO 哪开不壶提哪开

研报总结

核心观点

本次报告测试了5个PPT任务和4个报告任务，评估了Genspark、Manus、OpenAI和Comet四家通用AI Agent在生成文档方面的表现。
测试结论表明，通用AI Agent生成文档已达到初步可用水平，但存在一些问题，如生态各平台短板明显、数据幻觉风险、步骤复杂等。
报告强调，现阶段AI生成内容必须全面验证，直接承认能力局限并积极反馈，才能推动生态整体进步。

测试感受

团队成员1dyr：测试了22个任务，发现AI生成内容必须仔细验证，功能、诚实度和内容质量各有优劣，生态不成熟，需持续迭代。
- 问题：Manus存在幻觉问题，OpenAI耗时过长，Genspark导出Bug，OpenAI PPT质量差，AI Agents教程指南内容冗长。
团队成员2zwt：测试了5个任务在OpenAI的表现，认为其在技术能力上有优势，但在用户体验（效率、内容质量、问题解决）上不足，性价比有待提升。
- 问题：OpenAI耗时过长，PPT质量差，遇到问题采取“绕路”方式。

难度分级说明

难度等级分为1-5分，1-2分为简单级，3-4分为中高级，5分为专家级。
关键难度因素包括大型输出要求、专业领域知识、多维度分析、实时信息搜索、多步骤任务等。

Prompt难度评级分析表

测试了9个任务，包括ETH价格预测、会员经济GDP分析、美股历史跌幅分析、制定提前退休计划PPT、制作巴黎旅行PPT、纽约租房PPT、LLM产业报告+PPT、AI Agents教程指南、奈飞电影Excel+邮件。
每个任务都分析了难度等级、来源、任务难度和任务分析。

各任务测试结果

ETH价格预测：Comet和Manus成功，OpenAI失败，Genspark成功但需验证。
会员经济GDP分析：OpenAI、Comet和Manus成功，Genspark成功。
美股历史跌幅分析：OpenAI和Comet成功，Manus最详细，Genspark准确。
制定提前退休计划PPT：OpenAI和Manus成功，Genspark成功，Comet失败。
制作巴黎旅行PPT：OpenAI和Manus成功，Genspark成功且排版最佳。
纽约租房PPT：OpenAI部分成功，Manus和Genspark部分成功，Comet和Comet失败。
LLM产业报告+PPT：OpenAI成功但PPT简陋，Manus部分成功但信息来源不明，Genspark成功但日期错误。
AI Agents教程指南：OpenAI、Manus和Genspark成功，Genspark更通俗且附加视频教程。
奈飞电影Excel+邮件：OpenAI部分成功，Comet失败，Manus部分成功，Genspark部分成功。

关键数据和研究结论

流量分析：
- Manus流量3月爆发，5月功能更新频繁。
- Genspark流量4月转折，5月功能更新频繁。
- Manus和Genspark流量呈现工作日规律。
结论：
- 通用AI Agent生态不成熟，各有短板，需持续反馈和迭代。
- AI生成内容必须全面验证，避免数据幻觉。
- 直接承认能力局限，积极反馈，推动生态整体进步。

2025.07.25 郎瀚威/GPTDAO猫猫头AIwatch.ai 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件关于作者 •感谢刘渊，And，周江岭，HEXIN生财提供的Prompt。我们从群友提供的prompt中随机抽了5个。 •更多数据内容请关注公众号：郎瀚威Will，新闻资讯请关注推特：@financeyf5获取更多信息 •官网飞书：https://aiwatch.ai/；GenAI网页数据2025Q1报告：链接 •加数据报告群：下方企业微信扫码，备注加Will的数据报告分享群，请简单自我介绍，仅用于讨论行业数据，发广告会飞机。 •商务合作洽谈，请加微信lang2057，请备注公司信息，因为作者微信已经满了 •服务包括：1对1推特增长咨询服务等。数据库服务，包含对于市场上产品的详细跟踪和打标，了解商机先人一步。咨询服务包含专业团队对于公开数据的收集，调研，增长分析等，4000美元/月。推特增长顾问服务，分析欧美竞对，构建推特增长路径。价格同上。 2025/7/28 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 PPT+短报告测试结果目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件报告一些Takeaway-by郎瀚威 •这是我们第二次出报告，和上次综合类不同，这次选择的是报告类，这也是最大的垂类。 •本次是一共9个任务，5个PPT，4个报告，未来深度报告会独立测试。 •本次测试结论是，用通用AI Agent生成文档，已经达到初步可用水平，也发现一些问题： •1、当前AI Agent生态各有短板，没有一家在所有方面都表现完美。 •2、对于通用Agent，步骤更多，因此数据幻觉是危险的问题，现阶段AI生成内容必须全面验证，不能因为前几条正确就信任整体。 •3、直接承认能力局限，反而赢得信任，真正的行业进步需要直接的问题反馈和整个生态的共同迭代，而非单一平台独大。 •欢迎到推特和公众号留言，我们会持续收集Prompt，目前已经将报告类Prompt看板开源（https://three-recorder-52a.notion.site/23efc520994e801aa636cb5d82523972?v=23efc520994e80eb96a2000caa6c0174）目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件测试感受——by Will团队成员1dyr（测了22个任务在三家的表现）这次测试我分别测了5个任务在Genspark、Manus、OpenAI上的表现，还有5个任务分别在Genspark、Manus上的表现。核心观点：AI生成内容必须仔细验证。功能完整度、诚实度、内容质量各有优劣，没有一家在所有方面都表现完美，当前AI Agent生态还不成熟，各有明显短板，需要持续反馈和迭代来推动整体进步发现了一些问题： 1、幻觉问题：Manus在统计奈飞电影Top50时，发现自己没有能力统计，转而找了几个测评文章，将文章数据抓下来写道了表格中，但是抓取的文章内容仅统计了Top20的数据，对于另外的30个，Manus采取的策略是乱编，电影名直接是“知名电影#21“，观看次数和观看小时数竟然是呈等差数列降序排列！！！给我气笑了，有一种上学时老师说”不会的题，宁可编上也别空着“的感觉。当时我刚跑完这个任务，它还大大方方的承认了无法发邮件，给我一种很诚实的感觉，对于表格内的数据我也是简单的看了前面十几条内容，觉得收集的还不错。回头细看才发现这个浓眉大眼的manus居然骗了我。我相信这也是很多用户可能会面临的情况，所以AI生成的东西一定一定一定要仔细检查。同样的任务，OpenAI和Genspark确实访问奈飞官网抓取的Top10，剩余的资料是从别处获得的。发送邮件时，虽然都没有发送成功，OAI是唯一一个成功将文件保存至草稿箱中的。 Comet大大方方的承认了无法抓取奈飞内容，也没有去找其他文章内容的Top50资料，反而可信度是很高的，在我这里猛刷了一波好感。目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件测试感受——by Will团队成员1dyr-续 2、导出Bug：制定退休计划PPT的任务，Genspark生成了15页赏心悦目的PPT，可惜它的导出功能还在Beta阶段，导出失败了。其实平时导出Genspark的PPT也普遍较慢，但是这次是第一次遇到死活导出不了的现象（无论是PDF格式还是PPT格式我都试过N遍，隔天又试了N遍，还是不行） 3、Openai平庸的PPT：OAI推出PPT功能，结果效果非常不好。抛开内容不谈，丑PPT这个赛道OpenAI你也是闯进去了，几乎每一张都是白底，而且如果左侧文字过长但凡右侧有个柱形图折线图什么的，柱形图折线图恨不得贴到边边太极限了（提前制定退休计划PPT）。 4、按需定制与内容冗长：AI Agents教程指南那个任务，需要教给Agent小白一些Agent基础知识以及如何使用，并且列举并教小白使用10个最受欢迎的Agent。Manus、Genspark、OAI都成功了，但是Manus写的最长，仔细读过后觉得和Genspark、Openai比有很多不务实的东西，不够精炼，比如未来展望、继续学习，行动建议和逐步实施的计划重复了。我认为如果是教程类的东西，针对小白应该简单精炼一些才是好的教程。当然这个是我个人感受，可能有人更喜欢面面俱到事无巨细的学习形式。抱歉这次攻击性有点强了，但出发点并不是为了“一锤定音”，而是希望能推动大家更清晰地看到问题所在。说到底，这些Agent背后都是一群非常优秀、也在持续迭代的团队。我相信，只要方向对、反馈及时，大家完全有能力在下一轮把体验拉到一个新高度。毕竟，真正的进步，从来不是一家独大，而是整个生态一起往前走的节奏。目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件测试感受——by Will团队成员2zwt（测了5个任务在OpenAI的表现）这次测试我测了5个任务OpenAI上的表现。核心观点：OpenAI Agent虽然在某些技术能力上有优势，但在用户体验的关键指标上（效率、内容质量、问题解决的直接性）还有明显不足，性价比有待提升。 •先说好的方面，在一些任务上表现还不错，比如发邮件这个任务，还是比Comet、Manus和Genspark超前一些，其他都不能发送邮件，最起码OpenAI编辑的邮件还躺在了草稿箱里。另外就是数据爬取上对比下来感觉还是可以的。 •当然缺点也很明显： •首先，耗时实在太久。有些任务执行了40多分钟，这个时间实在让人有点难以接受，尤其是考虑到价格还不便宜。 •再就是，PPT制作质量。比起Genspark和Manus，OpenAI生成的PPT质量明显差很多，真的真的真的太丑了，根本没办法实际使用，唯一可能比Comet稍微好一点，为啥这么说呢？因为Comet没法生成PPT，只是提供一些建议，所以有总比没有强吧。还有就是OpenAI在分析、生成研究报告的时候，并不是很深度，有点差强人意。 •另外一个问题是，OpenAI在遇到不能解决的问题时，通常采取的是“绕路”的方式。它会去网上搜索别人怎么解决类似问题的办法，然后把这些办法告诉你。虽然这种方式有时能帮忙，但还是没有真正从根本上解决问题，感觉有点被欺骗的感觉。接下来的测试计划目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件难度分级说明难度等级说明 1-2分：简单级-基础任务，单一工具，minimal专业知识2-3分：中低级-需要一定理解和分析能力3-4分：中高级-需要专业知识和多步骤思考4-5分：专家级-需要深度专业知识和综合能力关键难度因素 1.高难度驱动因素：大型输出要求（2万字）、高度专业领域知识、多维度分析2.中等难度特征：实时信息搜索、内容理解和提取、多步骤任务3.复杂度escalation：从简单信息检索到专业投资分析的跨度很大特殊注释：*这个prompt虽然表面简单，但实际上AI无法直接执行购买操作，需要用户自行完成或使用专门的购物API工具。目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 Prompt难度评级分析表 ETH价格预测 ETH价格预测来个eth价格预测？for fun.看看它说的在理不（请进行未来 24小时的eth价格预测）难度等级：中低级任务来源：硅谷王川群友-刘渊 AI评价任务难度：2.8 任务分析：涉及搜索、分析、报告生成目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 ETH价格预测-耗时&结果 Prompt：来个eth价格预测？for fun.看看它说的在理不（请进行未来24小时的eth价格预测） ETH价格预测-测试结果AI分析结果 ETH价格预测–OpenAI Agent OpenAI Agent执行结果：失败链接测试感受（人写） •任务失败。 •单对于OpenAI来说，它明确指出不能做出价格预测提供投资建议，所以这个任务OpenAI是没有办法去完成的，但是会给你搜集一些市场信息，只能说挺诚实的。•相对于另外3家来说，OpenAI给出的结果非常简陋，没什么有用的信息。 ETH价格预测–Comet Comet执行结果：成功链接测试感受（人写） •任务成功。•预测质量高、准确性好、内容专业、满足核心需求。但是时间上有问题目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 ETH价格预测–Manus Manus执行结果：成功链接测试感受（AI写） •任务成功。•由于测试者不了解币，故使用Kimi K2模型对测试结果进行评价，以下是Kimi K2的评价内容：•24小时预测逻辑与实时行情、主流技术模型一致，不存在“胡说八道”。目标价$3,817（+3.0%）•与CoinDesk模型给出的区间上沿3,763–4,106美元（斐波那契扩展1.0位）基本匹配。 ETH价格预测–Genspark Genspark执行结果：成功链接测试感受（AI写） •任务成功。 •由于测试者不了解币，故使用Kimi K2模型对测试结果进行评价，以下是Kimi K2的评价内容：•这份24小时ETH预测总体逻辑自洽、数据来源可核，报告给出3,650–3,900区间、35 %概率3,900–4,000；实际24小时后（截至Jul 2306:30 UTC）价格≈3,750，落在“基准情形”内，误差< 2 %，但仍在区间中值附近，不能说明模型“精准命中”。•但24小时“点位”预测天然属于高噪声、低精度的统计游戏。把它当成“概率区间+风控模板”是合理的；若理解为“明天一定涨到3,900”就属于误读。投资者仍需自行判断并承担波动风险。会员经济GDP分析目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件会员经济GDP分析 Prompt：会员经济占美国经济GDP的比重是多少？3个产业的分布，各个行业的分布，典型代表公司案例，会员总规模是多少？1天下来会员为经济做出多大的贡献？难度等级：中高级任务来源：群友-周江岭任务难度：3.8 任务分析：涉及搜索、分析、报告生成目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件会员经济GDP分析-耗时&结果 Prompt：会员经济占美国经济GDP的比重是多少？3个产业的分布，各个行业的分布，典型代表公司案例，会员总规模是多少？1天下来会员为经济做出多大的贡献？会员经济GDP分析-测试结果AI分析结果会员经济GDP分析–OpenAI Agent OpenAI Agent执行结果：成功链接测试感受（人写） •任务成功。

点击免费查看完整报告

通用Agent 写报告能力测试报告

研报总结

核心观点

测试感受

难度分级说明

Prompt难度评级分析表

各任务测试结果

关键数据和研究结论

你可能感兴趣

OpenAI Agent 数据抓取能力测试报告

热门浏览器Agent插件测试报告

OpenAI Agent 长视频总结测试报告

OpenAI Agent测试报告

计算机行业快评报告：全球首款通用AI Agent Manus发布，关注AI应用的加速落地

互联网行业先进网络安全能力验证评估系列报告：国内网络安全信息与事件管理类产品研究与测试报告（2021年）

互联网行业先进网络安全能力验证评估系列报告（2021年）：国内威胁诱捕（蜜罐）类产品研究与测试报告

微软浏览器Copilot综合能力测试报告

Perplexity Comet 电商购物能力测试报告

阿里团队发布全新终端AI智能体，机构预计2032年AI Agent市场规模将超1000亿美元，这家公司自主研发的通用AI AGENT机器人开发平台取得了重大突破