AI智能总结
2025.07.25 郎瀚威/GPTDAO猫猫头AIwatch.ai 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 关于作者 •感谢刘渊,And,周江岭,HEXIN生财提供的Prompt。我们从群友提供的prompt中随机抽了5个。 •更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5获取更多信息 •官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告:链接 •加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。 •商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了 •服务包括:1对1推特增长咨询服务等。数据库服务,包含对于市场上产品的详细跟踪和打标,了解商机先人一步。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等,4000美元/月。推特增长顾问服务,分析欧美竞对,构建推特 增长路径。价格同上。 2025/7/28 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 PPT+短报告测试结果 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 报告一些Takeaway-by郎瀚威 •这是我们第二次出报告,和上次综合类不同,这次选择的是报告类,这也是最大的垂类。 •本次是一共9个任务,5个PPT,4个报告,未来深度报告会独立测试。 •本次测试结论是,用通用AI Agent生成文档,已经达到初步可用水平,也发现一些问题: •1、当前AI Agent生态各有短板,没有一家在所有方面都表现完美。 •2、对于通用Agent,步骤更多,因此数据幻觉是危险的问题,现阶段AI生成内容必须全面验证,不能因为前几条正确就信任整体。 •3、直接承认能力局限,反而赢得信任,真正的行业进步需要直接的问题反馈和整个生态的共同迭代,而非单一平台独大。 •欢迎到推特和公众号留言,我们会持续收集Prompt,目前已经将报告类Prompt看板开源(https://three-recorder-52a.notion.site/23efc520994e801aa636cb5d82523972?v=23efc520994e80eb96a2000caa6c0174) 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 测试感受——by Will团队成员1dyr(测了22个任务在三家的表现) 这次测试我分别测了5个任务在Genspark、Manus、OpenAI上的表现,还有5个任务分别在Genspark、Manus上的表现。 核心观点:AI生成内容必须仔细验证。功能完整度、诚实度、内容质量各有优劣,没有一家在所有方面都表现完美,当前AI Agent生态还不成熟,各有明显短板,需要持续反馈和迭代来推动整体进步 发现了一些问题: 1、幻觉问题:Manus在统计奈飞电影Top50时,发现自己没有能力统计,转而找了几个测评文章,将文章数据抓下来写道了表格中,但是抓取的文章内容仅统计了Top20的数据,对于另外的30个,Manus采取的策略是乱编,电影名直接是“知名电影#21“,观看次数和观看小时数竟然是呈等差数列降序排列!!!给我气笑了,有一种上学时老师说”不会的题,宁可编上也别空着“的感觉。当时我刚跑完这个任务,它还大大方方的承认了无法发邮件,给我一种很诚实的感觉,对于表格内的数据我也是简单的看了前面十几条内容,觉得收集的还不错。回头细看才发现这个浓眉大眼的manus居然骗了我。我相信这也是很多用户可能会面临的情况,所以AI生成的东西一定一定一定要仔细检查。 同样的任务,OpenAI和Genspark确实访问奈飞官网抓取的Top10,剩余的资料是从别处获得的。发送邮件时,虽然都没有发送成功,OAI是唯一一个成功将文件保存至草稿箱中的。 Comet大大方方的承认了无法抓取奈飞内容,也没有去找其他文章内容的Top50资料,反而可信度是很高的,在我这里猛刷了一波好感。 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 测试感受——by Will团队成员1dyr-续 2、导出Bug:制定退休计划PPT的任务,Genspark生成了15页赏心悦目的PPT,可惜它的导出功能还在Beta阶段,导出失败了。其实平时导出Genspark的PPT也普遍较慢,但是这次是第一次遇到死活导出不了的现象(无论是PDF格式还是PPT格式我都试过N遍,隔天又试了N遍,还是不行) 3、Openai平庸的PPT:OAI推出PPT功能,结果效果非常不好。抛开内容不谈,丑PPT这个赛道OpenAI你也是闯进去了,几乎每一张都是白底,而且如果左侧文字过长但凡右侧有个柱形图折线图什么的,柱形图折线图恨不得贴到边边太极限了(提前制定退休计划PPT)。 4、按需定制与内容冗长:AI Agents教程指南那个任务,需要教给Agent小白一些Agent基础知识以及如何使用,并且列举并教小白使用10个最受欢迎的Agent。Manus、Genspark、OAI都成功了,但是Manus写的最长,仔细读过后觉得和Genspark、Openai比有很多不务实的东西,不够精炼,比如未来展望、继续学习,行动建议和逐步实施的计划重复了。我认为如果是教程类的东西,针对小白应该简单精炼一些才是好的教程。当然这个是我个人感受,可能有人更喜欢面面俱到事无巨细的学习形式。 抱歉这次攻击性有点强了,但出发点并不是为了“一锤定音”,而是希望能推动大家更清晰地看到问题所在。说到底,这些Agent背后都是一群非常优秀、也在持续迭代的团队。我相信,只要方向对、反馈及时,大家完全有能力在下一轮把体验拉到一个新高度。毕竟,真正的进步,从来不是一家独大,而是整个生态一起往前走的节奏。 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 测试感受——by Will团队成员2zwt(测了5个任务在OpenAI的表现) 这次测试我测了5个任务OpenAI上的表现。 核心观点:OpenAI Agent虽然在某些技术能力上有优势,但在用户体验的关键指标上(效率、内容质量、问题解决的直接性)还有明显不足,性价比有待提升。 •先说好的方面,在一些任务上表现还不错,比如发邮件这个任务,还是比Comet、Manus和Genspark超前一些,其他都不能发送邮件,最起码OpenAI编辑的邮件还躺在了草稿箱里。另外就是数据爬取上对比下来感觉还是可以的。 •当然缺点也很明显: •首先,耗时实在太久。有些任务执行了40多分钟,这个时间实在让人有点难以接受,尤其是考虑到价格还不便宜。 •再就是,PPT制作质量。比起Genspark和Manus,OpenAI生成的PPT质量明显差很多,真的真的真的太丑了,根本没办法实际使用,唯一可能比Comet稍微好一点,为啥这么说呢?因为Comet没法生成PPT,只是提供一些建议,所以有总比没有强吧。还有就是OpenAI在分析、生成研究报告的时候,并不是很深度,有点差强人意。 •另外一个问题是,OpenAI在遇到不能解决的问题时,通常采取的是“绕路”的方式。它会去网上搜索别人怎么解决类似问题的办法,然后把这些办法告诉你。虽然这种方式有时能帮忙,但还是没有真正从根本上解决问题,感觉有点被欺骗的感觉。 接下来的测试计划 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 难度分级说明 难度等级说明 1-2分:简单级-基础任务,单一工具,minimal专业知识2-3分:中低级-需要一定理解和分析能力3-4分:中高级-需要专业知识和多步骤思考4-5分:专家级-需要深度专业知识和综合能力 关键难度因素 1.高难度驱动因素:大型输出要求(2万字)、高度专业领域知识、多维度分析2.中等难度特征:实时信息搜索、内容理解和提取、多步骤任务3.复杂度escalation:从简单信息检索到专业投资分析的跨度很大特殊注释:*这个prompt虽然表面简单,但实际上AI无法直接执行购买操作,需要用户自行完成或使用专门的购物API工具。 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 Prompt难度评级分析表 ETH价格预测 ETH价格预测 来个eth价格预测?for fun.看看它说的在理不(请进行未来 24小时的eth价格预测) 难度等级:中低级 任务来源:硅谷王川群友-刘渊 AI评价任务难度:2.8 任务分析:涉及搜索、分析、报告生成 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 ETH价格预测-耗时&结果 Prompt:来个eth价格预测?for fun.看看它说的在理不(请进行未来24小时的eth价格预测) ETH价格预测-测试结果AI分析结果 ETH价格预测–OpenAI Agent OpenAI Agent执行结果:失败链接 测试感受(人写) •任务失败。 •单对于OpenAI来说,它明确指出不能做出价格预测提供投资建议,所以这个任务OpenAI是没有办法去完成的,但是会给你搜集一些市场信息,只能说挺诚实的。•相对于另外3家来说,OpenAI给出的结果非常简陋,没什么有用的信息。 ETH价格预测–Comet Comet执行结果:成功 链接 测试感受(人写) •任务成功。•预测质量高、准确性好、内容专业、满足核心需求。但是时间上有问题 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 ETH价格预测–Manus Manus执行结果:成功链接 测试感受(AI写) •任务成功。•由于测试者不了解币,故使用Kimi K2模型对测试结果进行评价,以下是Kimi K2的评价内容:•24小时预测逻辑与实时行情、主流技术模型一致,不存在“胡说八道”。目标价$3,817(+3.0%)•与CoinDesk模型给出的区间上沿3,763–4,106美元(斐波那契扩展1.0位)基本匹配。 ETH价格预测–Genspark Genspark执行结果:成功链接 测试感受(AI写) •任务成功。 •由于测试者不了解币,故使用Kimi K2模型对测试结果进行评价,以下是Kimi K2的评价内容:•这份24小时ETH预测总体逻辑自洽、数据来源可核,报告给出3,650–3,900区间、35 %概率3,900–4,000;实际24小时后(截至Jul 2306:30 UTC)价格≈3,750,落在“基准情形”内,误差< 2 %,但仍在区间中值附近,不能说明模型“精准命中”。•但24小时“点位”预测天然属于高噪声、低精度的统计游戏。把它当成“概率区间+风控模板”是合理的;若理解为“明天一定涨到3,900”就属于误读。投资者仍需自行判断并承担波动风险。 会员经济GDP分析 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 会员经济GDP分析 Prompt: 会员经济占美国经济GDP的比重是多少?3个产业的分布,各个行业的分布,典型代表公司案例,会员总规模是多少?1天下来会员为经济做出多大的贡献? 难度等级:中高级 任务来源:群友-周江岭 任务难度:3.8 任务分析:涉及搜索、分析、报告生成 目录|作者|测试感受|难度分级说明|金融|市场|教育|其他|结尾|附件 会员经济GDP分析-耗时&结果 Prompt:会员经济占美国经济GDP的比重是多少?3个产业的分布,各个行业的分布,典型代表公司案例,会员总规模是多少?1天下来会员为经济做出多大的贡献? 会员经济GDP分析-测试结果AI分析结果 会员经济GDP分析–OpenAI Agent OpenAI Agent执行结果:成功链接 测试感受(人写) •任务成功。