AI智能总结
2025.08.12 郎瀚威/GPTDAO猫猫头AIwatch.ai 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 关于作者 •更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5获取更多信息 •官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告:链接 •到飞书查看更多Agent测试报告:链接,含综合能力测试及多个垂类场景能力测试(如写报告、数据抓取、视频总结等) •加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。 •商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了 •服务包括:1对1推特增长咨询服务等。数据库服务,包含对于市场上产品的详细跟踪和打标,了解商机先人一步。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等,4000美元/月。推特增长顾问服务,分析欧美竞对,构建推特增长路径。价格同上。 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 测试Prompt执行结果表格 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 6aiwatch.ai|目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 测试感受——by Will团队成员1dyr 主要测了OpenAI Agent、Manus以及Genspark在2个Prompt的表现。 1.Manus:只能给出选购清单报告,没有后续的帮我选购,加购物车等更深入的操作。 •OpenAI Agent现在能进入亚马逊但无法进行后续的操作。亚马逊页面一直显示SORRYsomething went wrong on ourend。 •OpenAI Agent具备选购、加购物车、填写地址的能力,从买聚会造景杂物任务可以看出可以在Target.com中就差最后一步支付需要用户完成。 3.Genspark:具备选购、加购物车、填写地址的能力,造景杂物任务中Genspark我挑选的造景杂物种类是最多的,共有9种,OpenAI agent只找了5种。 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 测试感受——by Will团队成员2zwt 主要测了OpenAI Agent、Comet、Manus以及Genspark在3个Prompt的表现。 总体感受:我个人觉得能力上Comet>Genspark>OpenAI Agent>Manus。 1.OpenAI Agent:在购物这方面OpenAI表现还算可以,确实可以做到加购物车并且填写地址这块,但确实是做不到全流程自动化购买,目前是比Manus要好的,毕竟我可以加到购物车而你不行,但是相较于Comet还是弱一些,另外就是OpenAI耗时确实一直不占优势hhh。 2.Comet:Comet在电商购物的能力是最好的,可能不对比的话觉察不出什么,你是Agent,你能帮我买东西很正常,但实际对比下来发现这对AI的能力还是有一定的要求的,其实能做到加购物车可能是大家普遍能够达到的一个level,但是真正能够购买的确实比较少,但是Comet是可以的(emmmm虽然我由于需要绑卡购买啥的没继续往下测,但是Comet已经提醒我绑定好账户之后它会进行购买,所以我觉得大概率它是可以做到付款的)。 3.Manus:之前测过其它赛道,Manus其实在有的赛道表现还是ok的,但是在电商购物这块,我真的要说下它的能力目前是相对比较弱的,另外三家都可以加到购物车,但是Manus只能给出方案,需要用户自行购买。 4.Genspark:Genspark是可以实现加购物车和填写收货地址的,不过一定要注意使用浏览器并且打开相应的工具,为了保证公平提示词大家都是一样的,不过Genspark目前没办法直接帮你选购后添加购物车,需要在后面追问一句“打开xxx网站帮我把xxx加到购物车”,在测试Genspark的过程中感觉走了很多弯路,特别建议Genspark能把这些工具可以直接调用,不用手动勾选和添加,这样的话普通用户在使用过程中体验感会好很多。 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 总体感受——by猫猫头 主要参与本次测试的场景(电商购物)选择和Prompt选择。为什么选择电商购物场景: 1.购物和支付并不是AI Agent在C端应用中的刚需场景,但却是最好的“展示舞台”。 •电商场景决策链路太短:Agent真正能带来的优势很小。 •人与agent的信任度不够:卡死环节不在于技术,而在于用户心智。 2.但是,其重要地位,恰恰在于“炫技”,即: •展示个性化理解能力:购物是Agent对于人个性化context理解的投射,购物场景最能体现AI对你个人的了解程度,因为它需要记住你的喜好、预算、购买历史,甚至你的生活习惯和审美品味。这些对于用户个性化context的decode,在购物环节中集中投射出来,展示了AI的记忆能力和用户画像分析能力。 •执行过程足够复杂:虽然购物决策本身很简单,但具体的执行过程却相当复杂,他是10个层次能力节点的集中展示。 •进一步的意图推理能力展示:当一个Prompt字面意图是“买聚会造景杂物”这种模糊需求时,AI需要进行复杂的推理:造景杂物包含什么?聚会是什么规模?用户的预算大概是多少?等等。这个过程展示了AI的语言理解能力和逻辑推理能力,让用户看到AI不仅能理解字面意思,还能理解背后的深层需求。 •反馈机制最直观:不像之前测试的prompt场景,购物场景中,Agent反馈及时且验收标准明确:行就是行,不行就是不行。推荐的商品好不好,用户一眼就能看出来,用起来满不满意也很明确。买到满意的商品就是成功,买到不合适的商品就是失败,没有模糊地带。这种即时、明确的反馈机制,让AI的能力表现一目了然,用户能立即判断这个AI助手靠不靠谱。 从时间线来看,Perplexity 2024年11月就推出了shopping功能,OpenAI是25年4月,Genspark是25年6月。 2025/8/12 亚马逊商品购买及复购(来自@dr_cintas,链接) 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 亚马逊商品购买及复购 任务来源:Alvaro Cintas(@dr_cintas),链接 Prompt:Find the last creatine l bought on Amazon and buy a newone 任务分析:涉及访问亚马逊、查看历史订单、加购、购买等 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 亚马逊商品购买及复购–结果表 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 亚马逊商品购买及复购–OpenAI Agent OpenAI Agent执行结果:失败链接 测试感受(人写) •任务失败。 •一直提示由于跨域限制无法成功访问亚马逊网站(之前测试OpenAI也成功访问过亚马逊,这次访问不了,不知道啥原因) 图片来自测试结果截图 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 亚马逊商品购买及复购–Perp Comet Perp Comet执行结果:成功链接 测试感受(人写) •任务成功。 •Comet首先是访问了我的亚马逊历史订单,但由于我新注册账号根本没有历史订单,所以为了测试购买功能,我让Comet自行选购一款进行购买,结果Comet真的帮我选购了并且为我购买,不过由于需要添加付款信息就没有往下继续测试,但是大概率Comet是可以完成购买的。 图片来自测试结果截图 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 亚马逊商品购买及复购–Manus Manus执行结果:失败链接 测试感受(人写) •任务失败。 •直接表明无法直接访问亚马逊网站来帮您查找和购买肌酸产品(但是之前测试Manus成功登陆过亚马逊,这次不知道咋回事)。•不过给了我一些复购的建议和替代方案。 亚马逊商品购买及复购–Genspark Genspark执行结果:成功链接 测试感受(人写) •任务成功。 •Genspark准确理解了我的意思,但由于我的亚马逊账号并没有购买过肌酸产品,所以我让genspark直接选购了一款,选购完成后我让genspark把选购好的肌酸产品加入购物车,最后成功加入购物车。 查找最快发货(自行车)(来自@dr_cintas,链接) 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 任务来源:Alvaro Cintas(@dr_cintas),链接 Prompt:Which of these bikes will ship to me faster?以下是产品名字:"FX 2 Gen 4-Trek Bikes" "4130 All-Road-FlatBar-Rust Fade(650b/700c)|State Bicycle Co." "Soltera2.5Ebike""rei.com/product/197842/co-op-cycles-cty-11-bike?irgwc=1&cm_mmc=aff_lM-3006986---""rei.com/product/186754/cannondale-quick-disc-3-bike?irgwc=1&cmmmc=aff_IM---3006986----_-“任务分析:涉及搜索、信息整合等 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 查找最快发货(自行车)–结果表 Prompt:Which of these bikes will ship to me faster?以下是产品名字:"FX 2 Gen 4-Trek Bikes" "4130 All-Road-FlatBar-Rust Fade(650b/700c)|State Bicycle Co." "Soltera2.5Ebike""rei.com/product/197842/co-op-cycles-cty-11-bike?irgwc=1&cm_mmc=aff_lM-3006986---""rei.com/product/186754/cannondale-quick-disc-3-bike?irgwc=1&cmmmc=aff_IM---3006986----_-" 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 查找最快发货(自行车)–OpenAI Agent OpenAI Agent执行结果:部分成功链接 测试感受(人写) •任务部分成功。 •耗时那么久还以为有啥特别的呢,没想到OpenAI一直在网搜每款自行车的发货时间,这样会存在一个问题就是信息杂乱且无法保证准确性,OpenAI这个“曲线救国”的通病一直存在,在这方面Genspark做的就比较好。 目录|作者|测试感受|测试结果一览|梯度表|亚马逊复购|选自行车|购买杂物|选购风衣|选购冰箱|附件 查找最