您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [AIwatch.ai]:OpenAI Atlas测试报告(二) - 发现报告

OpenAI Atlas测试报告(二)

2025-10-24 AIwatch.ai 杨框子
报告封面

2aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 3aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 关于作者 •作者郎瀚威及团队,郎瀚威现居美国硅谷Palo Alto,AI GTM顾问,第二作者猫猫头,也在硅谷,小红书:107279551•更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5获取更多信息•官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告:链接,2025Q2报告:链接•到飞书查看更多Agent测试报告:链接,含综合能力测试及多个垂类场景能力测试(如写报告、数据抓取、视频总结等)•加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。•商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了•服务包括:1对1推特增长咨询服务等。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等,5000美元/月。 4aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 测试Prompt执行结果表格 5aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 任务解析表 6aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 浏览器测试感想——by郎瀚威Will 我们在过去的几个月里,陆续写了十几篇关于Agent,浏览器的测试(过往Agent测试报告下载链接: https://zw73xyquvv.feishu.cn/wiki/Sf0UwMFr8i0D9OkIJBKc7fBXnZe)。写这些报告很爽,每次隔一段时间就会有正反馈出现。巨头如同下饺子一般在陆续投入。现在还远不是最终决战,用户习惯尚未养成,KOL也在摸索用法,巨头们也在摸着彼此过河,找pmf。Chatbot形态是一个很复杂的产品,用户花了2年时间去习惯chatgpt这个chatbot产品,期间有无数的KOL,大V布道,用户看了数十次,从感兴趣到使用到分享传播。做过chatbot创业的朋友知道,后台Prompt查询一开始最多的是Hello和?问号。对照这个进度,浏览器的用户习惯培育才是刚刚开始。因此像三体3提到的情节一样,有些产品选择降维,从prosumer到普通用户,但也可能会限制自己的长期发育。 我们现在叫他AI浏览器,浏览器的概念其实对照的是“浏览信息”,未来这个名字可能会变成PC端联网AI助手,以及还会出现纯本地化的,不联网AI助手(处于安全性,算力节约等角度)。 巨头们义无反顾的开坑,昭告天下,赶鸭子上架。虽然现在能力比较拉胯,但千万不要小看巨头的系统性优化能力。创业公司拼命摸索pmf试图上岸,然后到这个阶段,可以说完全没有信息差了。创业公司的产品亮点,意图,第二天就会被巨头团队揣摩分析把玩。 aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 AI搜索战局升温:从Perplexity的“焦虑式营销”看wrapper产品的困境-By猫猫头 OpenAI Atlas的发布,让市场格局悄然生变。最明显的信号来自Perplexity:防御动作频频。两个月前,Referral fee还是15美元/人,本周突然提升至20美元,今天甚至出现了弹窗广告,持续强化Student Program,试图巩固学生群体这一根据地这背后折射出一个根本矛盾:Perplexity虽有自研Sonar模型,但同时依赖Claude、DeepSeek和GPT等第三方模型。当底层模型方开始产品化,终端产品的护城河就岌岌可危了。 产品形态的演进逻辑:观察核心战场的玩家打法,可以看到清晰的产品路径,OpenAI: 7月发布Agent → 10月推出浏览器,Genspark: 4月推出SuperAgent→ 9月推出浏览器 这个顺序不是巧合。就像包饺子,你得先把馅料(Agent能力)调好,最后用浏览器这张"皮"一包,AI browser产品就成型了。 AI浏览器的本质竞争:比拼的不是交付信息能力,而是执行力,交付可靠结果——这才是超越传统浏览器的叙事主线。 Understanding layer →底层模型解决 Planning layer →插件交互形态解决 Execution layer → Agent的核心战场 结论:Wrapper型产品的寒冬 以Comet为代表的wrapper型产品,日子会越来越难过。当模型方向上延伸产品链,中间层的价值就会被不断压缩。这或许解释了为什么Perplexity最近动作如此频繁——它需要在窗口期关闭前,尽可能建立用户忠诚度和品牌壁垒。 8aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 测试设计理念——by猫猫头 上一篇报告中,我们评测的是高频场景,主要测试各家产品的基本功能,主要考察基本维度。这次测试的难度系数大幅提升。主要是因为我认为:不能被Chrome定义的传统浏览器限制对于下一代AI browser交互的遐想。 Comet浏览器的按钮增加了一键总结当下网页内容 已知当前的OpenAI、Claude这类基座模型都已经可以满足agent功能,可以实现对于复杂文件的基本交付。别人家小孩儿都能做得到,那么Gemini Assistant做不到,就是他的问题 所以,本次测试中,我选取的场景都是流程更长、难度更大,操作更复杂的Prompt。其目的,就是要摸索各家AI browser在Memory、Agent Mode的边界。 Genspark在youtube见面会弹出视频总结 也算是做一个注脚。随着底层基座模型的能力的提升和各家产品的高效迭代。下个月再测试同一类prompt时,通过比较不同时期的交付成果,也可以向量标注各家产品成长的加速度 Comet浏览器的排序:总结网页,组织浏览器标签,编程,email,创造计划,电商 9aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 测试感受——by Will团队成员1wzy 本次测试了视频特定信息提取、建立转化为网站、旅行储蓄预算规划3个任务,在4个平台上(OpenAI Atlas、Gemini插件、Comet、Genspark浏览器)的表现。 一、总体感受 Genspark浏览器> Comet浏览器>OpenAI Altas >Gemini浏览器插件 二、各平台综合感受 1.OpenAI Altas:粗糙适配。作为一款刚刚发布的AI浏览器,总体来说感觉比较粗糙,相比网页版没有感觉出有什么大的变化,表现也比较一般,感觉仅仅是为浏览器做了一下适配,用来占住AI浏览器的风口。2.Gemini浏览器插件:功能较少,不能上传文件。作为谷歌在AI浏览器界的一员,在Chrome中以插件的形式来使用,但是其不能上传文件,在某些需要结合网页与文件进行处理的任务时,就无法完成,在此三个任务中没有完全成功的,功能相对很少。3.Comet浏览器:处理网页数据快,导出生成的文件有限制。作为一款老道强劲的AI浏览器,Comet的表现还是很好的,对网页数据的读取和处理也是没什么困难,尤其是在视频特定信息提取任务中,只花费了很少的时间就完成了视频内容提炼。在文件生成方面还是有点不足,有些类型的文件不能直接生成下载。4.Genspark浏览器:工具库齐全,处理任务得心应手。它拥有很齐全的工具库,对各种任务都能得心应手、游刃有余,几个任务全部完美完成,感觉它像是一款集成了各种垂类Agent的超级AI浏览器。 10aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 测试感受——by Will团队成员2wmq 本次测试了融资分析和餐厅预订2个任务,在4个平台上(OpenAI Atlas、Gemini插件、Comet、Genspark浏览器)的表现。 一、总体感受 OpenAI Altas >Genspark浏览器> Comet浏览器> Gemini浏览器插件 二、各平台综合感受 1.OpenAI Altas:唯一能“干活”的,但体验很墨迹。在寿司预订任务中,它是唯一能打通“日历查询”和“OpenTable预订”全流程的AI,能力最强。但它的安全机制太敏感,4分多钟的任务里反复弹窗要求确认信息,非常拖沓。在信息检索任务上,它虽然最慢,但交付质量很高,还附带了总结表格。 2.Gemini浏览器插件:速度快但信息不全。两个任务都没及格。在信息检索任务上,它虽然速度快,但给出的信息残缺不全,多家公司的关键数据都是“未披露”。在餐厅预订任务上,它在第一步就失败了,明确表示“无法查看您的个人日程表”,功能覆盖面和数据完整性都是最低的。 3.Comet:需要精准提示词的极速选手。在信息检索任务上,它第一次没有直接执行而是进行二次确认,但在用户给出明确指令后,它在19秒内就给出了高质量的准确列表。这种二次确认需求的模式虽然多一步,但总用时极短。在餐厅预订任务上则彻底失败,直接承认“系统限制”无法操作。 2025/10/244.Genspark浏览器:在信息检索任务上的表现最好,但浏览器跨页面操作方面有所欠缺。它不仅响应速度最快,而且展现了很好的数据处理能力:它没有止步于直接给用户宽泛的结果,而是主动进行了一轮自我筛选和纠错,最终精准提炼出6家“完全符合所有条件”的公司。然而,Genspark在跨应用操作测试中失败了。它在交互中声称已检查日历,但在关键的预订环节承认无法直接在OpenTable上为用户完成预订,显示出其在实际执行层面还有所欠缺。 11aiwatch.ai|目录|作者|测试结果|测试感受|视频特定信息提取|简历转为网站|旅行储蓄预算规划|创业公司融资调研|查看日历订餐厅 OpenAI帖子用户评论分析(1900条里抓取了头部600条) 【1、段子经济主导舆论场】681条评论里,最高赞接近2k是讽刺"AI会报警"的段子,第二高约1.5k是"Chrome用户拒绝切换"的梗图。Top 20里16条是图片段子,只有3条是真正的负面批评。带图评论平均34赞,纯文字只有10赞。这说明Atlas发布后,实质讨论被Meme淹没——大家在看热闹,不是在评估产品。 【2、Chrome迁移成本是致命伤】50条提到Chrome,核心论点是"Chrome已经够用"、"又是Chromium wrapper"。约1.5k赞的段子直接戳中痛点:用户习惯锁定太强。更要命的是,OpenAI要说服的不是"零AI工具"用户,而是"已经在用Chrome+ChatGPT插件"的人——这群人看不到切换的理由。 【3、增长策略引发反噬】"用设为默认浏览器boost额度很scummy"拿约500赞,配合"别用数据换光标动画"(约500赞),形成了"OpenAI为增长不择手段"的叙事。这个策略本想降低试用门槛,结果被解读成强制绑定。对B端客户尤其危险——企业IT看到这种讨论会更谨慎。 【4、Agent价值传播失败】评论区充斥"Chrome已经能做这些"的质疑,说明大部分人没看懂Agent mode和传统浏览器的区别。OpenAI强调了sidebar、typing suggestion这些表