您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [AIwatch.ai]:OpenAI Atlas测试报告 - 发现报告

OpenAI Atlas测试报告

2025-10-22 AIwatch.ai 肖峰
报告封面

2aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 3aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 关于作者 •作者郎瀚威及团队,郎瀚威现居美国硅谷Palo Alto,AI GTM顾问,第二作者猫猫头,也在硅谷,小红书:107279551•更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5获取更多信息•官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告:链接,2025Q2报告:链接•到飞书查看更多Agent测试报告:链接,含综合能力测试及多个垂类场景能力测试(如写报告、数据抓取、视频总结等)•加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。•商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了•服务包括:1对1推特增长咨询服务等。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等,5000美元/月。 4aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 测试Prompt执行结果表格 5aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 任务解析表 6aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 浏览器测试感想——by郎瀚威Will 我们在过去的几个月里,陆续写了十几篇关于Agent,浏览器的测试(过往Agent测试报告下载链接: https://zw73xyquvv.feishu.cn/wiki/Sf0UwMFr8i0D9OkIJBKc7fBXnZe)。写这些报告很爽,每次隔一段时间就会有正反馈出现。巨头如同下饺子一般在陆续投入。现在还远不是最终决战,用户习惯尚未养成,KOL也在摸索用法,巨头们也在摸着彼此过河,找pmf。Chatbot形态是一个很复杂的产品,用户花了2年时间去习惯chatgpt这个chatbot产品,期间有无数的KOL,大V布道,用户看了数十次,从感兴趣到使用到分享传播。做过chatbot创业的朋友知道,后台Prompt查询一开始最多的是Hello和?问号。对照这个进度,浏览器的用户习惯培育才是刚刚开始。因此像三体3提到的情节一样,有些产品选择降维,从prosumer到普通用户,但也可能会限制自己的长期发育。 我们现在叫他AI浏览器,浏览器的概念其实对照的是“浏览信息”,未来这个名字可能会变成PC端联网AI助手,以及还会出现纯本地化的,不联网AI助手(处于安全性,算力节约等角度)。 巨头们义无反顾的开坑,昭告天下,赶鸭子上架。虽然现在能力比较拉胯,但千万不要小看巨头的系统性优化能力。创业公司拼命摸索pmf试图上岸,然后到这个阶段,可以说完全没有信息差了。创业公司的产品亮点,意图,第二天就会被巨头团队揣摩分析把玩。 aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 AI搜索战局升温:从Perplexity的“焦虑式营销”看wrapper产品的困境-By猫猫头 OpenAI Atlas的发布,让市场格局悄然生变。最明显的信号来自Perplexity:防御动作频频。两个月前,Referral fee还是15美元/人,本周突然提升至20美元,今天甚至出现了弹窗广告,持续强化Student Program,试图巩固学生群体这一根据地这背后折射出一个根本矛盾:Perplexity虽有自研Sonar模型,但同时依赖Claude、DeepSeek和GPT等第三方模型。当底层模型方开始产品化,终端产品的护城河就岌岌可危了。 产品形态的演进逻辑:观察核心战场的玩家打法,可以看到清晰的产品路径,OpenAI: 7月发布Agent → 10月推出浏览器,Genspark: 4月推出SuperAgent→ 9月推出浏览器 这个顺序不是巧合。就像包饺子,你得先把馅料(Agent能力)调好,最后用浏览器这张"皮"一包,AI browser产品就成型了。 AI浏览器的本质竞争:比拼的不是交付信息能力,而是执行力,交付可靠结果——这才是超越传统浏览器的叙事主线。 Understanding layer →底层模型解决 Planning layer →插件交互形态解决 Execution layer → Agent的核心战场 结论:Wrapper型产品的寒冬 以Comet为代表的wrapper型产品,日子会越来越难过。当模型方向上延伸产品链,中间层的价值就会被不断压缩。这或许解释了为什么Perplexity最近动作如此频繁——它需要在窗口期关闭前,尽可能建立用户忠诚度和品牌壁垒。 8aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 测试设计理念——by郎瀚威Will 本次测试设计理念: 我们这一次没有按照openai官方给出的引导prompt进行测试。因为我们认为,这些电商,旅游Plan等更多了是为了打开想象空间的。真正用户并不会使用这些功能,(因为是抽卡,有失败率,人类是延误失败的,需要KOL引导示范才能慢慢习惯)而是会小心翼翼的从高成功率的功能用起。我们这次试图根据自己以及周围客户的相对高频需求,来测试openaiatlas的功能。 Comet浏览器的按钮增加了一键总结当下网页内容 真正的用户的需求,我们可以从产品设计窥见一斑。 最高频的功能,肯定是最朴实无华的文本总结。(comet甚至专门出了一个按钮和快捷键) 其次是视频总结(genspark出了几个按钮)。因此我们这次放了这三个作为前三。 第四个,则是邮件相关内容。其实本来我们是要出一期邮件专辑的,由于种种原因拖延了。这个国内用户可能比较难以理解。邮件有点类似于老外的微信。围绕微信的rpa,如果微信允许,肯定是最丰富的。无论是自动回复,批量增删改查好友等等,感兴趣的朋友可以去影刀看看。Comet也出过不少邮件相关的案例Prompt。 Genspark在youtube见面会弹出视频总结 第五个,是社交媒体的统计,很多客户和我提过这个需求,就是总结推特信息流,因此也放上了。这个可能也是很多newsletter所提供的服务。 第六个是,社交媒体的批量沟通。比如说找kol,这也是一个可能的高频需求。 第七个是写学生作业,理由是学生用户应该是蛮多的。 Comet浏览器的排序:总结网页,组织浏览器标签,编程,email,创造计划,电商 9aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 测试感受——by Will团队成员1wzy 本次测试了推特新闻总结、回复推特私信2个任务,在4个平台上(OpenAI Atlas、Gemini插件、Comet、Genspark浏览器)的不同表现。 一、总体感受 Comet>Genspark浏览器>= OpenAI Atlas >Gemini,从结果上来看,除了Comet之外,其他的多多少少都会有一些问题。 二、各平台测试感受 1.OpenAI Atlas:随机性较大。回复推特任务完全成功,总结推特热点任务却完全失败,成功的任务执行过程类似于Comet,表现很出色,速度也比Comet快,但是另一个任务却完全理解错了任务要求,也存在AI幻觉,给出了不存在的东西,但据其在成功任务中的表现,相信其是有实力两个任务都完成的,只是随机性较大。 2.Gemini插件:未能识别屏幕内容,功能最少。背靠强大的模型却在这两个任务中表现最相对最差,其作为一个可以在浏览器中使用的插件,在推特回复私信中竟然没有正确识别出屏幕内容。功能也是最少的。 3.Comet:完成任务准确无误,但执行速度慢。通过其完全自动化的操作,能够正确无误地完成prompt中的任务,两个任务都成功完成并且表现出色。相应的,因其需要模拟操作,任务执行高速度相对都较慢。 4.Genspark浏览器:工具很全,但任务执行表现一般。没有像Comet那样进行自动化模拟操作,但对不同的任务有相应的工具,比如有notion专用工具来在执行中获取notion的内容。任务执行比较死板,多几个字就识别不到了。 10aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 测试感受——by Will团队成员2tcj 本次测试了视频总结、视频转录2个任务,在4个平台上(OpenAI Atlas、Gemini插件、Comet、Genspark浏览器)的不同表现。 一、总体感受 Comet与Genspark浏览器效果最好,内容质量高,结构清晰;Gemini和OpenAI无法执行视频转录和视频总结任务。 二、各平台测试感受 1.OpenAI Atlas:涉及版权问题最保守,版权问题无法读取视频内容,但给出了一系列方案建议。 2.Gemini插件:无法执行视频转录和视频总结任务,提示YouTube文字记录不可用。 3.Comet:内容最丰富、最细致。精准地列出视频的每一个章节和对应时间点,视频结构一目了然。提供完整的转录文本和下载链接,进对内容进行归纳分类。 4.Genspark浏览器:转录和总结的结构清晰。对视频的核心内容进行了归纳和分类,摘要结构清晰。成功将视频内容提炼成几个关键主题。最后还支持对视频的关键主题进行深入研究。 总结:本次测试了4个平台对长视频的总结转录功能,Comet和Genspark浏览器的转录能力真的让我惊讶,速度快是一方面,其中两个重要的点:完整的转录文本和带时间戳的章节大纲,都排列的非常清晰,并且可以对不同章节内容进一步深度研究。 11aiwatch.ai|目录|作者|测试结果|测试感受|总结文章|视频总结|视频转录|发邮件预约会议|推特新闻总结|回复推特私信|写作业 测试感受——by Will团队成员3wmq 本次测试了总结文章、发邮件预约会议2个任务,在4个平台上(OpenAI Atlas、Gemini插件、Comet、Genspark浏览器)的不同表现。 一、总体感受 Genspark浏览器> OpenAI > Comet > Gemini 二、各平台测试感受 1.OpenAI Atlas:交互性很强,有趣但是墨迹。会实时给你展示它在干什么,还有个小鼠标在屏幕上跑来跑去,有时候还蹦个对话框出来问你"要不要看我玩纸牌接龙"像一个桌宠,而且确实保护隐私,你可以选择自己粘贴链接不用给它权限。但问题就是,看着它慢悠悠操作真的挺墨迹。如果你不赶时间、又在意隐私,那挺合适;要是赶项目...慎选。 2.Gemini插件:不能发邮件,不标注信息来源。有点尴尬,发邮件这个任务直接说做不了。文章总结还行,但也有点小毛病,比如信息来源标得不太清楚。感觉功能覆盖面比较窄,除了简单的文字问答,别的都不太行。暂时没找到它特别擅长的点。 3.Comet:快是真的快,但就是有点太糙了。邮件内容基本就是纯文字往上怼,基本上没什么格式可言,太过追去效率,缺乏对细节的打磨。对方收到可能会觉得挺敷衍的。文章总结也是,写得像论文似大纲,看着有些费劲。追求效率的话可以用,但得自己再美化一下输出的东西。 2025/10/224.Genspark浏览器:目前用下来最顺手的,让人放心。文章总结