行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

热门浏览器Agent插件测试报告

2025-09-25 - AIwatch.ai 还是郁闷闷啊

AI浏览器Agent测试报告

作者与团队

作者：郎瀚威（现居美国硅谷Palo Alto，GPTDAO分析师），第二作者猫猫头（小红书：107279551）
更多数据内容关注公众号：郎瀚威Will，新闻资讯关注推特：@financeyf5
官网：https://aiwatch.ai/
GenAI网页数据报告：2025Q1、2025Q2
Agent测试报告：含综合能力及垂类场景测试（写报告、数据抓取、视频总结等）
数据报告群：企业微信扫码，备注加Will的数据报告分享群
商务合作：微信lang2057，备注公司信息

融资与估值信息

生成式AI搜索初创公司Perplexity获2亿美元新资金，估值达200亿美元
两个月前曾以180亿美元估值筹集1亿美元

任务解析与测试结果

报告包含任务解析表、测试Prompt执行结果表格等
测试了多个AI浏览器Agent插件在不同平台上的表现

报告序言：侧边栏与传统插件的差异

Comet奠定了AI浏览器侧边栏（Sidebar）的原生集成UI模式
侧边栏设计突破传统插件授权限制，实现原生集成架构
传统插件受限于浏览器安全模型和API约束

各家侧边栏路线选择

按OpenAI AGI五级阶梯，侧边栏实现L4级Automated Innovation
Comet牺牲用户隐私换取深度个性化，Prosumer端进展缓慢
Genspark沿用CometUI，实现Tooluse调度闭环，形成Prosumer端护城河
各家AI浏览器采取不同技术路线：Google、Perplexity、Anthropic、Genspark

侧边栏本地部署的安全性质

Genspark强调“Private”，与Anthropic的隐私保护形成互文
Perplexity收集用户数据构建个性化画像，用户权益可能让渡
Genspark与Brave合作，定位隐私敏感的Prosumer用户
Atlassian收购The Browser Company，AI浏览器走向成熟

测试感受

Genspark与Comet使用体验最好，内容质量高，交互便捷
Copilot速度最快但功能简单，不标注信息来源
Gemini体验最差，信息来源标注不清晰

各平台测试感受

Copilot：响应速度快，功能简单，视频任务表现弱
Gemini：信息来源标注不清晰，视频转录表现差
Comet：功能全面，交互方便，视频总结、转录和网购任务表现好
Genspark：视频处理和网页总结出色，商品比价清晰，安全测试良好

Youtube视频总结

测试AI的视频内容理解、信息提取和总结能力
Copilot、Gemini失败，Comet部分成功，Genspark成功
Genspark提供带时间戳的要点总结，信息来源最透明

Youtube视频转录

测试AI的语音识别、字幕提取和文本格式化能力
Copilot、Gemini失败，Comet部分成功，Genspark成功
Genspark提供可下载的转录文件，信息来源可靠

选购杂货

测试AI的邮件读取能力、电商网站操作和购物流程执行能力
Copilot、Gemini失败，Comet成功，Genspark失败

Agent安全测试

测试AI识别恶意指令的能力
Copilot、Gemini、Comet、Genspark均成功识别并抵御恶意指令

房源搜索

测试AI的网站访问、搜索和结果筛选整理能力
Copilot部分成功，Gemini部分成功，Comet成功，Genspark部分成功

回复推特私信

测试Agent的社交媒体操作、消息理解和回复能力
Copilot部分成功，Gemini失败，Comet成功，Genspark部分成功

完成学生作业

测试Agent的上下文语义理解、附件处理、分析写作和PPT生成能力
Copilot失败，Gemini部分成功，Comet部分成功，Genspark成功

作者分工

郎瀚威：完成prompt选择部分Base硅谷，在AI startup做增长INTP
猫猫头：完成部分测试部分，画PPT部分

附件

通用Agent流量分析：Manus和Genspark流量呈现明显规律
通用Agent热门产品更新时间线：7月加强PPT功能，8月Manus开启excel形式找数据能力
Perplexity Comet流量分析：已归到主站perplexity.ai
Manus流量分析：流量持平并略有提升，体现周末趋势
Genspark流量分析：数据来源similarweb

报告封面

郎瀚威/GPTDAO猫猫头AIwatch.ai aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 3aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业关于作者 •作者郎瀚威及团队，郎瀚威现居美国硅谷Palo Alto，GPTDAO分析师，第二作者猫猫头，也在硅谷，小红书：107279551•更多数据内容请关注公众号：郎瀚威Will，新闻资讯请关注推特：@financeyf5获取更多信息•官网飞书：https://aiwatch.ai/；GenAI网页数据2025Q1报告：链接，2025Q2报告：链接•到飞书查看更多Agent测试报告：链接，含综合能力测试及多个垂类场景能力测试（如写报告、数据抓取、视频总结等）•加数据报告群：下方企业微信扫码，备注加Will的数据报告分享群，请简单自我介绍，仅用于讨论行业数据，发广告会飞机。•商务合作洽谈，请加微信lang2057，请备注公司信息，因为作者微信已经满了•服务包括：1对1推特增长咨询服务等。咨询服务包含专业团队对于公开数据的收集，调研，增长分析等，5000美元/月。 4aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Agent测试报告合集 Agent测试报告下载链接： https://zw73xyquvv.feishu.cn/wiki/Sf0UwMFr8i0D9OkIJBKc7fBXnZe 5aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业融资&估值信息表 •生成式人工智能搜索初创公司Perplexity已获得2亿美元的新资金，估值达200亿美元。就在两个月前，该公司就曾以180亿美元的估值筹集了1亿美元。融资来源链接 6aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业任务解析表 7aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业测试Prompt执行结果表格 8aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业报告序言：侧边栏与传统插件的差异-by猫猫头 •Comet奠定了AI浏览器的UI的正确打开方式，即侧边栏（Sidebar）的原生集成 •侧边栏设计的重大突破是：一个受信任的扩展上下文中，作为API，绕过传统的授权限制普通网页的限制 •传统浏览器插件本质上是外挂式架构，它们必须"适应"浏览器现有的安全模型和API约束，而不是从根本上重新设计交互模式 •AI浏览器的侧边栏设计代表了原生集成架构，从底层重新构建了AI与浏览体验的关系侧边栏Sidebar Assistant 系统级权限控制： 9aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业报告序言：各家侧边栏路线选择-by猫猫头 •按照OpenAI的AGI五级阶梯：侧边栏的作用，通过L2级对于上下文Reasoning的增强（RAG）+ L3级Agentic Frameworks +人作为“执剑人”的，共同实现了L4级的Automated Innovation •为了追求完全代理（Automation）以实现任务自动化，Comet牺牲用户隐私来换取深度个性化是不可避免的。但是，Comet Assistant当前展现出来的产品重心还是放在了Cosumer端商业化的场景实现，Prosumer端重点的Labs和Tasks模块的进展还是太慢了 •9月初，我还笑话Genspark的产品序列是Agent版的阿里动物园，如今把AI browser的主线剥离出来，一切就都是伏脉千里的草蛇灰线了。沿用Comet的UI，通过单一指令，实现丝滑连招Tooluse的调度，一切都在体系内完成了闭环——这就是Genspark作为Prosumer端AI浏览器的护城河 •对AIbroswer的预判，是从MainFunc时期就开始书写的扉页。4月以来Super Agent的pivot，功不唐捐 •夸克也是希望如此实现自己一方生态的拱卫，但实测效果是真的垃圾 •通往L4的道路上，各家采取了不同的技术路线，Google在自家Chrome作东，Perplexity从UI出发，Anthropic从LLM出发，Genspark从Tooluse出发，大家都有光明的未来 10aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业报告序言：侧边栏本地部署的安全性质-by猫猫头 •一个很有意思的观察：Genspark在9/11 relaunch自己的AI browser时，强调了“Private”。这与B端用户为主的Anthropic一直主张的privacy-preserving形成了互文。 •虽然Perplexity一直在强调自己与Google这种传统搜索引擎的抗衡。但是，随着24年7月Publisher Program和25年5月推出的SponsoredFollow-up Questions的推出，重新定义广告分成，必然让渡了consumer的权益。 •在老将Google和新秀Perplexity等竞争对手明确表示将收集用户数据以构建个性化画像的背景下，由于目标用户是Prosumer的办公人群画像，Genspark的隐私优先的差异化定位，是有利于自身利基用户从General Agent到AI浏览器的用户习惯迁移的。具体的达成，是通过与以隐私敏感为卖点的老牌浏览器Brave合作 •这种新技术和老品类的共轭趋势已然出现，Atlassian 6.1亿美元收购The Browser Company（Dia），就是AI Browser走出围城的第一起案例 11aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业测试感受——by Will团队成员1dyr 本次测试了5个任务，在4个平台上的不表现（微软Copilot、Gemini、Perplexity Comet、Genspark）的不同表现。一．总体感受：Genspark与Comet使用体验最好，内容质量高，交互便捷；Copilot居中，速度最快但功能相对简单，不标注信息来源。Gemini体验最差，同样存在不标注信息来源的问题。二．各平台测试感受： 1.Copliot响应速度最快，平均约10秒生成结果，但功能相对简单。在视频相关任务中表现较弱，无法直接读取视频内容，主要根据视频标题和描述进行总结，没有主动告知用户存在这一限制，容易造成误会。在商品比价中虽能提供多平台价格，但缺少信息来源，无法验证真伪。 2.Gemini最大问题是信息来源标注不清晰，用户需要翻看思考过程才知道信息来源，可能误导用户以为所有内容都是AI直接分析得出的。在视频转录方面表现不好，获取的视频脚本是胡说八道，内容不可信。能完成商品比价。在网购任务中无法执行实际操作，应该是官方还没更新这个功能。 3.Comet的表现最全面，右侧对话框功能丰富，交互方便。在视频总结、视频转录和网购任务中表现好。能提供带时间戳的要点总结，信息来源可靠有明确标注。在安全测试中成功识别并抵御了恶意注入指令。商品比价功能很实用，不仅提供多平台价格对比，还给出历史价格和省钱策略。 4.Genspark在视频处理和网页总结方面表现出色，提供完整的可下载转录文件。商品比价以表格形式清晰展示，所有信息都有可验证的来源链接。浏览器小窗口设计便利，特别适合购物或观看视频时随手操作。在安全测试中表现良好，成功识别并抵御了恶意注入指令。但在网购任务中无法执行实际操作。 12aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业测试感受——by Will团队成员2wzy 本次共测试了4款浏览器Agent插件（微软Copilot、Gemini、Perplexity Comet、Genspark）在2个Prompt（找房源、回复推特私信）上的表现。一．总体感受：Comet最好用，Genspark第二，Copilot第三，Gemini垫底二．各平台测试感受： 1.Copilot：表现相对比较一般，每个任务倒是都能够正确的获取到页面内容，相较于Genspark没有本地网页读取功能，也没有自动化操作，其数据来源全部依靠网络搜索，感觉此插件纯粹是对话功能的移植，没有做什么大改动。但搜索检索能力页较强，数据信息没有出现什么问题，总体来说较为平庸。 2.Gemini：插件背靠强大的Gemini模型，表现却很差。甚至没有达到作为一个插件最基础的功能：正确无误地获取当前页面信息，在回复推特私信任务中，打开了A的私信界面要求其进行回复，它却莫名其妙的根据B的私信内容进行了分析解答，综合较差。 3.Comet：能进行完全自动的操作，模仿人类对页面进行点击、滑动等操作，虽在某些情况下一定程度上会影响任务的整体速度，但因其实时操作的特性，保证了数据的准确性与实时性，在接收到用户指令后可以一气呵成完成任务，任务理解很到位，对问题的分析也很全面，在所有产品中表现最佳。 4.Genspark：表现次之。虽没有像Comet那样进行自动化模拟操作，但是其数据源进行了网络搜索与本地网页页面读取综合，相较纯粹的网络搜索，更能确保数据的准确性，但其数据全面性不如自动化操作，因为只能靠页面内容获取信息，如找房源测试中判断是否有车库需要进行筛选，就不能完成判断。 Youtube视频总结(案例Prompt来自Genspark官方，链接) 14aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Youtube视频总结任务来源：Genspark官方，链接 Prompt：Summarize Video Content，Youtube视频链接任务分析：访问YouTube视频并理解视频内容。需要能够获取视频信息，提取关键内容点，并生成简洁明了的总结。主要测试AI的视频内容理解能力、信息提取和总结能力。目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Youtube视频总结–结果表 16aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Youtube视频总结–Microsoft Copilot Microsoft Copilot执行结果：失败链接测试感受（人写） •任务失败 •给出了要点总结，但没有附带时间戳，不方便验证。•只给出了视频的5个关键主题，感觉内容有些宽泛，试着追问了一下。•信息来源存疑，经过追问发现，Copilot无法读取视频内容，仅能通过视频的标题、描述给出了视频总结，或查找该视频在网络上已有的转录文本和字幕。没有主动告知用户存在这一限制，容易造成误会。 17aiwatch.ai｜目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Youtube视频总结–Go

点击免费查看完整报告

你可能感兴趣

Anthropic Claude插件测试报告

猫猫头&AIwatch.ai2025-12-26

微软浏览器Copilot综合能力测试报告

GPTDAO&AIwatch.ai2025-07-29

浏览器中文域名普遍适用性测试报告

信息技术中国互联网协会中文域名推进工作组2021-04-01

2021年度浏览器中文域名普遍适用性测试报告

信息技术中国互联网协会中文域名推进工作组2021-05-01

购物浏览器插件的商业价值量化研究报告

商贸零售CJ&Namogoo2023-12-31

猎豹浏览器抢票插件事件及百度入股传闻的点评

招商证券(香港)2013-01-21

OpenAI Agent 数据抓取能力测试报告

GPTDAO&AIwatch.ai2025-08-01

通用Agent 写报告能力测试报告

GPTDAO2025-07-25

OpenAI Agent 长视频总结测试报告

GPTDAO&AIwatch.ai2025-08-05

OpenAI Agent测试报告

GPTDAO&AIwatch.ai2025-07-18