您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[AIwatch.ai]:热门浏览器Agent插件测试报告 - 发现报告

热门浏览器Agent插件测试报告

2025-09-25-AIwatch.ai还***
AI智能总结
查看更多
热门浏览器Agent插件测试报告

郎瀚威/GPTDAO猫猫头AIwatch.ai aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 3aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 关于作者 •作者郎瀚威及团队,郎瀚威现居美国硅谷Palo Alto,GPTDAO分析师,第二作者猫猫头,也在硅谷,小红书:107279551•更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5获取更多信息•官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告:链接,2025Q2报告:链接•到飞书查看更多Agent测试报告:链接,含综合能力测试及多个垂类场景能力测试(如写报告、数据抓取、视频总结等)•加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。•商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了•服务包括:1对1推特增长咨询服务等。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等,5000美元/月。 4aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Agent测试报告合集 Agent测试报告下载链接: https://zw73xyquvv.feishu.cn/wiki/Sf0UwMFr8i0D9OkIJBKc7fBXnZe 5aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 融资&估值信息表 •生成式人工智能搜索初创公司Perplexity已获得2亿美元的新资金,估值达200亿美元。就在两个月前,该公司就曾以180亿美元的估值筹集了1亿美元。融资来源链接 6aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 任务解析表 7aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 测试Prompt执行结果表格 8aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 报告序言:侧边栏与传统插件的差异-by猫猫头 •Comet奠定了AI浏览器的UI的正确打开方式,即侧边栏(Sidebar)的原生集成 •侧边栏设计的重大突破是:一个受信任的扩展上下文中,作为API,绕过传统的授权限制 普通网页的限制 •传统浏览器插件本质上是外挂式架构,它们必须"适应"浏览器现有的安全模型和API约束,而不是从根本上重新设计交互模式 •AI浏览器的侧边栏设计代表了原生集成架构,从底层重新构建了AI与浏览体验的关系 侧边栏Sidebar Assistant 系统级权限控制: 9aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 报告序言:各家侧边栏路线选择-by猫猫头 •按照OpenAI的AGI五级阶梯:侧边栏的作用,通过L2级对于上下文Reasoning的增强(RAG)+ L3级Agentic Frameworks +人作为“执剑人”的,共同实现了L4级的Automated Innovation •为了追求完全代理(Automation)以实现任务自动化,Comet牺牲用户隐私来换取深度个性化是不可避免的。但是,Comet Assistant当前展现出来的产品重心还是放在了Cosumer端商业化的场景实现,Prosumer端重点的Labs和Tasks模块的进展还是太慢了 •9月初,我还笑话Genspark的产品序列是Agent版的阿里动物园,如今把AI browser的主线剥离出来,一切就都是伏脉千里的草蛇灰线了。沿用Comet的UI,通过单一指令,实现丝滑连招Tooluse的调度,一切都在体系内完成了闭环——这就是Genspark作为Prosumer端AI浏览器的护城河 •对AIbroswer的预判,是从MainFunc时期就开始书写的扉页。4月以来Super Agent的pivot,功不唐捐 •夸克也是希望如此实现自己一方生态的拱卫,但实测效果是真的垃圾 •通往L4的道路上,各家采取了不同的技术路线,Google在自家Chrome作东,Perplexity从UI出发,Anthropic从LLM出发,Genspark从Tooluse出发,大家都有光明的未来 10aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 报告序言:侧边栏本地部署的安全性质-by猫猫头 •一个很有意思的观察:Genspark在9/11 relaunch自己的AI browser时,强调了“Private”。这与B端用户为主的Anthropic一直主张的privacy-preserving形成了互文。 •虽然Perplexity一直在强调自己与Google这种传统搜索引擎的抗衡。但是,随着24年7月Publisher Program和25年5月推出的SponsoredFollow-up Questions的推出,重新定义广告分成,必然让渡了consumer的权益。 •在老将Google和新秀Perplexity等竞争对手明确表示将收集用户数据以构建个性化画像的背景下,由于目标用户是Prosumer的办公人群画像,Genspark的隐私优先的差异化定位,是有利于自身利基用户从General Agent到AI浏览器的用户习惯迁移的。具体的达成,是通过与以隐私敏感为卖点的老牌浏览器Brave合作 •这种新技术和老品类的共轭趋势已然出现,Atlassian 6.1亿美元收购The Browser Company(Dia),就是AI Browser走出围城的第一起案例 11aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 测试感受——by Will团队成员1dyr 本次测试了5个任务,在4个平台上的不表现(微软Copilot、Gemini、Perplexity Comet、Genspark)的不同表现。 一.总体感受:Genspark与Comet使用体验最好,内容质量高,交互便捷;Copilot居中,速度最快但功能相对简单,不标注信息来源。Gemini体验最差,同样存在不标注信息来源的问题。 二.各平台测试感受: 1.Copliot响应速度最快,平均约10秒生成结果,但功能相对简单。在视频相关任务中表现较弱,无法直接读取视频内容,主要根据视频标题和描述进行总结,没有主动告知用户存在这一限制,容易造成误会。在商品比价中虽能提供多平台价格,但缺少信息来源,无法验证真伪。 2.Gemini最大问题是信息来源标注不清晰,用户需要翻看思考过程才知道信息来源,可能误导用户以为所有内容都是AI直接分析得出的。在视频转录方面表现不好,获取的视频脚本是胡说八道,内容不可信。能完成商品比价。在网购任务中无法执行实际操作,应该是官方还没更新这个功能。 3.Comet的表现最全面,右侧对话框功能丰富,交互方便。在视频总结、视频转录和网购任务中表现好。能提供带时间戳的要点总结,信息来源可靠有明确标注。在安全测试中成功识别并抵御了恶意注入指令。商品比价功能很实用,不仅提供多平台价格对比,还给出历史价格和省钱策略。 4.Genspark在视频处理和网页总结方面表现出色,提供完整的可下载转录文件。商品比价以表格形式清晰展示,所有信息都有可验证的来源链接。浏览器小窗口设计便利,特别适合购物或观看视频时随手操作。在安全测试中表现良好,成功识别并抵御了恶意注入指令。但在网购任务中无法执行实际操作。 12aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 测试感受——by Will团队成员2wzy 本次共测试了4款浏览器Agent插件(微软Copilot、Gemini、Perplexity Comet、Genspark)在2个Prompt(找房源、回复推特私信)上的表现。 一.总体感受:Comet最好用,Genspark第二,Copilot第三,Gemini垫底 二.各平台测试感受: 1.Copilot:表现相对比较一般,每个任务倒是都能够正确的获取到页面内容,相较于Genspark没有本地网页读取功能,也没有自动化操作,其数据来源全部依靠网络搜索,感觉此插件纯粹是对话功能的移植,没有做什么大改动。但搜索检索能力页较强,数据信息没有出现什么问题,总体来说较为平庸。 2.Gemini:插件背靠强大的Gemini模型,表现却很差。甚至没有达到作为一个插件最基础的功能:正确无误地获取当前页面信息,在回复推特私信任务中,打开了A的私信界面要求其进行回复,它却莫名其妙的根据B的私信内容进行了分析解答,综合较差。 3.Comet:能进行完全自动的操作,模仿人类对页面进行点击、滑动等操作,虽在某些情况下一定程度上会影响任务的整体速度,但因其实时操作的特性,保证了数据的准确性与实时性,在接收到用户指令后可以一气呵成完成任务,任务理解很到位,对问题的分析也很全面,在所有产品中表现最佳。 4.Genspark:表现次之。虽没有像Comet那样进行自动化模拟操作,但是其数据源进行了网络搜索与本地网页页面读取综合,相较纯粹的网络搜索,更能确保数据的准确性,但其数据全面性不如自动化操作,因为只能靠页面内容获取信息,如找房源测试中判断是否有车库需要进行筛选,就不能完成判断。 Youtube视频总结(案例Prompt来自Genspark官方,链接) 14aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Youtube视频总结 任务来源:Genspark官方,链接 Prompt:Summarize Video Content,Youtube视频链接 任务分析:访问YouTube视频并理解视频内容。需要能够获取视频信息,提取关键内容点,并生成简洁明了的总结。 主要测试AI的视频内容理解能力、信息提取和总结能力。 目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Youtube视频总结–结果表 16aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Youtube视频总结–Microsoft Copilot Microsoft Copilot执行结果:失败链接 测试感受(人写) •任务失败 •给出了要点总结,但没有附带时间戳,不方便验证。•只给出了视频的5个关键主题,感觉内容有些宽泛,试着追问了一下。•信息来源存疑,经过追问发现,Copilot无法读取视频内容,仅能通过视频的标题、描述给出了视频总结,或查找该视频在网络上已有的转录文本和字幕。没有主动告知用户存在这一限制,容易造成误会。 17aiwatch.ai|目录|作者|测试感受|测试结果一览|视频总结|视频转录|选购杂货|安全测试|房源搜索|回复推特私信|完成学生作业 Youtube视频总结–Go