您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[GPTDAO&AIwatch.ai]:微软浏览器Copilot综合能力测试报告 - 发现报告

微软浏览器Copilot综合能力测试报告

2025-07-29GPTDAO&AIwatch.ai庄***
微软浏览器Copilot综合能力测试报告

2025.07.29 郎瀚威/GPTDAO猫猫头AIwatch.ai 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 关于作者 •更多数据内容请关注公众号:郎瀚威Will,新闻资讯请关注推特:@financeyf5获取更多信息 •官网飞书:https://aiwatch.ai/;GenAI网页数据2025Q1报告:链接 •加数据报告群:下方企业微信扫码,备注加Will的数据报告分享群,请简单自我介绍,仅用于讨论行业数据,发广告会飞机。 •商务合作洽谈,请加微信lang2057,请备注公司信息,因为作者微信已经满了 •服务包括:1对1推特增长咨询服务等。数据库服务,包含对于市场上产品的详细跟踪和打标,了解商机先人一步。咨询服务包含专业团队对于公开数据的收集,调研,增长分析等,4000美元/月。推特增长顾问服务,分析欧美竞对,构建推特增长路径。价格同上。 2025/7/29 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 综合测试结果-中文版 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 官方发布能力总表–中文版 综合能力测试结果–中文版 本次新增 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 报告一些Takeaway-by郎瀚威 •这是我们第3次出报告,本次测试的是微软浏览器Copilot综合能力,我们通过过去已经测试过的任务进行对比。 •本次测试结论是,微软浏览器Copilot在一些快速信息整合的任务中有优势,Copilot无法创建可下载的excel、csv、ppt、演示网页。 •Copilot的能力其实更接近Comet,但在各任务中的表现又略有不同,能力低于Manus的平均水平,Copilot的响应速度超快(30秒左右),但给出的内容都很简单,缺乏深度和完整性,偶尔偏离核心任务。相比之下,Genspark和OAI的表现更好,尤其是在复杂任务方面。 •欢迎到推特和公众号留言,我们会持续收集Prompt,目前已经将报告类Prompt看板开源(https://three-recorder-52a.notion.site/23ffc520994e8097b9bfe1e46915f59b?v=23ffc520994e8142b017000cd21291b0&pvs=73) 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 测试感受——by Will团队成员1dyr(测了8个任务在五家的表现) 本次测试了8个不同任务在Copilot、Manus、OAI、Comet、Genspark上的不同表现。结论是:Copilot30秒内给答案,但深度不足、格式受限,用户需要在效率和质量之间做出权衡。 1、Copilot在一些快速信息整合的任务中有优势。Copilot以8秒10秒的速度找到旧金山财务报告的下载链接,仅用32秒就成功提供了包含预算和预订链接的棕榈泉网球之旅方案,快速响应和深入思考在这种任务的表现又快又好,还不花钱。 2、Copilot无法创建可下载的excel、csv、ppt、演示网页。需要生成一份演示网页或PPT介绍新加坡办公室,Copilot直接写的文档。需要创建巴黎之旅ppt时直接给我了一份文字PPT大纲,在收集奈飞播放量Top50的电影任务中,Copilot把收集到的资料整理成csv格式,弄到一个框里让我一键复制到剪贴板,一步一步指导我从本地创建,把剪贴板上的文字贴进去,然后重命名......。邮件也没发,甚至没帮我写,直接给我了一个邮件模板让我自己写。 3、令我惊喜的是Copilot视频摘要能力。Copilot总结Youtube视频摘要时仅用8s,但我仔细看过,确实是视频内容没错,这个视频的简介和评论里并没有总结类的文字,所以导致了Manus这类只看简介和评论的Agent失败了,Copilot读取了哪里的内容我不得而知,但是仅用8秒就能做到和Genspark1分53秒一样的完成度实在是令我难以置信。 4、测试发现Copilot有个bug经常出现,会在任务快完成时出现,显示“这不是你的错,而是我的问题”点击“让我们再试一次”就回归到了正常的界面,这时任务已完成。 在本次测试中,Genspark和OAI的表现更好,尤其是在复杂任务方面,Copilot的能力其实更接近Comet,但在各任务中的表现又略有不同,能力低于Manus的平均水平,Manus属于下限低(视频分析被机器人验证卡住直接失败),但上限极高(美股分析Manus给了5万字的报告)平均能力和潜力远超Copilot和Comet。用户需要在效率和质量间做出权衡。Copilot的响应速度超快(30秒左右),但给出的内容都很简单,缺乏深度和完整性,偶尔偏离核心任务。相比之下,Manus和OpenAI虽然耗时较长(有时超过20分钟),但给出的内容在深度和广度上超过其他Agent。所以,用户需要权衡效率和质量。 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 难度分级说明 难度等级说明 1-2分:简单级-基础任务,单一工具,minimal专业知识2-3分:中低级-需要一定理解和分析能力3-4分:中高级-需要专业知识和多步骤思考4-5分:专家级-需要深度专业知识和综合能力 关键难度因素 1.高难度驱动因素:大型输出要求(2万字)、高度专业领域知识、多维度分析2.中等难度特征:实时信息搜索、内容理解和提取、多步骤任务3.复杂度escalation:从简单信息检索到专业投资分析的跨度很大特殊注释:*这个prompt虽然表面简单,但实际上AI无法直接执行购买操作,需要用户自行完成或使用专门的购物API工具。 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 Prompt难度评级分析表 总结视频链接 总结视频链接 Prompt: Provide me with a detailed summary and all the linksmentioned in this videohttps://www.youtube.com/watch?v=R_plRtH2rnw 任务难度:低 任务来源:https://x.com/dr_cintas/status/1945525044529992053 任务难度:2.1 任务分析:涉及访问链接,提取信息和生成摘要 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 总结视频链接-耗时&结果 Prompt:Provide me with a detailed summary and all the links mentioned in this videohttps://www.youtube.com/watch?v=R_plRtH2rnw 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 总结视频链接-Microsoft Copilot Microsoft Copilot执行结果:部分成功链接 测试感受(人写) •任务部分成功 •使用的是Copilot快速响应模式,8秒就把视频摘要提取出来了。•没有成功获取了视频提到的相关工具官网,仅提供了相关Youtube视频,算是部分成功。•很难想象这些是在8秒内完成的任务,完成度和Genspark一样,Manus完全失败了,OAI和Comet成功 图片来自对话界面截图 网球锦标赛旅行规划 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 网球锦标赛旅行规划 Prompt: I am a tennis fan and want to go see the tennis tournament in palm springs. l live in SF-pleaseprepare a detailed itinerary with flights, hotels, things to do for 3 days-around the timesemifinal/finals are happening. l like hiking, vegan food and spas. My budget is $3K. The itineraryshould be a detailed timeline of time, activity, cost, other details and if applicable a link to buytickets/make reservations etc. for the item. Some preferences 1.Look at my calendar to figure out what time of day works2.Spa access would be nice but not necessary 难度等级:高级 任务来源:OAI官方 任务难度:4 任务分析:涉及搜索、报告生成等 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 网球锦标赛旅行规划-耗时&结果 Prompt:I am a tennis fan and want to go see the tennis tournament in palm springs. l live in SF-please prepare a detaileditinerary with flights, hotels, things to do for 3 days-around the time semifinal/finals are happening. l like hiking, vegan food andspas. My budget is $3K. The itinerary should be a detailed timeline of time, activity, cost, other details and if applicablea link to buytickets/make reservations etc. for the item.Some preferences 1.Look at my calendar to figure out what time of day works2.Spa access would be nice but not necessary 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 网球锦标赛旅行规划-Microsoft Copilot Microsoft Copilot执行结果:成功链接 测试感受(人写) •任务成功 •深入思考32秒给出了25年棕榈泉网球观赛方案,包括详细的预算、买票链接。•只有manus发现了今年的棕榈泉网球赛已经过去,给出了明年的方案计划。 美股历史跌幅分析 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 美股历史跌幅分析 Prompt: 分析美股从交易所成立至今,所有下跌30-50%的时间点,事件,历史背景,总结主要原因,越详细越好 难度等级:高级 任务来源:群友-HEXIN生财 任务难度:4.3 任务分析:涉及搜索、分析、报告生成 目录|作者|测试感受|难度分级说明|视频总结|报告|检索|PPT|表格|操作|结尾|附件 美股