您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:巨头专家聊Agent与Coze - 发现报告

巨头专家聊Agent与Coze

2025-04-23未知机构Z***
AI智能总结
查看更多
巨头专家聊Agent与Coze

1、Coze业务布局 核心方向:Coze今年重点推进Coze生态、MCPserver构建及通用型agent产品发展,核心布局在低代码开发平台、企业级协同、国际化产品三个方向。低代码开发平台提供一站式Al智能体开发平台,支持30秒无代码生成chatbot,集成近500款插件等;Coze空间是四月推出的基于AI协同办公产品,主打工作流自动化、任务拆解等功能。 MCP协议进展:MCP协议已与很多头部厂商及垂直领域专家级模型API集成,完成三方搜索引擎、地图、金融领域等API集成。MCPserver覆盖5万家全行业能力,40%自身孵化,60%由开发者提交并审核后共享,共享方式有商业付费和免费两种。 国际化布局:国际化重点覆盖欧美市场,底层大模型可能使用GPT或Claude等,会与TikTok领域联动。技术布局包括多模态融合、工作流引擎、MCP协议集成、开发者生态四个方面。2、技术发展 多模态融合:五月份会发布豆包业务的完全体多模态模型,目前5%流量灰度测试,中旬可能50%—80%流量接入。以支持文本、图像和语音交互为前提,突出图片理解、视觉理解、声纹视频理解及语音合成、情感分析等能力。 工作流引擎:传统Coze已具备可视化拖拽节点、复杂逻辑编排、支持判断循环并行执行等能力,节点内置字节120种预定义相关节点,可满足C端近十万并发调用及B端算力支撑,火山为B端提供范式化服务。 MCP技术突破:MCP协议落地前,曾推出RPA加Alengine产品,但因未解决大模型action能力问题搁置。随着MCP协议范式及标准协议落地,相关能力迁移到Coze,可覆盖文件系统、桌面应用程序、浏览器访问等,还能录制还原用户操作轨迹,突破沙箱控制命令调用。开发者生态:应用商店提供近800款AI应用,鼓励开发者创作,对插件进行利益分成(7:3分配,开发者七成)。目前已构建全面的开发者应用生态,覆盖工具、娱乐、咨询等领域,有几万个应用插件,国内接入近15万家开发者,企业可平台订阅。 3、商业化途径 开发者分成:开发者应用商店按30%抽成比例,通过广告、线上投流等帮开发者宣传插件,评分高的优先推广。 企业订阅:根据企业使用Coze的基础版或企业版,按月、季度或年收费。 私有化定制:为大型国企、央企及不具备A能力的互联网公司提供私有化定制服务,费用看项目满意度定制。 广告变现与云服务增值:广告变现为常见方式;云服务增值靠火山引擎提供算力租赁、购买算力一体机及云服务授权使用等付费服务。 4、MCP对Agent的作用及挑战 MCP对Agent的帮助:MCP协议能打通涉及多公司API能力,将复杂任务转化为可执行子任务,调度APP或浏览器获取数据,提高工作效率。虽各厂商都在做MCP,但存在生态壁垒,比拼背后资源及MCPserver插件丰富度。 当前面临的障碍:目前MCP处于半自动化状态,主要障碍包括模型理解能力不足,复杂任务拆解后子任务可能指代不明,浪费算力和数据存储;存在不确定性错误,如浏览器调用出现验证码、桌面应用程序不可用等情况难以解决;工具不健全,开发者插件垂直,缺乏泛化能力,难以做到通用。 5、多模态对AI的帮助 医疗行业应用:在医疗行业可分析医学影像CT,准确播报并给出诊断建议等。 AIGC与数字人领域应用:能对语音进行多种声音合成,在视频片段中替换语音包,应用于AIGC及数字人领域。 视频深度分析:可对视频进行深度分析,如通过实时观测教学视频,分析学生知识点掌握情 况及老师教学方式是否需要改进。 与Coze结合:多模态能力内测中,模型底层架构完善,语料训练成熟,发布时将与MCPserver部分能力结合,在Coze任务编排上实现多元素节点融合。 6、Coze空间竞争优势 内部整合优势:能深度整合自身产品能力,如抖音、TikTok、飞书、头条等内部数据互联互通,在内容生产和AI应用生态有天然C端流量入口优势 插件资源优势:插件资源质量和数量有优势,与竞品以第三方插件为主不同,有团队孵化插件,官方自身作为用户,努力使插件覆盖各行各业且深度更高。 算力优势:字节在算力上储备充足,火山引擎和火山方舟提供支持,拥有近33万张算力,数量超过百度、阿里、腾讯总和。 企业级服务优势:2023年3月起转向落地应用生态构建,汇聚大量B端核心用户,推广Coze时绑定飞书、豆包等提供一条龙服务,培养用户习惯。 全球化布局优势:海外IDC节点遍布全球,在东南亚、欧美建立大量算力中心和分布式数据中心,CC团队今年海外计划增加200—300人。 7、Coze及相关产品数据与发展预测 Coze数据:月活超700万,海外超250万,位列全球A1开发平台top5;注册开发者超15万家,企业开发者占比超40%,国内A1开发平台排名top2;日处理任务超1.5亿次,峰值并发每秒10万次。 发展预测:预计2025年底Coze团队突破800人,市场占有率提升,与B端企业深度绑定。按月增长30%预测,未来DAU可能突破200—300万,MAU突破1300—1500万,留存率可能逐步提高。 猫箱数据:截止2025年3月底,日活87万左右,高峰期92万,MAU在688—750万之间。2月后因受DeepSeek冲击,投流和产品迭代放缓,DAU有下滑趋势,主要用户为18—35岁女性,提供情绪价值和社交互动 豆包爱学数据:截止3月底,DAU175万,MAU720万左右,依赖豆包主APP流量导入及第三方能力集成,用户增长缓慢上升,家长端用户占比70%,核心功能为作业辅导等。 新汇集数据:团队从去年150人缩编到110人,C端用户增长遇瓶颈,产品发展路线迷茫。DAU不到70万,顶峰曾达95万,MAU在300万以内,产品定位尴尬,长时间未版本迭代。集梦数据:截止3月底,DAU突破190万,MAU高峰达900万,二月份因发布情感大模型等抢一波流量。预计四月份MAU突破千万,用户粘性每月增长25%—30%,付费用户超25万,转化率超20%,月均GMV约2000万。 8、硬件产品规划 玩具与手办:去年推出显眼包1.0毛绒玩具,今年Q3将量产包2.0及二次元动漫游戏IP加持的3D全息投影手办。毛绒玩具由润星科技孵化,手办由字节主导,与乐华、阅文、润星科技合作。 Al眼镜:今年春季原动力大会(预计延迟,原5月15号)官宣AI眼镜,为割版POC产品,重点为6—7月OlaFriend2.0耳机造势,可与耳机互联互通,集成同声传译、自动导航等多种A能力,与电商、大文娱等领域打通 耳机:6—7月发布OlaFriend2.0耳机,弥补1.0不足,提升降噪、音乐品质,丰富A应用和内容生态,与汽水音乐结合,打造一体化生态环境。字节可能涉足手表领域,但未立项。9、Tu产品情况 产品定位与功能:Tui是全方位coding平台,非单纯IDE或插件,可协管流程、进行代码开发各环节操作,实现一站式开发到上线流程。 与用户情况:核心团队40多人,产品不够成熟,浏览器集成和终端适配较差,发版频繁(每 周一小版,两周一大版)。七成内部用户,三成外部用户,覆盖各。Q&A Q:国内大厂推出的MCP对实际的Agent使用有什么样的帮助? A:目前语言模型只有生成式能力,没有action能力,大模型自身做不到action能力,但可通过变相方式调用相应的engine或framework执行。简单任务可借助Al深度检索拿外网数据或直接调API,复杂任务如规划行程,涉及多家公司能力,目前大模型只能思考应经过的环节,无法保证每个环节的执行。若定义好MCP协议并贯穿涉及公司相关API能力打通,虽部分公司可能不愿共享内部API,但可通过外部合作方式集成,如通过computervision或OCR方式操作桌面应用端。大模型将规划步骤转化为可执行子任务后,能调度APP或浏览器获取数据等,大大提高用户工作效率。用户自行操作应用程序需耗费大量时间,有了MCP的server及协议范式集成, 可缩减工作时间,让执行步骤更丝滑,达成预期目标。MCP是一种范式,按约定配置输入、输出等参数,就能按约定执行并获取预期数据。目前阿里、百度,腾讯等大厂都在做,不存在技术壁垒,存在生态壁垒,比拼的是背后资源和MCPserver相关插件的丰富度。现在MCP使用基本是半自动的,模型思考有缺陷,考虑不到未知错误,后续发展趋势好的话,应能全部由A自动完成思考过程,出现问题有解决方案并弥补错误以达成正确目标。 Q:目前处于半自动化状态的主要障碍是什么,是MCP的prompt描述不够清晰,还是模型本身深入理解能力不足? A:目前处于半自动化状态主要有三方面问题。一是模型理解方面,对于复杂任务,大模型能理解并遵循简单子任务指令,但遇到指代不明的任务,如未指明比价的电商平台,会触发打开所有相关电商网站,浪费算力和数据存储,且分析过程复杂,需要简化步骤和进行反复交互。二是存在不确定性,浏览调用浏览器相关能力有未知性错误,如频繁登录退出网站后被检测为机器人弹出验证码,或桌面应用程序文件夹被删除导致无法打开等情况,模型难以解决。三是工具不健全,开发者开发插件时只针对熟悉领域,缺乏泛化能力,适用人群少、通用性差,若要做到通用则需大量逻辑判断和定制开发,导致Agent不够智能和成熟。 多模态对A的实际帮助有哪些,目前与AI的结合情况及后续潜在途径如何? A:多模态主要以文本、图像和语音交互为主。在医疗行业,可用于分析医学影像CT,准确播报并给出处理和诊断建议;在语音合成方面,可对视频片段中多种角色的语音进行原数据提取和替换,应用于AIGC和数字人领域;在视频理解上,虽现有多模态模型能分析视频内容,但缺乏深层次分析,如通过实时视频流分析老师授课和学生掌握知识点情况等。目前多模态能力正在内测,模型底层架构已较完善,图片、语音、视频语料训练基本成熟。后续发布时会结合MCPserver部分能力,在Coze任务编排上可直接拖入图片、视频、声纹等元素,还能实现多节点融合。 Q:与其他平台(如Minlax)相比,Coze空间的差异和优势主要体现在哪些方面?未来产品能力迭代的重要升级方向是什么? A:与竞品的差异和优势主要体现在四大方面。一是插件生态,Coze能够深度整合自身产品能力,如抖音、TikTok、飞书、头条等内部数据互联互通,作为与微信比肩的庞大C端流量入口,具有天然优势;且有相关团队孵化插件,官方自身作为MCP用户,努力让插件覆盖各行各业且深度更高。二是多模态能力,最终体现为算力优势,字节的火山引擎和火山方舟算力储备充足,拥有近33万张算力卡,数量超过百度、阿里和腾讯的总和。三是企业级服务,从2023年3月开始全面转向落地应用生态构建,重点进行行业内垂直领域大模型的集成定制开发,已汇聚大量tob核心用户,覆盖央企国企、中大型互联网公司和小微企业等,推广Coze或其生态设备时会顺带推广飞书等办公自动化产品并绑定豆包,形成一条龙服务 体系。四是全球化布局,海外的IDC相关节点遍布全球,在东南亚和欧美建立了大量算力中心和分布式数据中心,今年海外CC团队还将增加200—300个新人才以壮大团队。关于未来产品能力迭代的重要升级方向,文本未提及。 Q:目前Coze的DAU以及未来产品成熟度下DAU/MAU可能的情况如何?对Coze用户留存的展望怎样? A:目前Coze在整个应用生态中的月活数据已超过700万,海外超过250万,位列全球A开发平台top5;注册开发者数量已突破15万家,企业开发者占比超过40%,在国内A1开发平台中占据top2;每天处理任务超过1.5亿次,并发峰值可达每秒10万次调度。随着Coze加大资源投入、资金扶持和研发团队壮大,预计2025年年底团队将突破近800人。按照月增长30%的比例预测,未来整体DAU可能突破200—300万,MAU可能突破1300—1500万。关于留存率问题,由于属于运营团队思考范畴,技术人员很难给出详细概述,但随着Coze用户增长和各方面发展,留存率可能会逐步提高。 Q:字节跳动的