您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Cantor Fitzgerald]:人工智能体时代的缩放定律、单位经济与竞争壁垒研究 - 发现报告

人工智能体时代的缩放定律、单位经济与竞争壁垒研究

AI智能总结
查看更多
人工智能体时代的缩放定律、单位经济与竞争壁垒研究

全球互联网 行业报告 股 票 研 究2025年3月24日 深入探讨人工智能代理时代的规模法则、单位经济与竞争护城河 研究分析师:Deepak Mathivanan415-869-2041Deepak.Mathivanan@cantor.com 关键要点:在过去的几个月里,AI代理在代理特定的基准测试(如GAIA)中取得了显著进展。构建模块(基础模型、工具集成、内部模块等)已经足够好,足以在高级日常任务中展示出高成功率。在本报告中,我们深入探讨了底层规模法则、代理与基础聊天助手当前的单位经济,并思考了未来2-3年内AI代理在消费者互联网应用中的潜在商业模式。 杰克·哈珀特212-428-5960Jack.Halpert@cantor.com 我们的结论是:1) 看起来存在已经确立的规模法则,为未来几年人工智能代理的能力发展指明了方向。 2) 由于短期内单位成本高昂和计算能力限制,主流部署可能还需要再花费6-12个月时间。 3) 市场推出速度、基础设施容量以及达到临界规模(扩展到超过1亿用户)很可能是构建人工智能代理长期竞争优势壁垒的主要因素。技术似乎已准备好深刻颠覆消费互联网,并且在未来6-12个月内应该会清晰表明这个时代的赢家和输家。 #1——人工智能代理的新缩放定律:类似于显示出缩放定律的大型语言模型(在预训练中计算T+1提升4倍,在测试时提升1.8倍)计算), 似乎在智能体能力方面存在粗略的规模法则。智能体在这些法则下在GAIA基准测试中表现出很好的增益(图2)METR的研展示AI代理能完成任务的时间大约每7个月翻倍(展品3)随着即将推出的10E26基础模型(GPT-5、Llama 4),我们相信AI代理应该在基准测试上取得进一步进展,并变得更擅长处理高级任务。 #2 – 1-3级代理与助手的单位经济:我们针对不同级别(盖亚级别1-3)的计算成本估算表明,代理所需的计算量相比基础聊天助手要高出15x-1000x。.将这转化为成本——一个AI代理在计算成本上完成1-3级任务的成本约为0.0 1至0.60美元(证据5)与基础人工智能助手查询的 1/10 美分相比。推理效率(每年减少 10 倍)应该在未来 2-3 年内显著降低这些成本,但高计算成本可能会在短期内限制人工智能主流部署用于高级用例。收入模式仍在变化中,但我们认为,鉴于单位成本高和用户效用水平不同,订阅计划 + 速率限制可能是近期的商业模式。 #3 – 什么是建立竞争优势的护城河:在我们看来,大规模的AI代理很可能会改变消费者访问互联网的方式。虽然OpenAI已经拥有庞大的AI用例安装基础(4亿WAUs),但DeepSeek、Grok和Manus(程度较轻)的最新成功表明,AI代理时代竞争格局仍然非常开放。此时,我们也看不到代理中存在强大的“网络效应”或“生态系统锁定”。考虑到这一动态,我们坚信市场速度、计算能力和临界规模(~10亿+用户)是决定AI代理时代长期竞争优势的关键因素。 AI代理时代曙光 自2022年末ChatGPT推出以来,AI应用——特别是助手和聊天机器人——在消费互联网中迅速普及。截至2024年初,已有几款AI应用有望在未来几年内达到10亿以上用户,包括MetaAI(META、OW)和ChatGPT(OpenAI、NC)。与此同时,GOOGL(N)的AI概览已被超过10亿以上用户在搜索中使用。在接下来的几个月里,我们认为AI助手可能会为AI代理铺平道路。随着技术能力现在变得足够好,消费者用例可能会从简单的聊天应用扩展到更复杂的代理任务。 在定义方面,我们将代理称为一个可以独立地代表用户执行任务的系统—— 这是OpenAI首席产品官凯文·韦尔在一次最近的发布活动中使用的一个简洁明了的定义。 图1下方展示了人工智能代理在各个模块方面的构建模块。从宏观上看,人工智能代理的技术栈包括:1)基础模型(GPT 4o、o3、Claude 3.7等),2)工具(网页搜索、文件搜索等),3)记忆(短期和长期),4)规划(推理、反思等)。一些多模型代理还包括其他形式输入和输出的功能。同样,代理开发者也可以建立边界限制。OpenAI最近的代理SDK为开发者提供了构建代理的功能。 展品1:它是如何运作的 - AI助手与代理 #1 – 人工智能代理的规模定律: 评估人工智能代理能力的基准仍在开发中。在我们看来,像MMLU这样的静态基准未能捕捉到代理的动态、实时、现实世界整合。因此,行业似乎越来越多地利用GAIA作为顶级基准之一来衡量人工智能代理的进展。GAIA基准根据复杂程度,衡量代理在完成1-3级分类任务中的成功程度。 在图2以下,我们展示了过去三年中各种代理和底层模型启动的GAIA基准分数(1-3级的简单平均值)。显然,似乎存在一个规模法则,表明随着更先进的模型和推理能力的提升,稳步进步。更重要的是,最近的进展显示了模型能力与规模之间呈幂律关系。提示创新和模型选择在与旧模型一起使用时似乎也能带来不错的收益。随着我们进入10E26计算模型时代,我们预计在未来12-18个月内,代理能力将进一步提升。 另一个有用学习最近由METR进行的一项关于规模定律的研究表明,随着新模型的推出和推理的进步,人工智能能够以50%的确定性完成的工作任务的长度(即人类完成这些任务所需的时间)每~7个月翻一番。(展品3)注意,METR的研究使用了RE-Bench和HCAST基准的组合,而我们的分析则不同图2基于GAIA基准。METR的计算表明,使用当前先进模型Claude 3.7 Sonnet构建的最新代理可以在50%的成功率下完成需要人类约1小时才能完成的任务。 主要结论是,似乎存在与 LLM 规模化规律相似/相关的 AI 代理规模化规律。当我们推断这一趋势时,我们预计在未来 12-24 个月内,随着 10E26 模型的发展,AI 代理将能执行越来越复杂的任务,并且在更复杂的任务中取得成功。 #2 – 人工智能代理的单位经济模型: 考虑到后期的高计算需求,当前AI代理的单位成本非常高——这有点像2022年AI聊天机器人/助手的单位成本状态。从宏观上看,AI代理的单位成本取决于三个因素: 基础LLM模型:代理依赖于基础LLM模型来处理标记和这些模型的架构。在训练期间部署MoE和混合精度以及推理期间使用MHA的模型需要更少的计算量,但精度可能低于预期。因此,一些AI代理使用巧妙的LLM模型路由技术来管理成本。 内存 / 规划:需要复杂规划和迭代的任务,例如GAIA下的2级和3级任务,由于推理过程中中间阶段的token生成而需要更高的计算能力。 工具使用:利用更多工具(网络搜索、文件爬取等)来获得答案会引入延迟和额外的计算成本。 尽管存在过度简化的风险,我们使用GAIA分类计算代理任务的单位成本。GAIA分类指出: • 等级1任务通常不需要工具(最多一个),并且少于5步即可完成任务。 • 等级2任务涉及5-10步,并利用多个工具和推理。 • 等级3任务是需要高级操作的,涉及>10步,并且需要几分钟才能完成。 请参见GAIA研究论文的第6页,以了解分解情况。 为了评估单位经济效益,我们总结了代理在GAIA每个等级下预期能够完成的任务的性质。每项任务的数量步骤、每步的令牌数以及工具调用次数因任务的复杂性而异,因此会影响每项操作的耗时和计算成本。我们对每项任务步骤数和每项任务工具数的假设基于所指示的值(图7和图8)在GAIA研究论文中。 在图4在下方,我们说明了对GAIA分类下AI代理任务的分类背后的假设。我们还用完成任务所需的总时间来反向检验每个任务所包含的token数的假设。 正如我们所示图4在上面,根据用例的最佳模型,在1级到3级分类下,完成一个Agent任务需要~15-900秒。 为了计算单位经济模型,我们接着将计算扩展到计算每个任务的单位成本展品5我们采用两种不同的方法——1)基于API提供者的每token成本,和2)构建代理在计算租赁服务(如Coreweave(私有)和Lamda(私有))上所花费的成本。目前GPT 4o和Claude 3.5/3.7的模型架构和规格有限。然而,我们认为这些目前并不是10E26模型(即总计算力为6*参数*训练token是10E26 FLOPS)。Anthropic最近已确认that claude 3.7 is not a 10e26 model. 诚然,这些计算包含了一些假设和概括。因此,我们使用两种不同的方法计算出每个任务的AI代理成本从~每任务1美分到平均62美分不等。最近,一个中文新闻来源注意Anthropic 向 Manus AI 每项任务平均收取约 2 美元——该平台也合作利用 AI 代理的高计算强度。为提供背景信息,Manus AI 在 GAIA 代理基准测试中处于领先地位。 脱离细节,主要结论是,与基础聊天应用程序相比,执行人工智能代理任务可能需要多15倍至1000倍的计算资源。举例来说,使用H100执行一项三级人工智能代理任务需要约0.1小时或6分钟的计算时间。尽管包括META在内的许多公司拥有数十万GPU,但要将能够执行需要一台H100花费6分钟才能完成的代理任务的高级人工智能代理扩展到1B+用户规模,可能需要1)通过推理层面的算法优势来降低单位成本,以及2)广泛的计算基础设施。 推理改进(每年10倍)应该使代理无处不在:好消息是,对于相似基准水平的推理成本,应该会随着算法的进步而持续下降。 2022年12月,山姆·奥特曼指出,ChatGPT每个查询的成本在每查询几美分。我们目前计算,基础助手每个查询的成本约为十分之一美分,表明在此期间改进了100多倍或每年约降低10倍。这符合经验研究表明推理成本每年下降约10倍。 如上图所示,一个3级代理的成本约为每项任务0.60美元,或使用6分钟的H100。假设推理成本的下降率与助手时代相似,那么类似的3级代理在12-18个月内可能低于1美分,并且每项H100计算时间使用的时长不到3秒——这种计算水平是几家大型消费者互联网公司用基础设施在两年内可以支持的。更重要的是,推理效率(目前GPU利用率低于20%)应该会进一步降低这些成本。 商业模式仍在变化——但订阅可能是近期收入模式:从收入角度来看,人工智能代理的业务模式仍在变化中。OpenAI等公司在率先推出消费者人工智能代理方面处于领先地位,他们已将人工智能代理与速率限制整合到当前的订阅计划中。与此同时,Manus AI等服务对消费者免费,但每个客户每天提供的任务非常有限(目前每天1-3个)。此外,GOOGL的Project Mariner自2024年12月宣布以来仍处于封闭测试阶段。META已指出,Llama 4模型可能具有较强的推理和代理能力。在创业生态系统中,目前市场上还有几种人工智能代理可供选择,但消费者采用有限。 在未来几年内,我们预计将出现几种针对AI Agent的营收模式。然而,考虑到单位成本高以及用户使用程度的不同,我们认为行业在短期内很可能主要采用订阅定价模式,并设置速率限制来变现Agent服务。随着时间的推移,广告/线索生成模式应该能带来互补的营收。例如,OpenAI的ChatGPT目前在其Plus套餐(每月20美元)下提供每个用户每月10个深度研究查询,而在Pro套餐(每月200美元)下提供每个用户每月120个深度研究查询。 #3 - 什么是建立竞争优势的护城河(市场速度、计算能力、临界规模): 在某种程度上,2025年初的智能体时代提醒我们,2022年末的ChatGPT时代已经到来。虽然OpenAI的ChatGPT和其他AI助手在AI助手时代取得了不错的成功,但 我们相信DeepSeek、Grok-3和Manus AI(规模较小)的最新成功表明,智能体时代的竞争格局仍然非常开放。 消费者在产品提供了更好的体验时,或许愿意探索人工智能产品的新突破。鉴于这种动态,我们坚定地认为,市场推出速度、计算能力和达到临界规模(1B+用户规模)是决