您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国泰君安证券]:传播文化行业:AI+Agent发展,关注游戏、营销、教育落地 - 发现报告

传播文化行业:AI+Agent发展,关注游戏、营销、教育落地

AI智能总结
查看更多
传播文化行业:AI+Agent发展,关注游戏、营销、教育落地

AI Agent的核心价值:不止于回答问题,更解决问题。当AI智能化水平比较低时,只能为人提供一些辅助建议,AI是嵌入在工作流程的某个环节中的;而发展到一定程度,AI能够胜任大多数的工作而不需要太多的人为介入,用户只需要设立目标、提供资源、监督结果即可,工作中“AI占比”大幅提升,即可以认为是一种智能体模式。如3月6日凌晨发布的Manus就是定位AI智能体,强调“解决问题”,Manus会自行分解任务、编写代码、云端执行,最后交付完整的结果,对比目前能力较强的LLM对话机器人工具来看,在非联网模式下,完全相同的prompt只能得到简单的信息整理结果。 AI Agent的核心环节:计划、记忆、工具调用。LLM在AI Agent中扮演了与用户交互的核心角色,也是AI Agent采取行动的大脑,而要能够作为智能体完成任务,在行动之前还需要几方面的要素协同,具体而言包括1)计划:事前拆分、规划和持续反馈、调整;2)外部工具:Agent的能力提升来自外部工具的调用。;3)记忆:是用于获取、存储以及取回信息的关键能力。 多智能体渐成主流,LLM推理能力与工具调用是关键。Agent的尝试先从单一智能体开始,旨在扩展大模型的能力范围,早在2023年就有此类产品推出,如ChatGPT的Plugins;而随着OpenAI o1借助思维链的方式提升推理能力,以及OpenAIResponses API、Claude MCP等工具的推出,Agent构建的便捷性提升,对于Agent发展有积极意义。 以Manus的推出为标志,各类AI智能体(AI Agent)发展有望迎来加速,关注游戏、电商、营销、教育场景落地。不同于传统AI工具,AI智能体强调对环境感知、工具调用和问题解决,因此对应更加复杂和多元化的需求场景。在此背景下,我们认为游戏、电商、营销、教育场景有望落地。1)游戏:借助AI智能体,游戏角色可以应对的场景更加复杂,如AI队友、AI智能体模拟等或可带来新的游戏体验,推荐恺英网络、姚记科技,受益标的巨人网络、完美世界。2)电商营销,AI智能体或改变用户的购买决策路径、提升公司的营销工作效率,从而促进行业发展,推荐值得买、美登科技,受益标的因赛集团、迈富时。3)教育:AI智能体可帮助教师提升教学效率,生成更加具备交互性的教学内容,受益标的南方传媒、皖新传媒、世纪天鸿。 风险提示:AI智能体发展不及预期,相关产品落地效果不及预期,行业竞争格局变化。 1.投资建议 以Manus的推出为标志,各类AI智能体(AI Agent)发展有望迎来加速,不同于传统AI工具,AI智能体强调对环境感知、工具调用和问题解决,因此对应更加复杂和多元化的需求场景。在此背景下,我们认为游戏、电商、营销、教育场景有望落地。 1)游戏:借助AI智能体,游戏角色可以应对的场景更加复杂,如AI队友、AI智能体模拟等或可带来新的游戏体验,推荐恺英网络、姚记科技,受益标的巨人网络、完美世界。 2)电商营销,AI智能体或改变用户的购买决策路径、提升公司营销工作效率,推荐值得买、美登科技,受益标的因赛集团、迈富时。 3)教育:AI智能体可帮助教师提升教学效率,生成更加具备交互性的教学内容,受益标的南方传媒、皖新传媒、世纪天鸿。 表1:请输入表标题 2.AIAgent的核心价值:不止于回答问题,更解决问题 AI和人协同中“AI占比”逐步提升,合作模式会逐步由嵌入合作变为智能体模式。在早期阶段,AI智能化水平比较低,也并不能很好的领会用户意图,这种情况下需要用户使用prompt去指示其完成每一个单一目标,只能为人提供一些辅助建议,AI是嵌入(embedding)在人的的工作流程中某个环节的;而随着AI水平提升,AI可以参与的环节越来越多,甚至可以相对独立完成部分子任务,由用户修改调整后采用,这种便是进入协同(copilot)模式;而发展到一定程度,AI能够胜任大多数的工作而不需要太多的人为介入,用户只需要设立目标、提供资源、监督结果即可,工作中“AI占比”大幅提升,即可以认为是一种智能体(Agent)模式。 图1:人类与AI协同的三种模式 2024年7月,OpenAI划分了AI的五个等级,分别是聊天机器人、推理者、代理、创新者和组织,当时自身定位是在“Level 2推理者”,2025年初定位为Agent的产品Operator发布,也让创始人奥特曼宣布进入“Level 3”。 表2:OpenAI定义的AI的五个等级 以Manus为例,AI智能体更强调“解决问题”的能力。比较典型的传统AI工具如以对话机器人(Chatbot)的模式进行交互的LLM产品,大多基于用户的指令出发,进行单次的“请求-响应”工作,内容也只是根据用户提供的信息(包括网络信息)进行分析推演,从而反馈答案,是为“解答问题”。 对比来看,3月6日凌晨发布的Manus就是定位AI智能体,强调“解决问题”,官方演示的案例中,包括研究、生活、数据分析、教育、生产力等多个场景,而该过程只借助了一句话的prompt即自动化完成,如提出要求“找到20家CRM公司并收集他们的公司标语与品牌故事”,Manus就会自行分解任务、编写代码、云端执行,其中涉及多次的“执行-反馈-继续”的过程,最后交付完整的word版报告,对比目前能力较强的LLM对话机器人工具来看,在非联网模式下,完全相同的prompt只能得到简单的信息整理结果。 表3:AI智能体对比传统AI工具有所提升 图2:Manus等AI智能体产品通过分析和调用工具,图3:非联网模式下,传统LLM对话机器人只能得到最终输出结果文档简单的信息整合 3.推理与调用能力进步,“多代理智能体”有望加速 3.1.AI Agent的核心环节:计划、记忆、工具调用 计划、记忆、工具是AI智能体必备的组成部分。根据Lilian Weng(前任OpenAI研究和安全副总裁)的观点,LLM在AI Agent中扮演了与用户交互的核心角色,也是AI Agent采取行动的大脑,而要能够作为智能体完成任务,在行动(action)之前还需要几方面的要素协同,具体而言包括计划、记忆、工具。 图4:AI Agent包括四个核心组成 1)计划:事前拆分、规划和持续反馈、调整。不同于普通AI工具处理的任务一般相对简单,AI Agent需要处理的任务可能是需要多个步骤完成的,因此LLM需要先将整个任务拆分成更小的、可管理的子目标,同时还需要在整个过程中反馈、反思,从而调整自己的目标和行动。如在Manus处理的“搜集20个CRM公司的标语和品牌故事”任务中,大模型首先将这个任务拆分成了多个子步骤,如创建跟踪文档、搜索和确定20家公司、对每个公司进行细节研究、整合信息、回顾和完善文档,最后才提交文档给用户。 图5:Manus将一项任务拆分成多个,并逐个执行 2)外部工具:Agent的能力提升来自外部工具的调用。在规划完工作后,Agent需要借助外部工具来获取信息、输入信息、处理信息,这一过程常常通过API协议调用的方式进行。如Manus在执行报告写作的任务过程中,也是先用搜索功能定位有效信息来源,然后采用浏览器功能进行读取,并用编辑器以md的格式进行指令和内容的撰写。 图6:Manus在完成任务过程中用到了多个工具 3)记忆是用于获取、存储以及取回信息的关键能力。对标人类的记忆分类,包括感觉记忆、短期记忆、长期记忆,AI在工作中对应的也需要这方面的能力,如内嵌在模型中的数据、基于用户提供的上下文数据、随时可以访问的外部向量数据库,特别是外部数据是AI Agent任务完成的重要部分。 表4:AI也需要不同类型的信息记忆 3.2.多智能体渐成主流,LLM推理能力与工具调用是关键 Agent的尝试先从单一智能体开始,旨在扩展大模型的能力范围。单一智能体(Single Agent)中,LLM通过调用单一工具,实现某一方面能力的提升,取决于工具的能力范围。如2023年初的HuggingGPT产品中,就使用ChatGPT作为任务规划者的角色,从HuggingFace平台的大量模型中挑选合适的模型,从而实现对图片的理解,虽然ChatGPT自身并没有多模态能力,但通过外部其他工具的辅助,也具备了解决任务的能力。 图7:HuggingGPT中LLM调用HuggingFace的模型能力回应用户需求 各个AI对话机器人产品也大多推出了Agent产品,允许用户调用和设计自己的智能体。如OpenAI早在2023年3月就推出plugins功能,通过API调用外部合作方的能力,如数据处理软件Wolfram、旅行软件Expedia、金融信息的FiscalNote等,用户可以使用ChatGPT的场景得以极大扩展。这一思路在多数AI Chatbot产品上都有设计,从而扩充其能力范围,如Kimi+、百度的文心智能体AgentBuilder、Coze等。 图8:ChatGPT早在2023年3月上线Plugins功能 图9:Coze提供各种plugins共用户使用 OpenAIo1为代表的推理模型,让LLM的计划能力水平提升显著。OpenAI在2024年9月12日发布的o1系列人工智能模型,其具备“推理”能力,在复杂推理任务方面表现出色,在数学、代码、博士级别的科学问题上得分显著高于gpt4o;相比其他生成式AI模型,o1具备“思维链”,能够从整体进行任务推理,提前规划并执行一系列步骤以寻求答案,o1还能够通过强化学习优化解决问题的方法,这使得OpenAI o1能够规避许多生成式AI模型具备的推理陷阱,提高模型准确性。 图10:o1模型相比gpt4o在逻辑性上显著提升 图11:对比GPT-4o,OpenAI o1采用了思维链的方式 外部工具协同是智能体构建的另一个要素。相比单一智能体(Single Agent),多智能体(Multi-Agent)需要接入多个外部工具或资源,此时信息的传递和不同主体的连接格外重要。 Responses API等工具提升OpenAI生态内智能体开发的便利性。2025年3月OpenAI发布的一系列新工具,可以让开发者通过API构建智能体,其中Responses API是对之前的Chat Completions API的升级,使其获得了Assistants API般使用工具的能力,从而可以帮助开发者构建智能体,其中已经内置了网络搜索、文件搜索和计算机使用(computer use)能力,网络搜索方面,经过微调的GPT-4o和GPT-4o mini在Simple QA测试中分别得到90%和88%的分数;计算机使用功能则配备了专门的计算机使用模型(CUA),其在OSWorld、WebArena、WebVoyager等测试中不低于之前SOTA。 图12:网络搜索方面,经微调GPT-4o和GPT-4o mini在测试中获得高分 图13:计算机使用在多个benchmark得分不低于之前的SOTA “AI应用的Type-C”:MCP帮助AI模型方便的处理信息、调用工具。MCP即模型上下文协议(Model Context Protocol),是Anthropic Claude于2024年11月推出的开源开放协议,旨在建立AI模型和开发环境之间的统一上下文交互,通过提供标准化的上下文信息访问,使AI模型能够更好地理解和处理代码,就像给它们之间搭建一座桥梁,使得开发者可以通过一套标准将AI应用和数据源连接起来。MCP采用客户端-服务器架构,多个服务可以连接到任何兼容的客户端,客户端可以是Claude Desktop、IDE或其他AI工具,服务器则充当适配器,暴露数据源,不管是访问本地资源(数据库、文件、服务),还是访问远程资源(如GitHub API),都能用同一个协议。 图14:MCP的客户端-服务器架构 如借助MCP,3D建模软件Blender与Claude打通实现一键建模,用户可以通过一次提示词,要求Claude自动打开Blender将2D图片转换为3D建模,大大扩展