手机Agent的两种范式:API与GUI 手机Agent,移动交互范式的跃迁。自触控屏幕开启移动互联网黄金时代以来,App被设计为一个个独立的孤岛,用户通过点击图标进入特定的应用环境,依靠视觉和手动点击来完成任务。随着应用数量的增长和功能的堆叠,用户在不同App间切换、寻找功能入口、手动搬运数据的成本显著上升。随着大模型的突破性进展,移动交互范式正处于跃迁的前夜:从GUI交互向Agentic交互演进。用户只需通过自然语言表达想做什么,手机Agent便负责将意图转化为具体的执行步骤并交付结果。如何在碎片化的移动生态中让AI跨越应用围墙执行任务,业界目前有两条不同的技术路线: 增持(维持) API范式:建立标准化的语义接口,App开发者主动适配并暴露相应功能。Agent通过结构化的API调用来指挥App执行任务,以苹果的AppleIntelligence及其App Intents框架为典型代表。 GUI范式:利用多模态模型看懂屏幕上的UI元素,利用系统辅助服务模拟手指的点击与滑动。这一路线不依赖开发者的配合,试图以通用的视觉能力“暴力”打通所有应用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一路线的先锋。 作者 分析师刘高畅执业证书编号:S0680518090001邮箱:liugaochang@gszq.com 核心差异对比,API Agent与GUI Agent各有千秋。对比了两种范式的技术路线差异,GUI Agent的核心优势在于通用性高,在可靠性、性能、隐私风险角度则是API Agent更胜一筹。1)通用性:GUI Agent的通用性显著更高,这是核心优势,不需要App开发者进行适配。理论上只要是人类能够使用的App,GUI-Agent都能使用。解决了应用覆盖率的问题,新功能或未暴露功能的适配度也更高。2)可靠性;GUIAgent的可靠性仍然 分析师李可夫执业证书编号:S0680525060001邮箱:likefu@gszq.com 相关研究 较低。原因包括模型对复杂界面的识别能力还达不到百分百;需要多步骤模拟用户操作,整体任务失败率更高;UI改版时容易失效。3)性能:APIAgent可以一次调用完成复杂任务,后端直接驱动执行效率高。GUIAgent性能较低,完成简单任务可能需要多次截图分析、视觉推理等复杂计算,算力消耗更大。截图上传到云端模型时,数据量通常高于API传输参数,延迟也更高。4)隐私风险:API-Agent的应用端后台可进行精细的数据和权限管理,权限边界清晰。GUI-Agent的隐私风险较高。它需要读取屏幕内容,容易暴露聊天记录、密码、验证码等敏感信息。除了技术问题,商业阻力上我们认为GUI Agent不经过授权,更容易受到应用厂商的抵触。 1、《计算机:AI投资继续加码》2025-11-082、《计算机:软件筹码与景气双见底》2025-11-013、《计算机:国产化景气继续加速》2025-10-26 商业形态演变:三方博弈与生态重构。手机Agent的兴起意味着移动互联网流量的重新洗牌,手机厂商、大模型厂商和应用厂商三方势力将展开复杂的博弈。手机厂商有望从硬件售卖进一步获取流量入口的价值,OS成为了用户意图的第一接收者。类似于搜索广告可能演变成一种新的竞价模式。大模型厂商的愿景是打造一个全能的App(如ChatGPT、豆包)。用户在这个App里通过对话完成所有需求。把将其他App变成自己的后端数据库和工具。大模型厂商会积极寻求与二线手机厂商合作。字节跳动与中兴的合作就是典型案例。应用厂商,一方面可能与手机/模型厂商合作,开放部分能力接口;另一方面,为保护自身利益,也可能拒绝或限制Agent的接入。Agent的授权边界是需要进一步划分的法律问题。App自身也在Agent化,例如微信最终会推出一个AI智能体,淘宝也在尝试通过“问问”等功能在App内实现自然语言导购。我们认为手机Agent的发展不会是API或GUI的单选题,对于高价值、涉及敏感数据的操作(如支付、通讯、核心业务流),APIAgent有更高的准确度和隐私保护。对于只读、信 息查询类的需求,以及API尚未覆盖的应用,GUI Agent通过视觉理解的方式运行可以更灵活通用。为了解决延迟和隐私问题,未来的手机处理器预计还将进一步优化视觉模型的推理能力,使GUI识别和决策在端侧完成,不再上传云端。。 建议关注 GUI Agent:字节跳动、谷歌、阿里巴巴、中兴通讯。 API Agent:腾讯控股、阿里巴巴、谷歌 算力:寒武纪、海光信息、东阳光、神州数码、新易盛、中际旭创、中芯国际、华虹半导体、胜宏科技、品高股份、鸿腾精密、有方科技、协创数据、沪电股份、兴森科技、中科曙光、浪潮信息、东山精密、云天励飞、伟仕佳杰、宏景科技、中芯国际、奥飞数据、云赛智联、科华数据、禾盛新材、潍柴重机、金山云、浙数文化、青云、大位科技、玉柴国际、亿田智能、弘信电子、圣阳股份、润泽科技、润建股份、深桑达、优刻得、云从科技、太极股份、数据港、首都在线。 Agent:谷歌、阿里巴巴、腾讯控股、阜博集团、广立微、第四范式、360、汇量科技、金蝶国际、拓尔思、合合信息、税友股份、新致软件、金桥信息、快手、美图公司、鼎捷数智、慧辰股份、嘉和美康、海天瑞声、泛微网络、朗新集团、润达医疗、壹网壹创、万兴科技、用友网络、麦迪科技、宇信科技、京北方、中科金财、致远互联、汉得信息、软通动力、光云科技、上海钢联、同花顺、信雅达、萤石网络、迪安诊断、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、科大讯飞、万兴科技、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、新大陆、新开普等。 自动驾驶:江淮汽车、赛力斯、小鹏汽车、理想汽车、禾赛、地平线、世运电路等。 军工AI:拓尔思、能科科技、普天科技、品高股份、海格通信、中科星图等。 风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 内容目录 手机Agent,移动交互范式的跃迁............................................................................................................4API范式剖析:构建标准化的语义桥梁................................................................................................5GUI范式剖析:视觉大模型驱动的模拟操作........................................................................................5核心差异对比,两种范式各有千秋............................................................................................................6商业形态演变:三方博弈与生态重构........................................................................................................7建议关注..............................................................................................................................................10风险提示..............................................................................................................................................10 图表目录 图表1:API agent和GUI agent的不同..................................................................................................4图表2:苹果的APP Intents开发者文档..................................................................................................5图表3:GUI范式的核心差异对比...........................................................................................................7图表4:淘宝“问问”功能.....................................................................................................................9 手机Agent,移动交互范式的跃迁 自触控屏幕开启移动互联网黄金时代以来,图形用户界面(GUI)一直是人机交互的绝对主导。在这一范式下,App被设计为一个个独立的孤岛,用户通过点击图标进入特定的应用环境,依靠视觉和手动点击来完成任务。这种以应用为中心的交互模式随着应用数量的增长和功能的堆叠,用户在不同App间切换、寻找功能入口、手动搬运数据的成本显著上升。随着大模型的突破性进展,移动交互范式正处于跃迁的前夜:从GUI交互向Agentic交互演进。用户只需通过自然语言表达想做什么,手机Agent便负责将意图转化为具体的执行步骤并交付结果。 如何在封闭且碎片化的移动操作系统中,让AI跨越应用围墙执行任务?业界逐渐分化出两条不同的技术路线: API范式:建立标准化的语义接口。操作系统或平台厂商定义一套通用的意图接口(如“订票”、“发送消息”),App开发者主动适配并暴露相应功能。Agent通过结构化的API调用来指挥App执行任务。这一路线以苹果的Apple Intelligence及其App Intents框架为典型代表,强调生态的有序整合与隐私安全。 GUI范式:模拟人类的感知与操作。利用多模态模型看懂屏幕上的UI元素,利用系统辅助服务模拟手指的点击与滑动。这一路线不依赖开发者的配合,试图以通用的视觉能力“暴力”打通所有应用。智谱AI的AutoGLM和字节跳动的豆包手机助手是这一路线的先锋。 资料来源:论文《API Agents vs. GUI Agents: Divergence and Convergence》,Chaoyun Zhang等,国盛证券研究所 API范式剖析:构建标准化的语义桥梁 苹果和谷歌等厂商试图在应用之上构建一层“语义互联网”,将App内的功能原子化,供AI调遣,这需要应用开发者配合接入。 苹果生态的Apple Intelligence与App Intents架构 苹果推出的Apple Intelligence其核心并非仅仅是一个更聪明的Siri,而是一套深度的系统级集成框架——App Intents((应用意图)。为了让Siri更好地理解开发者的应用并实现更流畅的对话式交互,开发者需要选择与应用功能相匹配的域和模式,开发者通过使应用意图、应用实体或应用枚举符合模式,确保AppleIntelligence能够理解应用的操作和内容。 资料来源:苹果官网,国盛证券研究所 API范式的挑战在于不同开发者对同一个功能的定义可能千差万别。为了解决这个问题,苹果提供了多个助手架构(Assistant Schema),每个架构都对应不