您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:兴证海外豆包手机专家会议纪要20251201 - 发现报告

兴证海外豆包手机专家会议纪要20251201

2025-12-01 未知机构 晓燚
报告封面

跨应用调用功能现状: 单应用调度(如明确指令下的机票预订)识别率较高,但跨应用复杂调度(如同时涉及飞书订票和请假)错误频率高于 50%,存在语义理解不精准、跨应用调度不精准、多应用调度时的页面视觉语言识别难点 跨应用调用的核心阻碍为模型能力不足,具体包括语义理解与识别不精准、跨应用调度不精准,以及多应用调度时的页 面视觉语言识别难度 模型能力与端云协同架构: 端侧模型参数规模约为130亿(13B),在降低算力消耗的同时维持性能 端侧负责快速响应、隐私相关及离线场景任务,包括语音识别与指令理解、简单问答、手机操作控制、文本创作与摘要、 日常提醒、照片整理等,确保数据不离开本地 云端负责需要强大通用知识、复杂逻辑推理及高计算能力的任务,包括复杂文生图/文生视频、多轮对话与知识问答、跨 应用操作,以及模型的优化和学习 文生图、文生视频等依赖云端的任务需端云协同,而简单语音识别、文本创作摘要、本地信息管理等为纯端侧任务 2.跨应用调用实现机制与生态合作 跨应用调用实现流程: 核心为意图框架(语义识别与意图理解)和跨应用精准识别调度,通过“分发器”模式将用户意图拆分为子任务,在多应 用中复制工作流执行并汇总结果(如电商比价场景) 采用高权限Agent模式,具备操作系统级的屏幕监控、视觉识别与模拟操作能力,区别于其他手机助手的基础调度 应用适配与生态合作: 应用界面变化时,可通过用户端视觉识别(算力消耗更高)或发版前预训练适配 主流应用厂商(打车、外卖、订票、信息查询、新闻资讯等)的常用权限已谈妥,但比价功能不调用应用价格系统(核 心资产),通过页面视觉识别实现 3.硬件需求与性能表现 硬件配置要求: 芯片性能需达到骁龙8至尊版水平,以保障稳定运行 内存消耗约为3GB,RAM和ROM占用较大 使用AI功能时,电量消耗比日常使用高8%-12% 性能优化方向: 端侧大模型延迟需低于100毫秒才能实现无感知流畅感,但目前高端机执行复杂任务时延迟仍较高,中端机型 长文本摘 要延迟达2-3秒 性能优化主要取决于NPU算力,高端机型NPU约为30 TOPS,中端机型仅8-10 TOPS 4.应用场景与用户体验 核心场景判断: 复杂跨应用调度是吸引高知用户的关键,而文本摘要、语音识别等基础功能可被其他AI工具替代 日常高频场景为简单任务(如天气查询、信息整理、提醒记录),但复杂场景(如跨应用操作)需优化自然语言识别(当 前依赖标准prompt模板,未适配日常自然语言表达) 用户体验瓶颈: ~獕亁b燺 80%的用户对现有AI手机智能助手不满意,主要问题为功能调用失败、意图理解错误 当前演示场景(如订票)较为生硬,用户实际更倾向于自主确认关键信息(如时间、区域) 5.合作模式与商业模式 手机厂商合作: 与中兴的合作模式类似赛力斯与华为,AI部分由豆包负责,硬件由努比亚制造,涉及利润分成 主流手机厂商(华为、荣耀、OV、小米)因自研生态完善,合作概率低;中兴、传音、魅族、联想等可能采用类似中 兴的合作模式 商业模式展望: 主要收入来源为技术授权费和AI服务订阅费,与手机厂商分成,暂不向用户收费 暂不考虑通过推荐算法向应用厂商收费(如优先打开特定APP),避免越权 6.未来发展趋势与战略规划 Q:豆包AI手机跨APP调用的难点是什么?未来能力提升的路径和时间节点如何? A:跨APP调用的核心难点在于模型能力,具体分为两点:一是语义理解与识别不够精准,二是跨应用调度时因语义理 解偏差导致调度不精准,且多应用调度需基于每个页面的视觉语言识别,这也是关键难点。目前全球在语义理解、视觉 语言识别领域尚未达到理想优化程度,各家厂商虽在发力但仍存在差距。 Q:豆包AI手机端侧与云端模型的参数规模、应用场景及流程架构是怎样的? A:端侧模型参数规模约为130亿(13B),该参数设置旨在平衡算力消耗与性能维持。 1. AI手机核心能力与技术瓶颈 跨应用调用功能现状: 单应用调度(如明确指令下的机票预订)识别率较高,但跨应用复杂调度(如同时涉及飞书订票和请假)错误频率高于 50%,存在语义理解不精准、跨应用调度不精准、多应用调度时的页面视觉语言识别难点 跨应用调用的核心阻碍为模型能力不足,具体包括语义理解与识别不精准、跨应用调度不精准,以及多应用调度时的页 面视觉语言识别难度 模型能力与端云协同架构: 端侧模型参数规模约为130亿(13B),在降低算力消耗的同时维持性能 端侧负责快速响应、隐私相关及离线场景任务,包括语音识别与指令理解、简单问答、手机操作控制、文本创作与摘要、 日常提醒、照片整理等,确保数据不离开本地 云端负责需要强大通用知识、复杂逻辑推理及高计算能力的任务,包括复杂文生图/文生视频、多轮对话与知识问答、跨 应用操作,以及模型的优化和学习 文生图、文生视频等依赖云端的任务需端云协同,而简单语音识别、文本创作摘要、本地信息管理等为纯端侧任务 2.跨应用调用实现机制与生态合作 跨应用调用实现流程: 核心为意图框架(语义识别与意图理解)和跨应用精准识别调度,通过“分发器”模式将用户意图拆分为子任务,在多应 用中复制工作流执行并汇总结果(如电商比价场景) 采用高权限Agent模式,具备操作系统级的屏幕监控、视觉识别与模拟操作能力,区别于其他手机助手的基础调度 应用适配与生态合作: 应用界面变化时,可通过用户端视觉识别(算力消耗更高)或发版前预训练适配 主流应用厂商(打车、外卖、订票、信息查询、新闻资讯等)的常用权限已谈妥,但比价功能不调用应用价格系统(核 心资产),通过页面视觉识别实现 意图框架、语音识别理解等无需与应用厂商谈判,需谈判的是避免机器操作被屏蔽(如验证码机制) 3.硬件需求与性能表现 硬件配置要求: 芯片性能需达到骁龙8至尊版水平,以保障稳定运行 内存消耗约为3GB,RAM和ROM占用较大 使用AI功能时,电量消耗比日常使用高8%-12% 性能优化方向: 端侧大模型延迟需低于100毫秒才能实现无感知流畅感,但目前高端机执行复杂任务时延迟仍较高,中端机型长文本摘 要延迟达2-3秒 性能优化主要取决于NPU算力,高端机型NPU约为30 TOPS,中端机型仅8-10 TOPS 4.应用场景与用户体验 核心场景判断: 复杂跨应用调度是吸引高知用户的关键,而文本摘要、语音识别等基础功能可被其他AI工具替代 日常高频场景为简单任务(如天气查询、信息整理、提醒记录),但复杂场景(如跨应用操作)需优化自然语言识别(当 前依赖标准prompt模板,未适配日常自然语言表达) 用户体验瓶颈: ~獕亁b燺 80%的用户对现有AI手机智能助手不满意,主要问题为功能调用失败、意图理解错误 当前演示场景(如订票)较为生硬,用户实际更倾向于自主确认关键信息(如时间、区域) 5.合作模式与商业模式 手机厂商合作: 与中兴的合作模式类似赛力斯与华为,AI部分由豆包负责,硬件由努比亚制造,涉及利润分成 主流手机厂商(华为、荣耀、OV、小米)因自研生态完善,合作概率低;中兴、传音、魅族、联想等可能采用类似中 兴的合作模式 商业模式展望: 主要收入来源为技术授权费和AI服务订阅费,与手机厂商分成,暂不向用户收费 暂不考虑通过推荐算法向应用厂商收费(如优先打开特定APP),避免越权 6.未来发展趋势与战略规划 Q:豆包AI手机跨APP调用的难点是什么?未来能力提升的路径和时间节点如何? A:跨APP调用的核心难点在于模型能力,具体分为两点:一是语义理解与识别不够精准,二是跨应用调度时因语义理 解偏差导致调度不精准,且多应用调度需基于每个页面的视觉语言识别,这也是关键难点。目前全球在语义理解、视觉 语言识别领域尚未达到理想优化程度,各家厂商虽在发力但仍存在差距。 Q:豆包AI手机端侧与云端模型的参数规模、应用场景及流程架构是怎样的? A:端侧模型参数规模约为130亿(13B),该参数设置旨在平衡算力消耗与性能维持。端侧主要负责快速响应、涉及 隐私及离线场景的任务,包括语音识别唤醒、简单问答、手机操作控制、文本创作与摘要、日常提醒、照片整理等,确 保数据不离开本地以保障隐私安全。云端则负责需要强大通用知识、复杂逻辑推理及高计算能力的场景,如复杂文生图 /文生视频、多轮对话与知识问答、跨应用操作,同时承担模型的优化与学习任务。此外,文生图、文生视频等依赖云端 的任务需端云协同完成,而简单语音识别、文本创作摘要、本地信息管理等为纯端侧任务。 Q:豆包AI手机跨APP调用的具体实现流程是什么?与其他手机助手的区别在哪里? A:跨APP调用的实现流程核心是意图框架与跨应用精准识别调度:首先识别用户意图,将任务拆分为子任务并分发至 对应应用(如比价场景下同步在淘宝、拼多多、京东等平台执行搜索、扫描界面找最低价的流程),最后汇总结果并执 行下单操作。与华为小艺、小爱同学等助手的区别在于,豆包AI手机采用高权限agent模式,具备操作系统级别的深 ~獕亁b燺 度调度能力,可监控屏幕、进行视觉识别并获取操作权限完成模拟操作,而其他助手多仅支持应用打开或基础信息搜取。 目前实测中,OPPO小布同学在AI助手协同方面表现较好,但在底层系统级深度调度上仍存在差距。 Q:当应用界面变化时(如淘宝退出栏位置移动),系统是通过重新训练还是视觉识别完成适配?A:应用界面变化时,若在发布后发生,系统可通过视觉识别完成适配,仅需消耗更多算力;若在发版前通过手机厂商 联盟提前预知,则会提前进行预训练。 Q:与主流应用厂商(如淘宝、美团)的合作关系如何?权限开放情况及后续合作计划是什么?A:目前主流应用厂商的常用权限已基本谈妥,覆盖打车、外卖、订票、信息查询、新闻资讯等场景;与手机厂商合作方面,华为、荣耀、OV等自研生态完善的厂商中,OV因自身大模型发展情况,后续可能以模型层合作为主(如模型打通、调用),应用层仍保留小布同学、蓝心小V;中兴、传音、魅族、联想则可能按中兴模式合作。对于应用厂商的 核心权限(如携程价格系统),系统通过视觉识图而非直接调用实现功能,避免触碰其核心资产;意图框架、语音识别 理解等能力无需与厂商洽谈,由AI自主学习完成。 Q:高权限Agent存在哪些安全与隐私挑战?如何应对? A:高权限Agent面临系统级权限操作的攻击风险及隐私挑战,其权限相当于“root以后的root”,存在极高权限风险。应 对措施包括:在涉及用户隐私或支付的关键操作步骤,将权限交还给用户手动处理,遵循权限最小化原则;通过技术保 障避免触碰用户隐私,但技术并非万能。 Q:系统功能实现方式(如后台完成操作)是如何实现的?是否需要虚拟机? A:系统功能实现基于系统定制,无需虚拟机;部分功能(如查询天气、整理文档)可在后台完成,用户直接查看结果; 操作演示类功能则展示页面。后台操作需拿到极高权限,类似双系统模式。 Q:端侧和云端在任务处理时调用哪些模型? A:系统未涉及具体模型名称,主要依赖模型能力:端侧以语义识别理解、文本内容提取摘要、信息整理为核心底层能 力。 Q: AI功能对手机硬件(芯片、内存、电量)的消耗情况如何? A:芯片方面,目前使用骁龙8至尊版可保障AI功能稳定运行,且优先搭载于高端机型以保证体验,中端机芯片性能不足会导致体验差;内存方面,AI功能消耗内存约3个GB,对RAM和ROM的占用较大;电量方面,使用AI时的电量消耗比日常使用高8%到12%,该数据经过测试验证。 Q: AI功能的芯片性能最低要求是什么? A:目前未测试其他芯片,均按最高标准(如骁龙8至尊版)开发,优先加载于高端机型,未下沉至中端机