行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

兴证海外豆包手机专家会议纪要20251201

2025-12-01 未知机构晓燚

AI 手机核心能力与技术瓶颈
- 跨应用调用功能现状：单应用调度识别率高，但跨应用复杂调度错误率超50%，主要难点为语义理解不精准、跨应用调度不精准及多应用调度时的页面视觉语言识别难度。
- 模型能力与端云协同架构：端侧模型参数规模约130亿（13B），兼顾算力消耗与性能；端侧负责快速响应、隐私及离线任务（如语音识别、简单问答、手机操作控制等），云端负责复杂逻辑推理及高计算任务（如文生图/视频、多轮对话等），文生图/视频等任务需端云协同。
跨应用调用实现机制与生态合作
- 跨应用调用实现流程：核心为意图框架和跨应用精准识别调度，通过“分发器”模式拆分用户意图为子任务，在多应用中执行并汇总结果；采用高权限Agent模式，具备操作系统级屏幕监控、视觉识别与模拟操作能力。
- 应用适配与生态合作：主流应用厂商常用权限已谈妥，比价功能通过页面视觉识别实现；意图框架、语音识别等无需谈判，需谈判避免机器操作被屏蔽（如验证码机制）。
硬件需求与性能表现
- 硬件配置要求：芯片需骁龙8至尊版水平，内存消耗约3GB，使用AI时电量消耗高8%-12%。
- 性能优化方向：端侧大模型延迟需低于100毫秒，但目前高端机执行复杂任务延迟仍较高（中端机型长文本摘要延迟2-3秒），主要取决于NPU算力（高端机30 TOPS，中端机8-10 TOPS）。
应用场景与用户体验
- 核心场景判断：复杂跨应用调度吸引高知用户，基础功能可被其他AI工具替代；日常高频场景为简单任务，复杂场景需优化自然语言识别。
- 用户体验瓶颈：80%用户对现有AI手机智能助手不满意，主要问题为功能调用失败、意图理解错误；当前演示场景生硬，用户倾向于自主确认关键信息。
合作模式与商业模式
- 手机厂商合作：与中兴合作模式类似赛力斯与华为，豆包负责AI技术，努比亚制造硬件，涉及利润分成；主流手机厂商合作概率低，中兴、传音等可能采用类似模式。
- 商业模式展望：主要收入来源为技术授权费和AI服务订阅费，与手机厂商分成，暂不向用户收费，不考虑通过推荐算法向应用厂商收费。
未来发展趋势与战略规划
- 跨应用调用难点与提升路径：核心难点为模型能力（语义理解、跨应用调度、视觉语言识别），未来能力提升路径包括持续优化模型，预计需时间沉淀。
- 端侧与云端模型架构：端侧模型参数规模13B，负责快速响应及离线任务；云端负责复杂逻辑推理及模型优化，文生图/视频等任务需端云协同。
- 实现流程与区别：跨应用调用通过意图框架和跨应用精准调度实现，高权限Agent模式区别于其他助手的基础调度。
- 应用界面变化适配：可通过用户端视觉识别或发版前预训练适配。
- 与主流应用厂商合作：常用权限已谈妥，核心权限通过视觉识别实现，避免触碰核心资产。
- 安全与隐私挑战：高权限Agent面临系统级权限操作风险，需遵循权限最小化原则，将关键操作交还给用户。
- 系统功能实现：基于系统定制，无需虚拟机，部分功能可在后台完成。
- 模型调用：端侧以语义识别、文本提取、信息整理为核心，云端负责复杂任务。
- 硬件消耗：芯片需骁龙8至尊版，内存消耗约3GB，电量消耗高8%-12%。
- 未来优化方向：AI任务处理速度将优化，理想延迟低于100毫秒；NPU算力需提升至80-100 TOPS。
- 用户场景与体验：复杂场景吸引高知用户，简单场景易高频使用，但整体场景成熟度需提升。
- 自然语言识别提升：需通过大量语料训练，豆包优势在于用户习惯数据积累。
- 抖音生态结合：主要体现在无权限瓶颈调用字节系产品，但抖音用户增长已达瓶颈，无法带动销量或推广。
- 合作与商业模式：与中兴合作涉及利润分成，未来收入模式主要为技术授权费和订阅服务费。
- 硬件需求提升：核心提升为芯片算力和高带宽内存。
- 国内AI手机趋势：从云端向端侧布局，功能向Agent进化，生态合作深化；与苹果方案差异在于自主布局端侧模型。
- 与互联网应用厂商合作：不会通过推荐特定应用收费，避免越权。
- 未来收入模式：主要向手机厂商收费，行业整体仍在探索阶段。
- 模型能力提升重点：参数量、幻觉率、Agent能力同步提升，语音识别优先级高，多模态识图能力需同步提升。
- 未来发布计划：AI手机预计明年Q2中晚期量产，AI模型持续优化。
- 端侧硬件布局：除手机外，布局AR眼镜和耳机，眼镜暂未发布。
- AI手机发展看法：有期待但非坦途，产品优化和商业模式仍需验证，当前热度主要因字节推动。
- 记忆功能：仅能在一定时间范围内实现上下文理解，记忆数据存储在手机内存中。

跨应用调用功能现状：单应用调度（如明确指令下的机票预订）识别率较高，但跨应用复杂调度（如同时涉及飞书订票和请假）错误频率高于 50%，存在语义理解不精准、跨应用调度不精准、多应用调度时的页面视觉语言识别难点跨应用调用的核心阻碍为模型能力不足，具体包括语义理解与识别不精准、跨应用调度不精准，以及多应用调度时的页面视觉语言识别难度模型能力与端云协同架构：端侧模型参数规模约为130亿（13B），在降低算力消耗的同时维持性能端侧负责快速响应、隐私相关及离线场景任务，包括语音识别与指令理解、简单问答、手机操作控制、文本创作与摘要、日常提醒、照片整理等，确保数据不离开本地云端负责需要强大通用知识、复杂逻辑推理及高计算能力的任务，包括复杂文生图/文生视频、多轮对话与知识问答、跨应用操作，以及模型的优化和学习文生图、文生视频等依赖云端的任务需端云协同，而简单语音识别、文本创作摘要、本地信息管理等为纯端侧任务 2.跨应用调用实现机制与生态合作跨应用调用实现流程：核心为意图框架（语义识别与意图理解）和跨应用精准识别调度，通过“分发器”模式将用户意图拆分为子任务，在多应用中复制工作流执行并汇总结果（如电商比价场景）采用高权限Agent模式，具备操作系统级的屏幕监控、视觉识别与模拟操作能力，区别于其他手机助手的基础调度应用适配与生态合作：应用界面变化时，可通过用户端视觉识别（算力消耗更高）或发版前预训练适配主流应用厂商（打车、外卖、订票、信息查询、新闻资讯等）的常用权限已谈妥，但比价功能不调用应用价格系统（核心资产），通过页面视觉识别实现 3.硬件需求与性能表现硬件配置要求：芯片性能需达到骁龙8至尊版水平，以保障稳定运行内存消耗约为3GB，RAM和ROM占用较大使用AI功能时，电量消耗比日常使用高8%-12% 性能优化方向：端侧大模型延迟需低于100毫秒才能实现无感知流畅感，但目前高端机执行复杂任务时延迟仍较高，中端机型长文本摘要延迟达2-3秒性能优化主要取决于NPU算力，高端机型NPU约为30 TOPS，中端机型仅8-10 TOPS 4.应用场景与用户体验核心场景判断：复杂跨应用调度是吸引高知用户的关键，而文本摘要、语音识别等基础功能可被其他AI工具替代日常高频场景为简单任务（如天气查询、信息整理、提醒记录），但复杂场景（如跨应用操作）需优化自然语言识别（当前依赖标准prompt模板，未适配日常自然语言表达）用户体验瓶颈： ~獕亁b燺 80%的用户对现有AI手机智能助手不满意，主要问题为功能调用失败、意图理解错误当前演示场景（如订票）较为生硬，用户实际更倾向于自主确认关键信息（如时间、区域） 5.合作模式与商业模式手机厂商合作：与中兴的合作模式类似赛力斯与华为，AI部分由豆包负责，硬件由努比亚制造，涉及利润分成主流手机厂商（华为、荣耀、OV、小米）因自研生态完善，合作概率低；中兴、传音、魅族、联想等可能采用类似中兴的合作模式商业模式展望：主要收入来源为技术授权费和AI服务订阅费，与手机厂商分成，暂不向用户收费暂不考虑通过推荐算法向应用厂商收费（如优先打开特定APP），避免越权 6.未来发展趋势与战略规划 Q:豆包AI手机跨APP调用的难点是什么？未来能力提升的路径和时间节点如何？ A:跨APP调用的核心难点在于模型能力，具体分为两点：一是语义理解与识别不够精准，二是跨应用调度时因语义理解偏差导致调度不精准，且多应用调度需基于每个页面的视觉语言识别，这也是关键难点。目前全球在语义理解、视觉语言识别领域尚未达到理想优化程度，各家厂商虽在发力但仍存在差距。 Q:豆包AI手机端侧与云端模型的参数规模、应用场景及流程架构是怎样的？ A:端侧模型参数规模约为130亿（13B），该参数设置旨在平衡算力消耗与性能维持。 1. AI手机核心能力与技术瓶颈跨应用调用功能现状：单应用调度（如明确指令下的机票预订）识别率较高，但跨应用复杂调度（如同时涉及飞书订票和请假）错误频率高于 50%，存在语义理解不精准、跨应用调度不精准、多应用调度时的页面视觉语言识别难点跨应用调用的核心阻碍为模型能力不足，具体包括语义理解与识别不精准、跨应用调度不精准，以及多应用调度时的页面视觉语言识别难度模型能力与端云协同架构：端侧模型参数规模约为130亿（13B），在降低算力消耗的同时维持性能端侧负责快速响应、隐私相关及离线场景任务，包括语音识别与指令理解、简单问答、手机操作控制、文本创作与摘要、日常提醒、照片整理等，确保数据不离开本地云端负责需要强大通用知识、复杂逻辑推理及高计算能力的任务，包括复杂文生图/文生视频、多轮对话与知识问答、跨应用操作，以及模型的优化和学习文生图、文生视频等依赖云端的任务需端云协同，而简单语音识别、文本创作摘要、本地信息管理等为纯端侧任务 2.跨应用调用实现机制与生态合作跨应用调用实现流程：核心为意图框架（语义识别与意图理解）和跨应用精准识别调度，通过“分发器”模式将用户意图拆分为子任务，在多应用中复制工作流执行并汇总结果（如电商比价场景）采用高权限Agent模式，具备操作系统级的屏幕监控、视觉识别与模拟操作能力，区别于其他手机助手的基础调度应用适配与生态合作：应用界面变化时，可通过用户端视觉识别（算力消耗更高）或发版前预训练适配主流应用厂商（打车、外卖、订票、信息查询、新闻资讯等）的常用权限已谈妥，但比价功能不调用应用价格系统（核心资产），通过页面视觉识别实现意图框架、语音识别理解等无需与应用厂商谈判，需谈判的是避免机器操作被屏蔽（如验证码机制） 3.硬件需求与性能表现硬件配置要求：芯片性能需达到骁龙8至尊版水平，以保障稳定运行内存消耗约为3GB，RAM和ROM占用较大使用AI功能时，电量消耗比日常使用高8%-12% 性能优化方向：端侧大模型延迟需低于100毫秒才能实现无感知流畅感，但目前高端机执行复杂任务时延迟仍较高，中端机型长文本摘要延迟达2-3秒性能优化主要取决于NPU算力，高端机型NPU约为30 TOPS，中端机型仅8-10 TOPS 4.应用场景与用户体验核心场景判断：复杂跨应用调度是吸引高知用户的关键，而文本摘要、语音识别等基础功能可被其他AI工具替代日常高频场景为简单任务（如天气查询、信息整理、提醒记录），但复杂场景（如跨应用操作）需优化自然语言识别（当前依赖标准prompt模板，未适配日常自然语言表达）用户体验瓶颈： ~獕亁b燺 80%的用户对现有AI手机智能助手不满意，主要问题为功能调用失败、意图理解错误当前演示场景（如订票）较为生硬，用户实际更倾向于自主确认关键信息（如时间、区域） 5.合作模式与商业模式手机厂商合作：与中兴的合作模式类似赛力斯与华为，AI部分由豆包负责，硬件由努比亚制造，涉及利润分成主流手机厂商（华为、荣耀、OV、小米）因自研生态完善，合作概率低；中兴、传音、魅族、联想等可能采用类似中兴的合作模式商业模式展望：主要收入来源为技术授权费和AI服务订阅费，与手机厂商分成，暂不向用户收费暂不考虑通过推荐算法向应用厂商收费（如优先打开特定APP），避免越权 6.未来发展趋势与战略规划 Q:豆包AI手机跨APP调用的难点是什么？未来能力提升的路径和时间节点如何？ A:跨APP调用的核心难点在于模型能力，具体分为两点：一是语义理解与识别不够精准，二是跨应用调度时因语义理解偏差导致调度不精准，且多应用调度需基于每个页面的视觉语言识别，这也是关键难点。目前全球在语义理解、视觉语言识别领域尚未达到理想优化程度，各家厂商虽在发力但仍存在差距。 Q:豆包AI手机端侧与云端模型的参数规模、应用场景及流程架构是怎样的？ A:端侧模型参数规模约为130亿（13B），该参数设置旨在平衡算力消耗与性能维持。端侧主要负责快速响应、涉及隐私及离线场景的任务，包括语音识别唤醒、简单问答、手机操作控制、文本创作与摘要、日常提醒、照片整理等，确保数据不离开本地以保障隐私安全。云端则负责需要强大通用知识、复杂逻辑推理及高计算能力的场景，如复杂文生图 /文生视频、多轮对话与知识问答、跨应用操作，同时承担模型的优化与学习任务。此外，文生图、文生视频等依赖云端的任务需端云协同完成，而简单语音识别、文本创作摘要、本地信息管理等为纯端侧任务。 Q:豆包AI手机跨APP调用的具体实现流程是什么？与其他手机助手的区别在哪里？ A:跨APP调用的实现流程核心是意图框架与跨应用精准识别调度：首先识别用户意图，将任务拆分为子任务并分发至对应应用（如比价场景下同步在淘宝、拼多多、京东等平台执行搜索、扫描界面找最低价的流程），最后汇总结果并执行下单操作。与华为小艺、小爱同学等助手的区别在于，豆包AI手机采用高权限agent模式，具备操作系统级别的深 ~獕亁b燺度调度能力，可监控屏幕、进行视觉识别并获取操作权限完成模拟操作，而其他助手多仅支持应用打开或基础信息搜取。目前实测中，OPPO小布同学在AI助手协同方面表现较好，但在底层系统级深度调度上仍存在差距。 Q:当应用界面变化时（如淘宝退出栏位置移动），系统是通过重新训练还是视觉识别完成适配？A:应用界面变化时，若在发布后发生，系统可通过视觉识别完成适配，仅需消耗更多算力；若在发版前通过手机厂商联盟提前预知，则会提前进行预训练。 Q:与主流应用厂商（如淘宝、美团）的合作关系如何？权限开放情况及后续合作计划是什么？A:目前主流应用厂商的常用权限已基本谈妥，覆盖打车、外卖、订票、信息查询、新闻资讯等场景；与手机厂商合作方面，华为、荣耀、OV等自研生态完善的厂商中，OV因自身大模型发展情况，后续可能以模型层合作为主（如模型打通、调用），应用层仍保留小布同学、蓝心小V；中兴、传音、魅族、联想则可能按中兴模式合作。对于应用厂商的核心权限（如携程价格系统），系统通过视觉识图而非直接调用实现功能，避免触碰其核心资产；意图框架、语音识别理解等能力无需与厂商洽谈，由AI自主学习完成。 Q:高权限Agent存在哪些安全与隐私挑战？如何应对？ A:高权限Agent面临系统级权限操作的攻击风险及隐私挑战，其权限相当于“root以后的root”，存在极高权限风险。应对措施包括：在涉及用户隐私或支付的关键操作步骤，将权限交还给用户手动处理，遵循权限最小化原则；通过技术保障避免触碰用户隐私，但技术并非万能。 Q:系统功能实现方式（如后台完成操作）是如何实现的？是否需要虚拟机？ A:系统功能实现基于系统定制，无需虚拟机；部分功能（如查询天气、整理文档）可在后台完成，用户直接查看结果；操作演示类功能则展示页面。后台操作需拿到极高权限，类似双系统模式。 Q:端侧和云端在任务处理时调用哪些模型？ A:系统未涉及具体模型名称，主要依赖模型能力：端侧以语义识别理解、文本内容提取摘要、信息整理为核心底层能力。 Q: AI功能对手机硬件（芯片、内存、电量）的消耗情况如何？ A:芯片方面，目前使用骁龙8至尊版可保障AI功能稳定运行，且优先搭载于高端机型以保证体验，中端机芯片性能不足会导致体验差；内存方面，AI功能消耗内存约3个GB，对RAM和ROM的占用较大；电量方面，使用AI时的电量消耗比日常使用高8%到12%，该数据经过测试验证。 Q: AI功能的芯片性能最低要求是什么？ A:目前未测试其他芯片，均按最高标准（如骁龙8至尊版）开发，优先加载于高端机型，未下沉至中端机

点击免费查看完整报告

兴证海外豆包手机专家会议纪要20251201

你可能感兴趣

豆包手机助手深度拆解20251201

从豆包手机助手看端侧AI行情20251201

兴证：有色-碳酸锂专家电话会议纪要-行业见底信号明确，供需反转预计2020年底20191122

【兴证海外汽车】蔚来汽车2022Q3业绩会议纪要
null未知机构2022-11-10

海外周观点：遇见小面成功IPO，豆包手机助手上线

兴证通信军备竞赛吹响国产算力加仓号角字节豆包MAU迅速超过竞

无线充电专家观点-东吴证券“消费升级+创新周期”手机供应链高峰论坛会议纪要20170608

手机结合生成式AI前景展望、行业影响及手机品牌应对策略专家电话会议纪要–20230331

摄像头及虹膜/3D SENSE等光学组件专家观点-东吴证券“消费升级+创新周期”手机供应链高峰论坛会议纪要20170608

陶瓷后盖专家观点-东吴证券“消费升级+创新周期”手机供应链高峰论坛会议纪要20170608

兴证海外豆包手机专家会议纪要20251201

你可能感兴趣

豆包手机助手深度拆解20251201

从豆包手机助手看端侧AI行情20251201

兴证：有色-碳酸锂专家电话会议纪要-行业见底信号明确，供需反转预计2020年底20191122

【兴证海外汽车】蔚来汽车2022Q3业绩会议纪要 null未知机构2022-11-10

海外周观点：遇见小面成功IPO，豆包手机助手上线

兴证通信军备竞赛吹响国产算力加仓号角字节豆包MAU迅速超过竞

无线充电专家观点-东吴证券“消费升级+创新周期”手机供应链高峰论坛会议纪要20170608

手机结合生成式AI前景展望、行业影响及手机品牌应对策略专家电话会议纪要–20230331

摄像头及虹膜/3D SENSE等光学组件专家观点-东吴证券“消费升级+创新周期”手机供应链高峰论坛会议纪要20170608

陶瓷后盖专家观点-东吴证券“消费升级+创新周期”手机供应链高峰论坛会议纪要20170608

【兴证海外汽车】蔚来汽车2022Q3业绩会议纪要
null未知机构2022-11-10