2025年12月03日09:35 关键词 豆包视觉理解模型3D模型AI engine大模型OS智能地址手机助手GUI RLHF跨平台比较AI玩具硬件形态生态绑定AI手机助手工具调用操作系统安全隐私隐私计算可用不可见 全文摘要 自2022年底以来,一款手机助手通过推出视觉理解模型、拟人语音模型和集成AI引擎,展现了其在人工智能技术领域的持续进步。这一助手不应仅被视作一个应用或大型模型,而是作为AI与操作系统融合的新型智能设备。手机作为AI助手的载体,象征着技术成熟与应用场景的广泛拓展。 豆包手机助手深度拆解-20251201_导读 2025年12月03日09:35 关键词 豆包视觉理解模型3D模型AI engine大模型OS智能地址手机助手GUI RLHF跨平台比较AI玩具硬件形态生态绑定AI手机助手工具调用操作系统安全隐私隐私计算可用不可见 全文摘要 自2022年底以来,一款手机助手通过推出视觉理解模型、拟人语音模型和集成AI引擎,展现了其在人工智能技术领域的持续进步。这一助手不应仅被视作一个应用或大型模型,而是作为AI与操作系统融合的新型智能设备。手机作为AI助手的载体,象征着技术成熟与应用场景的广泛拓展。讨论中也指出了面临的技术挑战,如API调用限制、视觉理解与多模态感知等,并探讨了相应的解决策略。此外,对话还关注了安全隐私问题、模型能力的提升以及与手机厂商合作的重要性。展望未来,AI手机趋势包括模型厂商话语权的增强和消费者需求的增长,强调了AI技术普及下智能设备发展的潜力。 章节速览 00:00大模型与OS融合:豆包手机助手的技术演进与评估机制 对话探讨了豆包手机助手从视觉理解模型到AI Engine内嵌的发展脉络,强调了大模型与OS融合的重要性。重点分析了视觉层面的理解能力,如图形GVI理解,以及在复杂指令下模型的评估机制,特别是基于人工规则的三元组评估,以提升模型在多任务处理中的表现。 06:13大模型在多轮对话与跨平台应用中的潜力 讨论了大模型在多轮对话、跨平台比较及AI玩具等领域的应用潜力,强调其在解决用户痛点、提升用户体验方面的作用,同时指出硬件形态的多样性及第三方应用开发的重要性,展现了大模型技术的广泛适用性和未来发展方向。 12:44大模型与手机厂商合作趋势分析 讨论了大模型与手机厂商合作的现状与未来趋势,指出初期合作多为半系统级结合,现手机厂商正逐渐倾向于与头部大模型厂商合作,以构建深度生态绑定。提及豆包等模型的发展策略,从听懂、看懂到拟人化交互,通过APP、耳机、手机及AI眼镜等硬件结合,形成从芯片到应用的全链条闭环,强调了工具调用优化与多模态输入处理能力的重要性。 20:26 AI与手机融合推动智能化硬件发展 讨论了AI技术在手机硬件上的应用前景,包括多模态和全模态技术进步,以及AI助手在手机中的实际应用,如处理邮件、翻译、记忆能力提升等。强调了AI与手机结合的便捷性和效率,以及对现有应用开发模式的促进作用,展望了未来智能化手机硬件和应用的广阔市场。 26:17大模型与操作系统集成的未来可能性 讨论了大模型厂商与手机厂商合作的可能性,特别是大模型能力直接集成到操作系统中的开源方案。分析认为,虽然大模型厂商可能采取开放态度,但仅提供开源系统可能不足以满足手机厂商的需求,因为模型与手机结合涉及复杂的系统层面应用及用户需求匹配,这超出了传统手机厂商的能力范围。因此,大模型厂商可能需要作为供 应商提供全面解决方案,而不仅仅是开源系统。 30:02 Pixel 10 AI体验不及字节产品原因及数据安全措施 讨论了Pixel 10在AI功能上落后于字节产品的原因,包括未采用最新模型、缺乏GUI层面调用能力及非深度系统结合。同时,介绍了多宝手机助手在数据安全方面的措施,如大模型应用防火墙和隐私计算技术,确保数据安全性和隐私保护。 35:51 AI手机内存与存储需求探讨 对话围绕AI手机在多智能体运作与长记忆存储方面对内存和存储的高要求展开,指出当前16GB运存和256GB存储已成基础配置,未来或需升级至32GB运存与512GB以上存储以满足AI应用需求,强调了内存与存储对提升AI手机性能与用户体验的重要性。 38:47大模型纠错与长尾需求覆盖的未来发展方向 讨论了大模型在自动执行、纠错机制及长尾需求覆盖方面的限制与改进方向。指出当前大模型在面对复杂情况时,通过增强运算能力和引入评价层面的指导机制,如GRUB,提升纠错能力。强调了从全局到局部的调整策略,以及在长计算过程中处理多圈子现象的技术,旨在提高模型对不同UI的适应性。未来模型厂商将专攻此类机制,以优化模型表现。 41:44豆包手机备货量与销量预测讨论 对话围绕豆包手机的备货量和全生命周期销量预测展开,提及市场传言首销备货50万台,但对工程样机3万台与首销备货50万台的关系存疑,表示个人对此信息不明确,建议从其他渠道获取更准确数据。 43:24字节多模态模型能力分析 讨论了字节基于视觉的多模态模型能力,强调其在数据体系和视觉基础上的优势,认为在多模态层面较难被超越,尤其在C端模型模块上展现强大动态处理能力,但语言模型可能仍需进步。 47:55模拟点击与APP交互:豆包比价任务的挑战与解决方案 讨论了豆包在商品全平台比价任务中使用模拟点击可能遇到的APP限制问题,提出通过模型层面训练新的交互能力作为解决方案。同时,探讨了商业逻辑下APP识别并禁止模拟点击的可能性,以及豆包与APP之间协商机制的建立,以实现更高效的应用内操作与广告浏览的平衡。 53:08 AI手机合作趋势与话语权变化分析 讨论了AI模型与手机厂商合作在AI手机领域的地位变化。短期看,手机厂商主导合作,由于保护意识强导致合作进展缓慢。中期,随着AI应用普及,模型厂商地位将上升,可能与手机厂商形成更平等的合作关系。长期,模型厂商可能占据主导,特别是在技术人才方面优势明显,对AI手机的发展方向有更大影响力。 发言总结 发言人1 讨论了人工智能助手的发展历程,从视觉理解模型到拟人化语音模型,强调将AI引擎内嵌手机的重要性,并指出助手应视为大模型与操作系统的结合,强调智能地址集成的必要性。他分析了选择手机作为载体的原因,基于技术积累,并指出无API调用挑战,强调视觉理解模型在解决实际问题中的关键作用。他还讨论了如何利用模型超越API限制,通过视觉理解解决复杂对话和任务,并通过模型优化提升用户体验,特别提到跨平台比较功能和价格非价格维度处理能力。此外,他讨论了AI助手在AI玩具和眼镜等硬件形态上的应用潜力,强调硬件和软件深度结合的重要性,以及在隐私保护、安全性和数据处理方面的考虑,指出模型厂商和手机厂商合作的重要性。总之,他强调了人工智能助手技术的发展及其在不同应用场景中的潜力,以及模型技术在提升用户体验和推动市场变革中的关键作用。 发言人2 他首先表达了对会议助手开启提问环节和向总详细介绍的感谢,随后提出了多个关键问题,深入探讨了豆包手机助手及其大模型集成技术的多个方面。这些问题包括大模型厂商直接集成模型能力至操作系统的可能性、如何在确保安全隐私的前提下处理用户数据、豆包手机助手中跨应用调用时的数据安全措施、多模态处理时对内存和本地存储的需求,以及大模型在AI自动执行、纠错机制和长尾需求覆盖方面的未来改进方向。此外,发言人询问了豆包助手所采用的具体模型、不同手机厂商能力的差异,以及面对应用禁止模拟点击时的解决策略。最后,发言人请求向总展望AI手机合作的未来趋势,从短期到长期的发展和话语权变化。整个发言体现了他对豆包手机助手及其技术的深度关注和对会议成功的感谢。 发言人3 首先介绍了提问指南,明确电话端和网络端参会者提问的方式,随后简述了几轮网络端提出的问题,内容涉及谷歌AI产品与字节的对比分析,以及豆包手机的备货量和销量预测。此外,他还特别感谢了所有参与者的贡献,并在会议结束时再次强调了会议内容仅面向国泰海通证券正式签约客户这一限制条件。 问答回顾 发言人1问:豆包手机助手从何时开始有关键的进展?为什么选择手机作为载体,并结合智能地址? 发言人1答:豆包手机助手的关键进展从去年年底开始,当时发布了视觉理解模型和3D模型。今年上半年,推出了一个比较拟人的语音模型,并且现在已经将AI engine内嵌到手机中。选择手机是因为其经历过多次技术积累,手机APP中很多功能如API调用无法解决的问题,例如弹窗位置不准确等,需要模型在视觉层面的理解能力。而智能地址的结合则使得助手能在手机层面进行更深入的应用和操作。 发言人1问:豆包手机助手的技术进步如何影响用户习惯? 发言人1答:豆包手机助手的技术进步正逐渐培养用户的使用习惯,使他们在某些关键应用上越来越依赖助手,从而在该硬件上花费更多时间。随着更多结合应用的出现和第三方厂商的加入,将进一步丰富助手的应用生态,推动用户对助手的接受程度加深。 发言人1问:当前手机助手处理复杂任务的能力如何? 发言人1答:当前手机助手在处理复杂任务时表现出较好的流畅程度,能够理解并执行一连串复杂的指令,这不仅依赖于图形识别能力(如d pro指标),还涉及到模型在接收到长指令时的能力。 发言人1问:对于复杂指令下的模型评估机制有何不同?这种评估机制是否适用于多轮对话场景? 发言人1答:对于复杂指令下的模型评估,传统的RLHF人类偏好评估机制可能无法有效解决。目前采用的是基于人工规则的三元组评估机制(如GU big),它在prompt response之外增加对模型输出结果的反思和提问,以防止模型绕过评估或产生不符合预期的结果。是的,这种评估机制不仅适用于单轮复杂的对话,也适用于多轮提醒下的复杂任务,比如AI戏剧、话剧等领域,以及在用户输入极其简短的情况下,模型仍能提供恰当反馈的能力。 发言人1问:跨平台比较功能在手机助手中的作用是什么? 发言人1答:跨平台比较功能是解决用户在各个平台间比较商品,从而做出更明智决策的痛点。该功能让手机助手能在静默状态下跨平台搜索和比较信息,提供更全面且个性化的推荐。 发言人1问:在AI技术与手机厂商的合作中,过去和现在有什么变化?手机厂商为何更愿意与大模型厂商合作? 发言人1答:过去,我们与手机厂商的合作更多是在半系统级层面,即功能会在系统内部自适应调用,而不是通过用户界面直接呈现我们的软件。而现在,随着大模型厂商逐渐受到青睐,尤其是对于市场份额较大的手机厂商,他们开始倾向于与头部大模型厂商进行结合,因为这些大模型厂商拥有自己的流量场景和数据场景,能够提供更好的生态绑定和系统级的深度整合。手机厂商发现与大模型厂商结合可以带来更高的长远收益,因为硬件与APP的深度生态绑定能提供更好的用户体验。例如,通过与腾讯这样的大模型厂商结合,可以实现应用之间更方便的数据交互和调度,从而创造出更丰富的应用场景和更好的用户体验。 发言人1问:AI技术的发展趋势是什么? 发言人1答:AI技术正从纯语言模型发展为全模态感知模型,并正逐步实现与手机、耳机以及未来AR眼镜等辅助硬件的结合。这将形成从云端推理到芯片层级的全套链条,提供更高效、无缝的AI服务体验。 发言人1问:豆包手机助手如何实现高效的工具调用和交互? 发言人1答:豆包手机助手采用了优化的工具调用机制,能够根据用户输入快速调用相应工具,并随着结果的变化灵活调整任务流程,实现交织性的生成方式,而非线性执行多个细分任务。同时,它能根据用户与搜索结果的互动动态调整搜索策略,提升用户体验。 发言人1问:当前AI硬件的发展现状以及对手机厂商合作的影响如何? 发言人1答:目前,AI硬件在成本、性能等方面已取得显著进步,并受到包括字节跳动在内的手机厂商的关注。随着AI技术的不断成熟以及相关硬件的发展,有望进一步推动手机厂商对AI技术的开放态度,加速AI与手机的深度融合,创造出更多智能化程度更高的硬件产品和应用,改善用户的实际体验。 发言人2问:未来大模型厂商是否有可能直接将自家模型能力与操作系统的