您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:智能驾驶行稳致远,具身智能未来可期 - 发现报告

智能驾驶行稳致远,具身智能未来可期

2025-04-20 未知机构 Angie
报告封面

1.端到端大模型 •大模型特点:大模型是实现端到端方案之一,具有规模大与泛化性强的特点,可利用其泛化性解决多样问题,在模型规模上比小模型带来更强能力,还能解决小模型处理不好的场景。 2.特斯拉FSD 中美版本差异:美国FSD 13.2.8版本支持倒车,可实现三点掉头、窄巷倒车变道掉头等操作,国内13.2.6版本暂不支持,推测因国内数据及测试时间不足,通过兜底策略禁用倒车功能。在模型上中美类似,但会针对中国驾驶场景适配;国内要求扶方向盘,美国可通过DMS系统监测驾驶员,实现全程不扶方向盘操作,在加州硅谷测试约99%以上场景可良好驾驶,接管率低。 版本更新展望:V13公众版本已在北美推送约四个月,预计下半年推送V14,后续版本若采用类似架构,虽局部区域和用户体验会有不同,但基础能力会接近FSD现有能力。行业消息称特斯拉与百度密切合作,百度提供信息更丰富地图,新地图含特殊道路信息,此前新的FSD版本在等待官方审批,传闻已通过审核,近期可能推送30天试用更新版本,优化交规适配问题。 3.理想VLA架构 架构升级解读:理想从VLM进化到VLA架构,VLM双系统主要是双系统深度合作,信息流较深。VLA将终端小模型和VLM大模型统一处理,消除人类设计的信息瓶颈,提升模型一致性。VLA去除信息瓶颈,类似一段式与两段式端到端的区别,提升系统性能和上限,但因大模型在车端部署存在算力挑战,VLA需克服高端算力瓶颈,满足高频低延迟的自动驾驶模型性能要求。 车企跟进情况:多家车企发布类似方案,小米确定使用VLA相关技术方案,吉利在新浩瀚架构中重点提及会有VLA方案,元戎下一代方案也使用VLA。 4.自主品牌智驾能力 •自研与供应商依赖:在自主品牌中,吉利极氪自研能力相对较强,可直接将自研系统上车,而比亚迪、长城、长安等主流车企在车端较依赖供应商,其智驾能力主要取决于供应商水平及与车企的合作密切程度,如比亚迪天玑系列有多个供应商,长城与元戎合作较多,长安是阿维塔和华为的合作版。 5.智能驾驶功能提升 后续发展路线:行业主要有两条路线,一是FSD路线,通过在特定路段验证安全性,若出现事故由厂家结合保险兜底;二是VLA路线,引入大模型开放性解决更多场景问题,引入语言模态打通座舱和自动驾驶,实现车主与自动驾驶功能的语音交互,但两条路线技术难度均较大。 座舱一体化:座舱一体化主要是信息流打通,实现座舱与自动驾驶域的信息交互,如语音交互和导航调整。但在芯片和底层稳定性上,座舱算力与自动驾驶算力分开有必要,因座舱需满足用户多样化应用需求,而自动驾驶安全稳定性是首位,底层需保证座舱系统故障不影响自动驾驶安全,在硬件和算力方面保留冗余或相互独立。 6. L2到L3升级要点 软件算法:L3要求在允许的ODD范围内处理所有问题,遇到特殊场景无法处理时要给人监管冗余时间,软件架构需识别ODD范围内所有常规场景,保证车在人无法立即接管时的安全。解决长尾场景技术不断演进,如占用网络已在头部自动驾驶团队落地,端到端模型主流且性能不断提升,VLM成为新趋势,因其训练前从大量互联网数据学习,具备常识能力,可处理极端场景。 硬件提升:硬件要实现L3需稳定性和冗余,如芯片方面,车企常用两片或多片芯片做冗余系统,同时开发团队要有意识保留冗余算法架构,保证芯片可靠性;传感器方面,多相机形成冗余,部分公司如蔚来进行视觉和激光雷达冗余,确保某一传感器失效时功能仍能保持。 7.算法模式优劣势及趋势 模式优劣势:全栈自研如华为,理论上软硬件一体优化可使算法与硬件最佳匹配,性能有优势,但成本高,需大量车辆销量摊薄研发成本,且不同车型配置分散,自研芯片非NVIDIA架构,支持最新特性人力成本高、节奏慢;第三方供应商模式与全栈自研类似,存在数据不自由、需适配多种车型、数据一致性差等问题,但如Momenta使用NVIDIA经验可尝试激进算法;车企自研好处是数据自由、车型一致性好、研发精力集中,不存在供应商与车企配合问题。 后续趋势:智驾平权后,车企角度,仅头部几家功能水平超出供应商方案的会坚持自研,并将智驾能力作为宣传卖点;供应商角度,客户多、方案成熟且在其他平台验证过的会被选择,行业集中度提高,逐渐向头部聚集。 8.人形机器人与自动驾驶关联 底层技术共享:底层技术存在共享,如机器人领域主流方案VRN及下一代基于BEV的方案,自动驾驶为提升泛化能力也会采用BEV方案。算法方面,机器人使用的occupancy占据网络可解决泛化性障碍物问题,与自动驾驶类似。此外,机器人储能设备、功能设备电池与电动车有共性,芯片算力都使用端侧算力,这是自动驾驶团队或创业者进入机器人领域的原因之一。 认知智能差异:自动驾驶在结构化环境进行,人形机器人应用场景非结构化,如家庭、工厂、办公环境等差异大且无特殊标识,因此人形机器人需更强泛化性。 9.人形机器人现状与挑战 软件算法挑战:人形机器人成熟度远低于自动驾驶,关键在于泛化性有限,操作(manipulation)方面即使使用VLM方案,泛化性仍达不到行业实际应用需求,场景级方案在操作上难实现,因仿真与现实世界在操作方面差异大。同时,长持续决策能力弱,571117713大模型缺乏短时和长时记忆能力,而自动驾驶可通过导航解决长持续决策问题。 传感器不足:人形机器人传感器集成度和小型化程度不足以支撑像人体一样密集分布和长期排列,导致缺乏相应感知能力,如抓取物品时可能碰倒周围物体,限制其在家庭等环境的应用。 10.大语言模型瓶颈与AGI提升方向 大语言模型瓶颈:大语言模型在语言方面能力强,但多模态能力中,视觉、听觉、操作及与真实世界交互动作的能力与语言能力相比远远不足。AGI提升方向:实现AGI不仅需要语言能力,还需多模态能力,当前视觉逻辑是有潜力方向,但与语言模型逻辑性差距大。此外,人类学习包含强化学习,但强化学习关键在于设计良好奖励函数,在一些复杂任务如自然科学、人文科学、经济学或投资问题中,难以通过简单对错判断设计奖励函数,时间成本也无法满足训练需求,这是实现AGI的瓶颈。 Q&A Q:端到端大模型与其他模型相比有什么差异? A:大模型是实现端到端的方案之一,也可以使用小模型来实现端到端。大模型主要特点有两个,一是规模大,二是泛化性强。可以利用其泛化性解决更多样的问题,在模型规模上能带来更强的能力,还能解决很多小模型解决不好的场景。Q:特斯拉FSD在美国和中国的驾驶体验有哪些差异,FSD版本后续有怎样的升级展望? A:体验过美国FSD最新的13.2.8版本,与国内13.2.6版本主要差别在于:美国版本支持倒车,可进行三点掉头、在窄巷倒车变道掉头等操作,国内版本不支持,但有时会规划出后向轨迹,猜测是因国内数据及测试时间不够长,通过兜底策略禁用了倒车功能。模型方面估计和美国类似,但会进行中国驾驶场景适配。国内要求扶方向盘,美国可通过DMS系统监测驾驶员,全程不扶方向盘操作。在加州硅谷测试,99%以上场景FSD驾驶效果好,习惯后基本不用介入,在复杂场景其正确性比不熟悉当地道路的人更高,接管率非常低。后续版本方面,目前13.2大版本在北美推送约四个月,之前预计的13.3或13.5大概率不会推送,(更多纪要加微571117713)个人估计下半年会推送V14。若使用类似架构,后续版本在基本能力上会接近FSD能力,但在使用感觉和适用区域上会有区别。 Q:FSD在中国多久后能力会有明显提升? A:不太好判断。行业消息称特斯拉和百度密切合作,百度会提供比北美和其他地方信息更丰富的地图版本,包含我国特殊道路情况如公交车道、长实线车道等信息。上个财报会议马斯克提到FSD在中国会遇到北美不常见的道路情况和规则差异。使用百度高丰富地图信息版本后,新版本应会解决很多交规问题。之前新版本在等官方审批,传闻特斯拉版本已通过审核,很多人预计近期会继续推送30天试用的更新版本,优化在中国的交规适配问题。 Q:理想从VLM进化到VLA架构,如何解读这个架构升级,其他车企是否有类似架构升级? A:理想VLA架构将终端小模型和VLM大模型统一化处理,两个系统间信息流深度融合,不再有人类设计的信息瓶颈,使模型一致性更高。VLA模型在机器人领域是热点研究方向,若把车理解为移动机器人的特殊形态,VLA模型在实际应用中有较好表现。与双系统相比,VLA去掉信息瓶颈,类似一段式端到端和两段式端到端的区别,对系统性能和上限有提升。但理想设计VLM加终端双系统是因大模型在车端部署有算力挑战,难达高性能和高频率,一站式VLA整体模型车端部署需克服高端算力瓶颈,达到高频低延迟的自动驾驶对模型性能的要求,最终效果有待观察。其他车企中,小米确定使用VLA相关技术方案,吉利在新的浩瀚架构里重点提到会有VLA方案,元戎下一代方案也使用VLA,还有一些车企跟进VLA技术方案。 Q:自主品牌比亚迪、吉利、长城、长安的智驾能力如何评价? A:目前在自研能力上,个人认为吉利旗下极氪在国内新势力里能力较强。这几家自主品牌主流车端相对依赖供应商,其智驾能力主要看供应商水平以及供应商和车企的合作密切程度。比如比亚迪天玑系列有多个供应商,长城主要和元戎合作,长安是阿维塔和华为合作版。从自研能力看,没有特别公认的判断,个人觉得吉利因有极氪,自研系统可直接上车,能力不错。 Q:从功能层面来看,智能驾驶后续还有哪些可以提升的空间? A:目前行业里大致有两个大的路线。一是走FSD路线,主要通过在特定路段验证安全性,实现特定路段的风险兜底,若在特定路段出现事故,厂家结合保险对用户风险进行兜底;二是VLA路线,引入大模型开发性后能解决更多场景,引入语言模态特点后可打通座舱和自动驾驶,实现与用户或车主的互动系统交互,例如车主可通过语音命令控制和影响驾驶功能。不过这两方面目前技术难度都较大。 Q:座舱一体化技术发展如何,客户对舱驾一体的需求情况怎样? A:座舱一体化主要是信息流的打通,实现无缝的信息交互。比如VLA需要与用户交互,传统上与用户交互功能由座舱负责,自动驾驶域若要通过语音与用户交互,就需在信息流上与座舱打通,让座舱收集的用户语音信息及相关理解交互功能传递到驾驶域。导航对自动驾驶很有用,当偏离路线或因拥堵、施工等无法按原导航路线驾驶时,自动驾驶功能需对导航进行操作,这也需要自动驾驶域和座舱域打通。但在芯片和底层稳定性方面,两个域分开有必要。座舱要满足用户多样化应用需求,第三方应用软件的稳定性和可靠性无法完全保证,且用户实时联网存在风险。而自动驾驶的安全和稳定性是第一位的,特别是后续推出L3、L4级自动驾驶后,要求用户脱眼和脱手,出现故障时用户不一定能第一时间人工监管,所以硬件和算力方面要保留一定冗余或相互独立,以保障最低安全驾驶需求,让用户有时间介入操作,保证整体安全。 Q:从L2.999升级到L3级别的智驾,在软件算法、架构以及硬件层面需要哪些提升? A:在软件架构方面,L3与L2的主要差别在于能否剥离人的环节。L3要求在允许的ODD范围内,系统能处理所有问题,遇到特殊场景无法处理时,要给人监管一定的冗余时间。软件系统的模型需能识别ODD范围内所有可能出现的常规场景,保证车在人无法立即接管时的安全,如安全停车、靠边停车等。解决长尾场景的技术一直在演进,如特斯拉22年介绍的占用网络已在头部自动驾驶团队落地,用于解决通用障碍物的理解和识别;端到端模型是主流技术,可解决BEV感知和通用障碍物感知不能涵盖的语义信息;下一步趋势是用VLM解决,其因在自动驾驶训练前经过大量互联网数据训练,有一定常识能力,可能处理驾驶场景中很少出现的极端场景。在硬件方面,要实现L3需保证稳定性和冗余,以应对传感器、芯片算力、通信等故障,使车在异常状态下能进行最低限度的安全驾驶操作。例如芯片方面,车企一般使用两片或多片芯片,如蔚来部分车型用四片Orin芯片,芯片间可做冗余系统,将同样的模型和算法布置在不同芯片上;也可采用模型并行方式利用芯片,但要保留底线的安全子功能。传感器方面,多相机之间会形成冗余,一个