您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:中信证券前瞻理想汽车AITalk第二季速评VLA是实现人类司机体验的生产工 - 发现报告

中信证券前瞻理想汽车AITalk第二季速评VLA是实现人类司机体验的生产工

2025-05-08 未知机构 王英杰
报告封面

【AI和智能驾驶技术的进化】1. 对工具的分类:李想将工具分为信息工具、辅助工具和生产工具。 1)信息工具:当前大多数场景,对人类起参考作用。 2)辅助工具:例如辅助驾驶,让人类的效率更高,但是仍然无法离开人类。 3)生产工具:完成人类的工作,减少人类工作时长。 【中信证券前瞻】理想汽车AITalk第二季速评:VLA是实现人类司机体验的生产工具—–– 【AI和智能驾驶技术的进化】1. 对工具的分类:李想将工具分为信息工具、辅助工具和生产工具。 1)信息工具:当前大多数场景,对人类起参考作用。 2)辅助工具:例如辅助驾驶,让人类的效率更高,但是仍然无法离开人类。 3)生产工具:完成人类的工作,减少人类工作时长。 对Agent的一个重要判断依据,是其是否可以作为生产工具。 只有AI变为生产工具,才会迎来真正的AI爆发时刻。 2.智能驾驶和VLA是生产工具:人类只要雇佣司机,就会需要智能驾驶。 智能驾驶就是生产工具。 VLA就是像人类司机一样的模型。 判断智驾模型是否可以成为好司机的北极星指标包括:1)专业能力,即模型智驾的能力;2)职业性,及模型是否能够按照人类习惯开车,涉及到对齐和强化;3)与人类之间的信任关系,能够与人类沟通。 3.智能驾驶经历了三个阶段:1)第一阶段-昆虫智能:有既定的规则,依赖高精地图,对世界的理解非常有限,参数较小,无法完成复杂的事情。 2)第二阶段-哺乳动物阶段:端到端和VLM模型,能够学习人类行为,但是不理解物理世界,泛化能力弱,只能起到辅助作用。 3)第三阶段-人类阶段:VLA模型,a)能够理解真实的物理世界,能够看懂导航软件是如何运行的;b)有自己的脑系统,自己的language,自己的COT(思维链);c)能够像人类一样执行动作。 【VLA与前代“端到端+VLM“的关系】1.端到端是VLA的一部分。 端到端组成了Action的部分。 2.两种Cornercase下必须用VLA而非双系统:1)复杂问题的理解,例如复杂的修路场景,端到端的汽车可能会停下来,而VLA可以顺利通过。 2)与人沟通:端到端无法理解,例如端到端的汽车可能会跑到公交车道上,即使人类介入使其驶离公交车道,过一会还是会走上去。 但人类可以直接告诉VLA不要走公交车道。 3.VLA不一定是自动驾驶的终极架构:李想认为,VLA不一定是自动驾驶中效率最高的架构,但其是现阶段能力最强的架构。 在VLA是否是最终的大统一模型的问题上,李想认为,这涉及到效率的问题,虽然模型的能力很强,但是并不能放弃实用工具,因为工具可以增强确定性和效率。 【VLA模型的架构和训练过程】 1.预训练:先训练Vision和Language的320亿参数的云端基座模型,就像人类学习世界和驾驶相关的知识。 需要的预料包括:1)3D和高清2D的Vision语料;2)与交通和驾驶相关的Language语料;3)Vision和Language的联合语料,例如导航地图和对导航的理解。 然后从云端模型蒸馏出3.2B的端侧模型,在双OrinX和单ThorU上都可以运行。 2.后训练:加入Action,就像人类去驾校学习。 将VLA组合成VLA端到端的形式,模型从3.2B扩大到4B,能够直接从视觉到输出,COT为适应驾驶场景因此较短。 同时还会输出4-8秒的diffusion的轨迹和环境预测。 3.强化:就像人类去社会上学习。 1)通过RLHF:既要遵守驾驶规则,也要符合人类开车习惯。 2)纯粹的RL:通过世界模型进行学习,为了开的比人类司机更好,使用了包括G值、交通规则和碰撞在内的三个指标进行自我强化。 4.搭建司机Agent:人能够与VLA以人类语言进行沟通。 短指令由VLA直接处理,长指令经云端线上处理。 展示的例子包括:人类语言控制车辆走人工通道而非ETC,临时更换路线,寻找其他泊车位等。 【其他信息】Agent 的定价:李想预计定价为雇佣人类的几分之一,具体要看成本;同时商业模式会发生改变,例如保险费用和一定里程的充电金额包含在定价中。