行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

中信证券前瞻理想汽车AITalk第二季速评VLA是实现人类司机体验的生产工

2025-05-08 未知机构王英杰

工具分类与AI爆发时刻
- 李想将工具分为信息工具（参考作用）、辅助工具（提升效率但依赖人类）和生产工具（完成人类工作）。
- AI成为生产工具（如VLA）是AI爆发的关键，目前智能驾驶仍处于辅助工具阶段。
智能驾驶与VLA的定位
- 智能驾驶本质是生产工具，VLA（虚拟领航员）是类人司机的模型。
- 评价VLA的北极星指标：专业能力（智驾水平）、职业性（符合人类驾驶习惯）、信任关系（沟通能力）。
智能驾驶发展阶段
- 昆虫智能（第一阶段）：规则依赖、高精地图、参数小，无法处理复杂场景。
- 哺乳动物智能（第二阶段）：端到端+VLM模型，可学习人类行为但泛化弱，仅辅助驾驶。
- 人类智能（第三阶段）：VLA模型具备物理理解、独立“脑系统”（语言、COT）、类人动作执行。
VLA与前代模型的关系
- 端到端是VLA的Action部分，但VLA在复杂场景（如修路）和沟通（如避免公交道）中优于双系统。
- VLA非终极架构，但现阶段能力最强，未来可能结合实用工具提升效率。
VLA模型的架构与训练
- 预训练：320亿参数云端基座模型（Vision+Language），蒸馏出3.2B端侧模型。
- 后训练：加入Action，模型扩展至4B，输出COT和轨迹预测。
- 强化：RLHF（规则+人类习惯）+RL（世界模型自我强化，指标：G值、交通规则、碰撞）。
- Agent交互：支持人类语言指令（如临时改路、找车位），短指令端侧处理，长指令云端处理。
商业化与定价
- VLA定价预计为雇佣人类的几分之一，商业模式可能包含保险和充电费用。

【AI和智能驾驶技术的进化】1. 对工具的分类：李想将工具分为信息工具、辅助工具和生产工具。 1）信息工具：当前大多数场景，对人类起参考作用。 2）辅助工具：例如辅助驾驶，让人类的效率更高，但是仍然无法离开人类。 3）生产工具：完成人类的工作，减少人类工作时长。【中信证券前瞻】理想汽车AITalk第二季速评：VLA是实现人类司机体验的生产工具—–– 【AI和智能驾驶技术的进化】1. 对工具的分类：李想将工具分为信息工具、辅助工具和生产工具。 1）信息工具：当前大多数场景，对人类起参考作用。 2）辅助工具：例如辅助驾驶，让人类的效率更高，但是仍然无法离开人类。 3）生产工具：完成人类的工作，减少人类工作时长。对Agent的一个重要判断依据，是其是否可以作为生产工具。只有AI变为生产工具，才会迎来真正的AI爆发时刻。 2.智能驾驶和VLA是生产工具：人类只要雇佣司机，就会需要智能驾驶。智能驾驶就是生产工具。 VLA就是像人类司机一样的模型。判断智驾模型是否可以成为好司机的北极星指标包括：1）专业能力，即模型智驾的能力；2）职业性，及模型是否能够按照人类习惯开车，涉及到对齐和强化；3）与人类之间的信任关系，能够与人类沟通。 3.智能驾驶经历了三个阶段：1）第一阶段-昆虫智能：有既定的规则，依赖高精地图，对世界的理解非常有限，参数较小，无法完成复杂的事情。 2）第二阶段-哺乳动物阶段：端到端和VLM模型，能够学习人类行为，但是不理解物理世界，泛化能力弱，只能起到辅助作用。 3）第三阶段-人类阶段：VLA模型，a）能够理解真实的物理世界，能够看懂导航软件是如何运行的；b）有自己的脑系统，自己的language，自己的COT（思维链）；c）能够像人类一样执行动作。【VLA与前代“端到端+VLM“的关系】1.端到端是VLA的一部分。端到端组成了Action的部分。 2.两种Cornercase下必须用VLA而非双系统：1）复杂问题的理解，例如复杂的修路场景，端到端的汽车可能会停下来，而VLA可以顺利通过。 2）与人沟通：端到端无法理解，例如端到端的汽车可能会跑到公交车道上，即使人类介入使其驶离公交车道，过一会还是会走上去。但人类可以直接告诉VLA不要走公交车道。 3.VLA不一定是自动驾驶的终极架构：李想认为，VLA不一定是自动驾驶中效率最高的架构，但其是现阶段能力最强的架构。在VLA是否是最终的大统一模型的问题上，李想认为，这涉及到效率的问题，虽然模型的能力很强，但是并不能放弃实用工具，因为工具可以增强确定性和效率。【VLA模型的架构和训练过程】 1.预训练：先训练Vision和Language的320亿参数的云端基座模型，就像人类学习世界和驾驶相关的知识。需要的预料包括：1）3D和高清2D的Vision语料；2）与交通和驾驶相关的Language语料；3）Vision和Language的联合语料，例如导航地图和对导航的理解。然后从云端模型蒸馏出3.2B的端侧模型，在双OrinX和单ThorU上都可以运行。 2.后训练：加入Action，就像人类去驾校学习。将VLA组合成VLA端到端的形式，模型从3.2B扩大到4B，能够直接从视觉到输出，COT为适应驾驶场景因此较短。同时还会输出4-8秒的diffusion的轨迹和环境预测。 3.强化：就像人类去社会上学习。 1）通过RLHF：既要遵守驾驶规则，也要符合人类开车习惯。 2）纯粹的RL：通过世界模型进行学习，为了开的比人类司机更好，使用了包括G值、交通规则和碰撞在内的三个指标进行自我强化。 4.搭建司机Agent：人能够与VLA以人类语言进行沟通。短指令由VLA直接处理，长指令经云端线上处理。展示的例子包括：人类语言控制车辆走人工通道而非ETC，临时更换路线，寻找其他泊车位等。【其他信息】Agent 的定价：李想预计定价为雇佣人类的几分之一，具体要看成本；同时商业模式会发生改变，例如保险费用和一定里程的充电金额包含在定价中。

点击免费查看完整报告

中信证券前瞻理想汽车AITalk第二季速评VLA是实现人类司机体验的生产工

你可能感兴趣

中信证券前瞻：Microsoft微软FY2024Q2季报速评

苹果AAPLFY26Q1季报速评公司预计FY26Q2供应受限中信证券前瞻

中信证券前瞻特斯拉2025Q4业绩速评当季盈利能力超预期26年Capex

中信证券前瞻Meta4Q25季报速评收入及OP指引大超预期未来数月发布

中信证券前瞻台积电TSM25Q1业绩速评季度营收毛利率均处于指引上沿

【中信证券前瞻】德州仪器2023Q2季报速评：下游需求疲软，23Q3需求指引偏弱

【中信证券前瞻】英特尔2023Q2季报速评：当季业绩&下季度营收指引超市场预期，

中信证券前瞻Amazon3Q25业绩速评AWS增长超预期加速Rufu

中信证券前瞻美光科技MUFY26Q2业绩速评业绩及指引继续大超预期F

中信证券前瞻台积电TSM25Q4业绩速评当季业绩超出预期