行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

大模型及机器人算法-VLA技术分解

信息技术2026-01-08--文***

01 VLM模型与VLA模型 VLA（左）被视为“全程可求导”的统一架构，而传统的E2E+VLM（右）则被视为“非全程可求导”的双系统拼凑“全程可求导”（Fully Differentiable） VLM的“非”端到端本质其核心问题在于：VLM的输出端是文本（Text），而非轨迹（Trajectory） VLA的“真”端到端在算法形式上，回归并坚守了从（传感输入）到（轨迹输出）的端到端神经网络形式；“全程可求导”（Fully Differentiable） VLA将两个并行的、解耦的系统（3D编码器->动作解码器和2D编码器->LLM），重构为一个统一的、串行的“V -> L -> A”单一模型（空间智能->语言智能->行动策略) VLA的通用技术栈：积木是如何搭建的？ VLA：视觉编码器（V）、语言编码器（L）和动作解码器（A） VLA的三大核心组件：视觉编码器（Visual Encoder）、大型语言模型（LargeLanguage Model，即L模块）和动作解码器（Action Decoder）视觉编码器(V)：VLA的“眼睛” 在当今的技术栈中，这个角色的最佳选择，几乎被ViT（Vision Transformer）及其变体所垄断。而ViT的强大，又来自于其特定的“预训练”方式。 VLA领域最受青睐的ViT主要有两种：CLIP/SigLIP和DINOv2 2 .D I N O v 2：提供“空间理解”能力(“Where is it? How is it positioned?”) 1.CLIP /SigLIP：提供“内容识别”能力(“What is it?”) 核心功能：CLIP（及其优化版SigLIP）的核心是强大的视觉-文本对齐（visual-text alignment）能力。它擅长将图像中的像素与描述这些像素的自然语言单词联系起来。 训练方式：它们通过海量的“图像-文本”配对数据进行“对比学习”（Contrastive Learning）。简单来说，它们学习到了“这段文字描述的就是这张图片”。SigLIP的优势：SigLIP是CLIP的直接升级版。它用更简单、扩展性更好的Sigmoid损失函数，取代了CLIP复杂的Softmax损失函数，训练过程更高效，且在更大规模数据集上表现更好，从而实现了“更简单，效果更好”。VLA中的角色：SigLIP主要为VLA提供了“识别和描述图像内容”的能力。它负责告诉“大脑”：“我看到了一个红色的瓶子”或“这是一条狗，脖子上有牵引绳”。核心功能：DINOv2的核心是强大的空间理解和高级视觉语义能力。训练方式：它是一种自监督学习（Self-Supervised Learning）模型。它不需要文本标签，而是通过一种名为“自蒸馏”（self-distillation）的方式进行训练。这种方式强迫模型去理解图像的内在空间结构（例如，一张猫的左耳和右耳在空间上的关系，即使没有任何文字告诉它这是“猫”或“耳朵”）。 VLA中的角色：DINOv2主要为VLA提供了“空间推理能力”。它负责告诉“大脑”：“那个红色的瓶子在碗的左边，并且是竖立着的”，或者“那只狗正坐着，它的牵引绳延伸到了草地上”。视觉编码器(V)：VLA的“眼睛” VLA领域最受青睐的ViT主要有两种：CLIP/SigLIP和DINOv2 3.顶尖方案：SigLIP+ DINOv2双编码器既然SigLIP擅长“识别内容”（What），而DINOv2擅长“理解空间”（Where/How），那么最强大的VLA视觉系统，自然是将两者互补的优势结合起来。 OpenVLA的视觉编码器架构。它同时并联使用了DinoV2和SigLIP，将两者的特征（features）融合后，再送入MLP Projector（MLP投影器）这正是OpenVLA、Prismatic-7B等顶尖VLA模型所采用的“双编码器”策略：视觉编码器(V)：VLA的“眼睛” VLA领域最受青睐的ViT主要有两种：CLIP/SigLIP和DINOv2 3.顶尖方案：SigLIP+ DINOv2双编码器 1.并行编码：原始图像被同时输入到SigLIP和DinoV2两个独立的视觉编码器中。 2.特征提取：SigLIP输出包含丰富“内容”信息的特征向量，DinoV2输出包含精确“空间”信息的特征向量。 3.特征融合：这两种不同类型的特征向量在通道维度上被“连接”（Concatenated）在一起，形成一个同时包含“是什么”和“在哪里/怎么样”的“综合性的视觉表示”（comprehensive visual representation）。 4.模态对齐-关键步骤：最后，这个“综合视觉特征”必须被“翻译”成“大脑”（L模块，即LLM）能够理解的“语言”。这个关键的“翻译”步骤由一个MLP Projector（多层感知机投影器）完成。该投影器负责将高维的视觉特征向量，投影（映射）到与LLM处理文本时使用的相同的“令牌”（Token）嵌入空间中。通过这种“双编码器+ MLP投影器”的精密设计，VLA的“眼睛”就为“大脑”提供了最完美的输入：一个既知道“是什么”（来自SigLIP），也知道“在哪里/怎么样”（来自DinoV2）的、且“大脑”能够直接理解的视觉信息流。理想汽车MindVLA的实现方式：拥抱3D高斯建模(3DGS) MindVLA的V模块核心是： 1.3D高斯建模-3D Gaussian Splatting, 3DGS：它没有使用SigLIP或DINOv2，而是直接采用了基于3D高斯球的场景表示方法。这种方法旨在从多视图2D图像中，重建出更精细、更连续的3D场景。 2.自监督3D编码器预训练-Self-Supervised 3D Encoder Pretraining：其V模块通过自监督的方式，直接从传感器数据（包括摄像头Cameras,激光雷达Lidar等）通过3D Encoder生成统一的SceneRepresentation（场景表示）。 3D Tokenizer / 3D Projector：最终，这个基于3DGS的场景表示，通过3D Projector（3D投影器）或3D Tokenizer被转换为MindGPT（L模块）可以理解的Token。对比总结： 通用方案-SigLIP+ DINOv2：更侧重于从2D图像中提取内容和空间语义，并通过MLP投影器与LLM对齐。MindVLA方案-3DGS：更侧重于直接进行高保真的3D场景重建，为“从零预训练”的L模块提供更原生、更丰富的3D空间输入。这两种不同的V模块实现路径，也反映了VLA架构仍在快速发展，不同的团队在根据自身的技术积累和目标进行着不同的探索。语言编码器(L)：VLA的“大脑” 接收来自“眼睛”（V模块）的视觉令牌（Visual Token）和来自用户的文本令牌（Text Token），在模型内部将这两者“融合”（Fuse），并进行复杂的跨模态推理（Cross-modal Reasoning）。 “大脑”的主流选择：LLaMA家族与Qwen等 LLaMA家族（核心主导）：这是目前VLA领域的绝对主流。 L L a M A - 2：被广泛认为是开源V L A模型的“标配”。例如，O p e n V L A和P r i s m a t i c - 7 B都明确使用了L l a m a 2 7 B作为其语言主干（backbone）。Vicuna：作为LLaMA最著名的微调变体之一，Vicuna因其强大的对话和推理能力而被广泛采用。ORION架构的LLM就是Vicuna v1.5。 Qwen系列（重要力量）：阿里巴巴的Qwen系列也在VLA领域扮演着重要角色。 OpenDriveVLA使用了Qwen-2.5。SimLingo使用了Qwen-2。Impromptu VLA和AutoVLA则都采用了Qwen-2.5VL。理想汽车早期IM系统也使用了基于Qwen（千问）的VLM。 其他家族（展现多样性）：当然，GPT系列和Gemma等也在VLA模型中占有一席之地，验证了VLA架构的灵活性。 EMMA使用了Gemini。LangCoop使用了GPT-4o。VaVIM使用了GPT-2。语言编码器(L)：VLA的“大脑” “大脑”是如何工作的？——融合与推理 1.融合（Fusion）：L模块（LLM）的输入是一个组合序列。这个序列的前半部分是来自“眼睛”（V模块）的视觉Token（即被MLP Projector“翻译”过的视觉特征），后半部分是来自“用户”的文本Token（例如“Put eggplant in bowl”，即“把茄子放进碗里”）。 2.推理（Reasoning）：一旦输入融合，LLM就会像处理普通文本一样，在“视觉”和“文本”Token之间进行复杂的“自注意力”（Self-Attention）计算。 在ORION这样的高级架构中，L模块的输入甚至还包括了来自QT-Former的“历史Token”。 此时，LLM会执行后续的高级推理任务，如“场景分析”（Scene Analysis）、“动作推理”（Action Reasoning）和“历史回顾”（History Review）。语言编码器(L)：VLA的“大脑” “大脑”的输出：从“思考”到“指令” VLA“大脑”的革命性在于它的输出。它输出的不是用于聊天的文本，而是一个（或一系列）高度浓缩的、机器可读的“动作令牌”（ActionToken）或“规划令牌”（Planning Token）。这个“Token”就是L模块（大脑）“思考”的最终结晶。它代表了一个明确的“意图”或“决策”（例如“抓取红色物体”或“执行减速让行策略”）。这个“意图”将被传递给A模块（“手脚”），由A模块去解码和执行。 “大脑”的优化：LoRA与MoE 在车端或机器人上部署一个70亿（7B）参数的LLM是一个巨大的工程挑战。为了让“大脑”既聪明又高效，业界采用了两种主流的优化策略： LoRA-Low-Rank Adaptation：这是ORION(小米的实现)采取的策略。即冻结（Frozen）庞大的Vicuna主体参数，只在旁边“外挂”一个极小的、可训练的LoRA适配器。这使得VLA的微调成本和部署灵活性大大降低，是一种“轻量化”的改装方案。这里面理想汽车MindVLA的与ORION等模型采用开源LLM（如Vicuna）+LoRA轻量化微调的“改装”路线不同，理想汽车的MindVLA选择了更彻底的“从零开始打造LLM”的“自研”路线，其L模块被称为MindGPT。理想汽车的L模块称为MindGPT MindGPT的核心特点在于其针对3D驾驶场景的原生设计： 1.原生3D输入：MindGPT的输入不是经过MLP Projector“翻译”的2D图像特征，而是来自V模块的、通过3D Projector或3D Tokenizer处理的“3D高斯特征”（3D Gaussian Features）。它的“母语”就是3D空间。 2.面向驾驶的预训练：MindGPT在预训练阶段就学习驾驶相关的物理因果律，例如通过“未来帧预测”（Next Frame Prediction）和“CoT（条件输出）”等任务进行训练。 3.为车端优化的架构：为了在车端芯片上实现实时推理，MindGPT内部采用了MoE（混合专家）+稀疏注意力（Sparse Attention）架构，通过Router（路由器）实现稀疏激活，大幅降低了计算量。 4.高效动作输出：在输出“Action Tokens”（动作令牌）时，MindGPT采用了“并行解码”（ParallelDecoding）技术，在一个步骤内同时生成

点击免费查看完整报告

你可能感兴趣

大模型及机器人算法-VLA技术分解

你可能感兴趣

【机构龙虎榜解读】多模态+AI大模型+机器人，自主研发深度学习人脸识别算法，在视觉图像识别及人机智能交互方面拥有产业链关键技术，并于去年开始在双足和四足机器人方向展开技术探索，机构大额净买入这家公司

机器人VLA核心算法专家

汽车行业周报：Figure发布VLA大模型HeHelix，尊界S800首发六大智能化技术

小鹏发布第二代VLA大模型，潍柴动力签定SOFC技术协议

【公告全知道】Sora AI视频+机器人+华为鸿蒙+AIGC+信创!公司财税大模型算法应用于对话生成场景支持多端使用