您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:大模型及机器人算法-VLA技术分解 - 发现报告

大模型及机器人算法-VLA技术分解

信息技术2026-01-08--文***
大模型及机器人算法-VLA技术分解

01 VLM模型与VLA模型 VLA(左)被视为“全程可求导”的统一架构,而传统的E2E+VLM(右)则被视为“非全程可求导”的双系统拼凑“全程可求导”(Fully Differentiable) VLM的“非”端到端本质其核心问题在于:VLM的输出端是文本(Text),而非轨迹(Trajectory) VLA的“真”端到端 在算法形式上,回归并坚守了从(传感输入)到(轨迹输出)的端到端神经网络形式;“全程可求导”(Fully Differentiable) VLA将两个并行的、解耦的系统(3D编码器->动作解码器和2D编码器->LLM),重构为一个统一的、串行的“V -> L -> A”单一模型(空间智能->语言智能->行动策略) VLA的通用技术栈:积木是如何搭建的? VLA:视觉编码器(V)、语言编码器(L)和动作解码器(A) VLA的三大核心组件:视觉编码器(Visual Encoder)、大型语言模型(LargeLanguage Model,即L模块)和动作解码器(Action Decoder) 视觉编码器(V):VLA的“眼睛” 在当今的技术栈中,这个角色的最佳选择,几乎被ViT(Vision Transformer)及其变体所垄断。而ViT的强大,又来自于其特定的“预训练”方式。 VLA领域最受青睐的ViT主要有两种:CLIP/SigLIP和DINOv2 2 .D I N O v 2: 提 供“空 间 理 解”能 力(“Where is it? How is it positioned?”) 1.CLIP /SigLIP:提供“内容识别”能力(“What is it?”) 核心功能:CLIP(及其优化版SigLIP)的核心是强大的视觉-文本对齐(visual-text alignment)能力。它擅长将图像中的像素与描述这些像素的自然语言单词联系起来。 训练方式:它们通过海量的“图像-文本”配对数据进行“对比学习”(Contrastive Learning)。简单来说,它们学习到了“这段文字描述的就是这张图片”。SigLIP的优势:SigLIP是CLIP的直接升级版。它用更简单、扩展性更好的Sigmoid损失函数,取代了CLIP复杂的Softmax损失函数,训练过程更高效,且在更大规模数据集上表现更好,从而实现了“更简单,效果更好”。VLA中的角色:SigLIP主要为VLA提供了“识别和描述图像内容”的能力。它负责告诉“大脑”:“我看到了一个红色的瓶子”或“这是一条狗,脖子上有牵引绳”。 核心功能:DINOv2的核心是强大的空间理解和高级视觉语义能力。训练方式:它是一种自监督学习(Self-Supervised Learning)模型。它不需要文本标签,而是通过一种名为“自蒸馏”(self-distillation)的方式进行训练。这种方式强迫模型去理解图像的内在空间结构(例如,一张猫的左耳和右耳在空间上的关系,即使没有任何文字告诉它这是“猫”或“耳朵”)。 VLA中的角色:DINOv2主要为VLA提供了“空间推理能力”。它负责告诉“大脑”:“那个红色的瓶子在碗的左边,并且是竖立着的”,或者“那只狗正坐着,它的牵引绳延伸到了草地上”。 视觉编码器(V):VLA的“眼睛” VLA领域最受青睐的ViT主要有两种:CLIP/SigLIP和DINOv2 3.顶尖方案:SigLIP+ DINOv2双编码器 既然SigLIP擅长“识别内容”(What),而DINOv2擅长“理解空间”(Where/How),那么最强大的VLA视觉系统,自然是将两者互补的优势结合起来。 OpenVLA的视觉编码器架构。它同时并联使用了DinoV2和SigLIP,将两者的特征(features)融合后,再送入MLP Projector(MLP投影器) 这正是OpenVLA、Prismatic-7B等顶尖VLA模型所采用的“双编码器”策略: 视觉编码器(V):VLA的“眼睛” VLA领域最受青睐的ViT主要有两种:CLIP/SigLIP和DINOv2 3.顶尖方案:SigLIP+ DINOv2双编码器 1.并行编码:原始图像被同时输入到SigLIP和DinoV2两个独立的视觉编码器中。 2.特征提取:SigLIP输出包含丰富“内容”信息的特征向量,DinoV2输出包含精确“空间”信息的特征向量。 3.特征融合:这两种不同类型的特征向量在通道维度上被“连接”(Concatenated)在一起 , 形 成 一 个 同 时 包 含“是 什 么”和“在 哪 里/怎 么 样”的“综 合 性 的 视 觉 表 示”(comprehensive visual representation)。 4.模态对齐-关键步骤:最后,这个“综合视觉特征”必须被“翻译”成“大脑”(L模块,即LLM)能够理解的“语言”。这个关键的“翻译”步骤由一个MLP Projector(多层感知机投影器)完成。该投影器负责将高维的视觉特征向量,投影(映射)到与LLM处理文本时使用的相同的“令牌”(Token)嵌入空间中。 通过这种“双编码器+ MLP投影器”的精密设计,VLA的“眼睛”就为“大脑”提供了最完美的输入:一个既知道“是什么”(来自SigLIP),也知道“在哪里/怎么样”(来自DinoV2)的、且“大脑”能够直接理解的视觉信息流。 理想汽车MindVLA的实现方式:拥抱3D高斯建模(3DGS) MindVLA的V模块核心是: 1.3D高斯建模-3D Gaussian Splatting, 3DGS:它没有使用SigLIP或DINOv2,而是直接采用了基于3D高斯球的场景表示方法。这种方法旨在从多视图2D图像中,重建出更精细、更连续的3D场景。 2.自监督3D编码器预训练-Self-Supervised 3D Encoder Pretraining:其V模块通过自监督的方式,直接从传感器数据(包括摄像头Cameras,激光雷达Lidar等)通过3D Encoder生成统一的SceneRepresentation(场景表示)。 3D Tokenizer / 3D Projector:最终,这个基于3DGS的场景表示,通过3D Projector(3D投影器)或3D Tokenizer被转换为MindGPT(L模块)可以理解的Token。 对比总结: 通用方案-SigLIP+ DINOv2:更侧重于从2D图像中提取内容和空间语义,并通过MLP投影器与LLM对齐。MindVLA方案-3DGS:更侧重于直接进行高保真的3D场景重建,为“从零预训练”的L模块提供更原生、更丰富的3D空间输入。这两种不同的V模块实现路径,也反映了VLA架构仍在快速发展,不同的团队在根据自身的技术积累和目标进行着不同的探索。 语言编码器(L):VLA的“大脑” 接收来自“眼睛”(V模块)的视觉令牌(Visual Token)和来自用户的文本令牌(Text Token),在模型内部将这两者“融合”(Fuse),并进行复杂的跨模态推理(Cross-modal Reasoning)。 “大脑”的主流选择:LLaMA家族与Qwen等 LLaMA家族(核心主导):这是目前VLA领域的绝对主流。 L L a M A - 2: 被 广 泛 认 为 是 开 源V L A模 型 的“标 配”。 例 如 ,O p e n V L A和P r i s m a t i c - 7 B都 明 确 使 用 了L l a m a 2 7 B作 为 其 语 言 主 干(backbone)。Vicuna:作为LLaMA最著名的微调变体之一,Vicuna因其强大的对话和推理能力而被广泛采用。ORION架构的LLM就是Vicuna v1.5。 Qwen系列(重要力量):阿里巴巴的Qwen系列也在VLA领域扮演着重要角色。 OpenDriveVLA使用了Qwen-2.5。SimLingo使用了Qwen-2。Impromptu VLA和AutoVLA则都采用了Qwen-2.5VL。理想汽车早期IM系统也使用了基于Qwen(千问)的VLM。 其他家族(展现多样性):当然,GPT系列和Gemma等也在VLA模型中占有一席之地,验证了VLA架构的灵活性。 EMMA使用了Gemini。LangCoop使用了GPT-4o。VaVIM使用了GPT-2。 语言编码器(L):VLA的“大脑” “大脑”是如何工作的?——融合与推理 1.融合(Fusion):L模块(LLM)的输入是一个组合序列。这个序列的前半部分是来自“眼睛”(V模块)的视觉Token(即被MLP Projector“翻译”过的视觉特征),后半部分是来自“用户”的文本Token(例如“Put eggplant in bowl”,即“把茄子放进碗里”)。 2.推理(Reasoning):一旦输入融合,LLM就会像处理普通文本一样,在“视觉”和“文本”Token之间进行复杂的“自注意力”(Self-Attention)计算。 在ORION这样的高级架构中,L模块的输入甚至还包括了来自QT-Former的“历史Token”。 此时,LLM会执行后续的高级推理任务,如“场景分析”(Scene Analysis)、“动作推理”(Action Reasoning)和“历史回顾”(History Review)。 语言编码器(L):VLA的“大脑” “大脑”的输出:从“思考”到“指令” VLA“大脑”的革命性在于它的输出。 它输出的不是用于聊天的文本,而是一个(或一系列)高度浓缩的、机器可读的“动作令牌”(ActionToken)或“规划令牌”(Planning Token)。 这个“Token”就是L模块(大脑)“思考”的最终结晶。它代表了一个明确的“意图”或“决策”(例如“抓取红色物体”或“执行减速让行策略”)。这个“意图”将被传递给A模块(“手脚”),由A模块去解码和执行。 “大脑”的优化:LoRA与MoE 在车端或机器人上部署一个70亿(7B)参数的LLM是一个巨大的工程挑战。为了让“大脑”既聪明又高效,业界采用了两种主流的优化策略: LoRA-Low-Rank Adaptation:这是ORION(小米的实现)采取的策略。即冻结(Frozen)庞大的Vicuna主体参数,只在旁边“外挂”一个极小的、可训练的LoRA适配器。这使得VLA的微调成本和部署灵活性大大降低,是一种“轻量化”的改装方案。 这里面理想汽车MindVLA的与ORION等模型采用开源LLM(如Vicuna)+LoRA轻量化微调的“改装”路线不同,理想汽车的MindVLA选择了更彻底的“从零开始打造LLM”的“自研”路线,其L模块被称为MindGPT。 理想汽车的L模块称为MindGPT MindGPT的核心特点在于其针对3D驾驶场景的原生设计: 1.原生3D输入:MindGPT的输入不是经过MLP Projector“翻译”的2D图像特征,而是来自V模块的、通过3D Projector或3D Tokenizer处理的“3D高斯特征”(3D Gaussian Features)。它的“母语”就是3D空间。 2.面向驾驶的预训练:MindGPT在预训练阶段就学习驾驶相关的物理因果律,例如通过“未来帧预测”(Next Frame Prediction)和“CoT(条件输出)”等任务进行训练。 3.为车端优化的架构:为了在车端芯片上实现实时推理,MindGPT内部采用了MoE(混合专家)+稀疏注意力(Sparse Attention)架构,通过Router(路由器)实现稀疏激活,大幅降低了计算量。 4.高效动作输出:在输出“Action Tokens”(动作令牌)时,MindGPT采用了“并行解码”(ParallelDecoding)技术,在一个步骤内同时生成