AI智能总结
打造原生多模态物理世界基模,设计原生多模态tokenizer处理连续输入信号原生融合多模态信息。 采用32倍超密视觉推理思维链(Visual CoT)技术实现更快的思维过程,更高的预测精度,相比传统CoT预测误差降低33%。 支持多模态输出(语音、视觉、动作、行为)。 模型具备行为决策 【东吴汽车黄细里团队】小鹏汽车:THE FUTURE第二代VLA 20260302 打造原生多模态物理世界基模,设计原生多模态tokenizer处理连续输入信号原生融合多模态信息。 采用32倍超密视觉推理思维链(Visual CoT)技术实现更快的思维过程,更高的预测精度,相比传统CoT预测误差降低33%。 支持多模态输出(语音、视觉、动作、行为)。 模型具备行为决策评分能力,可自动生成不同场景下的解决方案并评估合理性。 自研图灵芯片,联合优化AI编译器与模型结构(图灵结构),车端模型运行效率提升12倍,硬件利用效率从22.5%提升至82.5%,单颗图灵芯片有效算力接近10个Orin X。 云端训练效率提升,单颗GPU训练效率从0.1 sample/s提升至1.1 sample/s(提升超1000%),单个任务训练效率提升43倍,GPU硬件利用率从40%提升至90%。 单次训练云端高质量数据达50PB,为大语言模型的20倍,每秒钟传感器数据输入达53亿字节,训练模型整体的Token数量达4万亿,与ChatGPT训练规模相当。 小鹏第二代VLA车端模型推理Token消耗量(20万辆Ultra车日均小号58.8万亿Tokens)约等于全国数字AI Token日调用量的80倍。 小鹏第二代VLA 3月下旬及4月开启全量推送。 2026年重要里程碑包括:安全接管里程提升50倍、平均接管里程提升25倍、车端模型参数量提升到200亿以上、媲美FSD最新能力、VLA+ VLM驾舱一体、Max版本蒸馏推送、Robotaxi开启运营。