世界模型登台AI顶会CVPR,物理AI进程加速 2026年06月11日 证券分析师黄细里执业证书:S0600520010001021-60199793huangxl@dwzq.com.cn研究助理童明祺 执业证书:S0600125080005tongmq@dwzq.com.cn 买入(维持) ◼世界模型登台AI顶会CVPR,第二代VLA与世界模型互补共存,物理AI进程加速。2026年6月,小鹏集团世界模型相关研究登上国际计算机视觉与模式识别会议(CVPR)。第二代VLA与世界模型并非互相替代或竞争,而是同一物理世界基座模型在不同训练信号下的两个侧面:VLA由人类驾驶行为动作监督、解决“如何行动”,世界模型以下一帧预测自监督、教授动力学与因果、解决行动之后世界会如何变化,二者共同应用ScalingLaw训练统一基座。 市场数据 收盘价(港元)59.55一年最低/最高价57.40/110.80市净率(倍)3.48港股流通市值(百万港元)81,063.02 ◼第二代VLA省略语言中间层,云端到车端快速迭代,推送成效初显。第二代VLA将视觉与语言在基座层联合建模、省略语言中间层显式转译,以降低信息损耗、提高推理效率;其基于云端约3万卡集群训练、研发投入20亿元以上量级、全链路迭代约5天一次。第二代VLA于2026年3月推送,推送首月搭载车型辅助驾驶里程占比首破50%,公司规划2026Q3推送新版本以进一步提升能力上限。 基础数据 每股净资产(元)14.87资产负债率(%)71.77总股本(百万股)1,914.45流通股本(百万股)1,565.75 ◼X-World、X-Foresight、X-Cache三项工作叠加CVPR正式收录的DrivePTS,构成世界模型的学术支撑。X-World以VAE潜空间扩散实现可控的多相机场景生成(空间压16×、时间压4×);X-Foresight建于VLA之上、以分块自回归同时预测多相机画面并输出动作;X-Cache以跨块缓存对去噪主干实现最高约2.7倍推理加速、减少约七成重复计算;DrivePTS以渐进式学习+互信息约束+频率引导结构损失实现罕见场景可控生成。 相关研究 《小鹏集团-W(09868.HK):2026年一季报点评:Q1业绩符合预期,物理AI商业化加速》2026-05-31 ◼物理AI三大应用商业化提速:第二代VLA、Robotaxi、人形机器人IRON同步推进。图灵芯片自2025Q3量产上车、2026年出货目标近100万片、二季度起全系切换,大众成为图灵芯片与第二代VLA对外合作首发客户;Robotaxi于2026年5月18日在广州完成首台量产车下线(中国首次整车厂全栈自研),公司预计2026年下半年开启示范运营;IRON规划2026年底量产、月产能目标上千台,2026年6月10日何小鹏发布内部信宣布亲自兼任机器人业务负责人。 《小鹏集团-W(09868.HK):2025年年报点评:Q4业绩符合预期,物理AI转型可期》2026-03-23 ◼盈利预测与投资评级:小鹏集团正经历新一轮强势新车周期+全球化+Robotaxi+机器人四重共振阶段。我们维持公司2026/2027/2028年营业收入预分别为914/1265/1546亿元,同比分别+19%/+38%/+22%。维持公司2026/2027/2028年归母净利润为-21/15/58亿元。2026/2027/2028年EPS分别为-1.08/0.78/3.03元,2027/2028年对应PE分别为65/17倍。我们认为:小鹏集团在物理AI领域布局具备前瞻性且引领性,目前估值处于显著低估状态,维持“买入”评级。 ◼风险提示:乘用车价格战超预期;终端需求恢复低于预期;L3/L4级别智能驾驶政策推出节奏不及预期;人形机器人产业化进展不及预期。 内容目录 1.第二代VLA与世界模型:互补共存的物理世界基座模型............................................................4 1.1.第二代VLA:省略语言中间层的端到端架构.......................................................................41.2.世界模型:预测世界下一状态的问题范式.............................................................................41.3.小鹏物理世界基座模型技术图谱.............................................................................................5 2.世界模型的学术支撑:X-World、X-Foresight、X-Cache............................................................6 2.1. X-World:可控的自车中心多相机生成式世界模型...............................................................62.2. X-Foresight:视觉-动作联合因果预测网络.............................................................................72.3. X-Cache:少步自回归世界模型的跨块缓存加速...................................................................82.4. DrivePTS:面向罕见场景生成的渐进式学习框架..................................................................8 3.智驾与物理AI商业化规划................................................................................................................9 3.1.第二代VLA:量产推送与三季度迭代...................................................................................93.2. Robotaxi:广州量产下线与示范运营.......................................................................................93.3.人形机器人IRON:年底量产规划........................................................................................10 5.风险提示............................................................................................................................................11 图表目录 图1:标准VLA与第二代(创新)VLA的架构对比.......................................................................4图2:世界模型的输入与输出...............................................................................................................5图3:小鹏物理世界基座模型技术图谱...............................................................................................5图4:X-World架构..............................................................................................................................7图5:X-Foresight推理流程.................................................................................................................7图6:X-Cache总体架构示意..............................................................................................................8图7:DrivePTS架构.............................................................................................................................9 表1:第二代VLA与预测性世界模型的训练信号对比....................................................................6表2:小鹏CVPR 2026相关四项世界模型成果概览.........................................................................6表3:小鹏集团物理AI三大应用进展与规划..................................................................................10 1.第二代VLA与世界模型:互补共存的物理世界基座模型 2026年6月,小鹏集团的世界模型相关研究登上国际计算机视觉与模式识别会议(CVPR)。VLA与世界模型二者并非互相替代或竞争,而是同一物理世界基座模型在不同训练信号下的两个侧面。 1.1.第二代VLA:省略语言中间层的端到端架构 小鹏第二代VLA省略语言中间层的显式转译以提高推理效率。标准VLA沿“视觉(V)→语言(L)→动作(A)”链路工作,以语言作为中间转译环节,该环节存在文字转译图像困难、信息损耗较高的问题。2025—2026年,小鹏提出第二代VLA,省略语言中间层的显式转译,可降低信息损耗、提高推理效率、缩短反应时延。 第二代VLAScaling更加流畅。第二代VLA以视频、文本/语言指令、自车状态等为输入,经基座模型输出隐式tokens与轨迹tokens,并与世界模型仿真、强化学习等环节相连。算力与投入方面,公司第二代VLA基于云端约3万卡算力集群训练,相关研发投入达20亿元以上量级,云端到车端全链路迭代周期约5天一次。 1.2.世界模型:预测世界下一状态的问题范式 世界模型更应被理解为一个“问题”而非某种固定架构,其最朴素的定义是预测世界的下一个状态。世界模型包含四个基础要素:当前对外界的观察𝑥(𝑡)、上一时刻对世界状态的估计𝑠(𝑡)、当前要采取的动作𝑎(𝑡),以及难以预测但会影响外界变化的潜在变量𝑧(𝑡);其形式化表述为𝑠(𝑡+1)=𝑃𝑟𝑒𝑑(ℎ(𝑡),𝑠(𝑡),𝑧(𝑡),𝑎(𝑡)),其中ℎ(𝑡)为对观察的编码。 世界模型并非一种与VLA对立