行业研究公司研究宏观策略财报招股书会议纪要中央经济工作会议低空经济 DeepSeek AIGC 智能驾驶大模型

头部Robotaxi公司近况跟踪

2025-06-03未知机构土***

AI智能总结

核心观点与关键数据

技术架构与演进

小马智行（小马）的自动驾驶算法架构经历了从模块化到逐步引入模型化（ModelBase）的转变。
目前，感知和预测模块已完全模型化，规划模块正在逐步替换规则逻辑为模型输出。
主干算法仍采用模块化设计，融合多个传感器（相机、雷达）输入，并基于Transformer架构。
小马尚未采用端到端模型，但内部有团队探索端到端方案。

数据处理

小马结合真实数据和仿真数据进行模型训练，感知模块主要使用真实数据，规划模块使用仿真数据补充。
当前真实数据采集量有限，难以覆盖所有corner case，需通过仿真数据增强训练。

强化学习与模仿学习

强化学习和模仿学习主要应用于规划模块，模仿学习用于处理规则难以覆盖的场景。
小马内部有专门团队研究模型化方法，一旦效果优于传统方案，将逐步替换。
目前，强化学习和模仿学习在整体算法中的使用比例不大。

硬件与算力

小马第七代Robotaxi成本约30万元，硬件主要包括9个雷达、13-14个相机、Orin芯片等。
算力分配：三块Orin芯片，一块作为备用，其余两块分别处理感知（含雷达输入）和预测/规划任务。
当前算力配置满足需求，暂无更换芯片计划。

运营情况

截至2025年6月，小马Robotaxi实际运营车辆约百辆，主要投放于北京（亦庄）、广州（南沙）。
2025年目标投放1000辆，主要城市为北京、广州、深圳，上海因牌照问题暂未大规模投放。
运营收入主要来自接单，单均收入约20-30元，人力成本包括网格员、远程协助等。
小马预计2027-2028年实现公司层面盈亏平衡，需达到10万辆规模。

行业竞争格局

小马视文远知行为重要参考，认为自身技术实力与文远知行相当，但商业化落地速度更快。
国内Robotaxi竞争者排序：小马 > 文远知行 > 百度Apollo > 滴滴。
行业整体技术趋于成熟，商业化落地是关键瓶颈。

未来关注点

商业化落地仍是行业核心挑战，需关注商业模式和盈利能力。

头部Robotaxi公司近况跟踪20250603_原文 2025年06月04日00:28 发言人00:00 好的，各位同大家好，我是东吴汽车人员孙仁浩。然后也是欢迎大家继续参与我们的第三期的L4产业链的各个会议。本次我们邀请到了头部的ROMtak的关于算法技术的专家，然后来跟我们讨论目前L4在做智能驾驶算法层面是什么样的一个变化，以及头部robtec公司他们的在运营方面的一些部署和进展。在之后我们也会有更多的关于有不是无人物流等等各种的专家的交流会议，也欢迎大家继续关注我们本系列的一个电话会议。会秘书帮忙介绍一下专家。发言人00:50 这能听到吗？可以。好的，你好。对我也是跟您先就几个大的问题先跟你请教一下。我们先从技术维度�发，我们看到比如说我们看到一些公开的一些信息，像小马一直在强调自己的这个世界模型，强化学习以及我们比较困惑的就是对于自动驾驶L4的公司来说，我们的底层的这个算法的框架一般是怎样去搭建的，然后是一个之后是一个怎么样的一个演化的思路，你可以先大概帮我们先梳理一下。发言人01:32 如果你关心小马这边的一个情况的话，其实现在的话你可以理解成，因为我们�发的比较早。我们整个公司创立的时候是在2016年，到现在的话就是八九年的时间了。之前的话肯定不会用现在非常先进的一些方法来做这套。最早的话其实整个体系结构其实就是一个模块化的这么一些做法，预测规控规划然后控制这样子。所以我们现在所落地的这套的话，也是有之前的这些技术架构的一些隐在其实所以说其实当然在我们随着这个技术发展，这个强化学习也好，这个世界模型也好，其实都是加入到这个框架之中。就是说最初的整个框架的话还没有完全被拿掉，其实可以这么去去说这个事情。如果说的更细一些的话，比如说我们现在的话就是还没有上，还没有把端到端这个东西做到最主最最主要的这套，就是最最主干的这套算法里面去。发言人02:49 其实我们可能在一些其他的一些场景可能会切到这套方案，可能是这样子。对主干的这套的话还是模块化的，就是感知这边有多个模型多个模型的输🎧，然后会把这些结构化的一些数据给到下游的预测，还有规控模块，而且也会依赖这个高清地图的一些输入。然后在在这规划控制里面的话也有一些还有一些规则的一些逻辑在当然也有一些是嬷一些模型给的这给的一些输🎧，包括强化学习也好，还有这个intention就是那个叫什么instance，叫模仿学习也好，有一些这样的一些模型的一些结果在，基本上是这么一个架构。发言人03:43 可以说明白，我们其实看到在可能在前两年，我们关注比较多的产业的车企，其实经历一轮底层模型思路的一个转变，就从之前的CAN的架构转换到了大模型传送这一套思路里面来。然后慢慢的也是逐渐把之前依赖的ubase所剥离掉。对我们来说我们是否有这样的过程，包括我们现在大模型这种概念性的东西是否是真正去上车的。发言人04:14 我们其实在做这个事情就是我们是逐步替换成这个modelbase的这套。首先我们会我们现在有几个阶段。现在的话我们首先感知还有预测这块其实已经全部是模型来做了。基本上就是一些规则的话，可能只是作为一些兜底的情况，其实大部分是模型来完成的。就是我们在规划这块的话，残留的一些逻辑的的一些规则写的一些逻辑的话还是会有不少。但我们也是逐步替换成这个模型给的输�了。发言人04:47 其实是怎么去做这个替换呢？其实是这样子，就是我们要让模型做的比原来这套规则好了，我们才会把它切成这个模型这套。然后如果说是一些�发的比较晚的一些车企，他们在L四这块的话可能因为积累的没有那么多，所以说他们以前的一些方案的话就baseline的话会比较低，所以他们切成这个modelbase的话，这个就比较容易一些。但是我们比这个baseline已经比较高了。就是我们迭代很多年的这套方案。所以说我们要让模型做的比原来这个方案要更好的话，其实可能会需要更长的时间来切到这套上面去。其实所以说现在是一个不断的切的这么一个过程，其实是两套疫情的存在。发言人05:33 其实我们这边一些比如说一些规控的这边的一些开发者的话，一方面他们也要做一些原来这套的一些维护还有提升，另外的话也会去做一些这个模型这方面一些工作。其实这另外的话我们也有一个小的专门做多少吨的事情。其实一旦他们做的比之前之前的一些方案要好的话，我们就会切过去，其实是这样子，明白这个的转变其实也是在openI�来，然后大模型的这个功能被大家所认识到之后，我们去做了这样的一个转变，对吧？应该不是这样，不是这样，我们这边其实据我所知，其实更早我不知道了。首先感知和预测这块一直都是其实很早就用模型来做了，这个大家都这么做，规控这块规划这块的话我知道就是2122年肯定已经有了，二年已经有甚至有上车的一些东西了，可能比较少，但现在的话其实逐步在增加。发言人06:45 其实所以说你说是那套火了之后再做的，其实并不是这样，因为其实更早的话微博的话我理解是其实更早的我理解就是从公司上层来说，其实是更愿意去followvivo的一些方案。其实就不是说去follow其他的一些车企的做法。我觉得其实从比如说高层，比如说教授他们这波人，其实更想去看其实是微模的一些方案的。所以微某的之前其实也是比较早去做这样的一些探索。其实就motobase就是一些deepplanplanner一些做法，就是很早就已经做了。其实我们这边也是很早就已经做了，其实但做的没有可能。大家发现真正用规则这套的话，可能目前来说可能做的比较好，所以说上的还是一套，但是会逐渐替换到deepinchina这块。明白。发言人07:41 我们稍微量化一点的话，您说的感知预测这些模块其实很早我们就大模型化了。但是规控这一块的话，你说是是不是不是大模型化？不是大模型化业界也没有大模型化。业界可能他们是一段式的端到端化，可能就是一端到端化。其实也不是用这种，如果说你是大模型的话，可能就是VM那套。发言人08:09 另外的话其实真正在上的车企也没有那么多理想是在做。但是理想是上了，确实是真正上的L4。真正上的L4的话，我理解可能还没不一定有啊，就是真正落地L4的大模型还不一定，有可能就是现在有一些人是用端到端的一个用一个比较大的一个像特斯拉那样的方案。就是说特斯拉的话它就是一个模型来解决大部分的问题，对吧？他们应该是应该说他们用的是，一个模型来做感知，叫做感知onemodel，或者说感知多少端这样子的这个算法，或者说真正的一段是多少段，就是规控这边也是用跟跟感知同一个模型来做，也有这种不同的方案的话，但是说你说大模型上车，这个现在还其实还是没有的。因为我说大模型就是那个大语言模型，LM，那那个东西其实没有。发言人09:09 那那我们的这种模型的训练用的是这种transformer的底层的架构吗？这个已经用上了。其实你可能想问的是说，我们什么时候切到这个BV的transformer这套是吗？这个的话也是可以去做这个事情，这套的话其实是是是我们现在的话就是说我们感知这边还有多个模型。就是说在我们最主干的模型确实是确实是用的多个多个相机和多个雷达的输入，然后用的是投到BNB视角下去做的这个事情。所以说你可以理解成其实就是用的这个breformer，类似breformer这个架构来做的最主要的这个模型。好的，了解。发言人10:04 然后从数据端，因为我们首先也一直在强调，比如说仿真数据和真实数据的一个应用。对我们真实的情况，对小马真实情况来看的话，数据这一块就是是是是如何去处理的，就真的会去搜集真实的数据，然后再去结合仿真数据这样去做模型的训练吗？还是说有哪些方式？这个的话其实因为你知道，因为我们现在的话其实还不是这个，我不知道教主在外面催的催催的是具体是什么，我们我就是我们其实现在你内部有两套，一套真正上次那套其实是模块化思路，当然也有人在做这个多拉多的这这个模型。其实如果说是模块化的这套的话，我们现在的数据大部分还是用的我们真正真实的数据。大部分当然在在deeplandingplanner那块，就在这个planner领域那套的话，他们也会用这个生成的一些数据来做的。发言人11:17 从模块化的角度来看，就是感知这块其实还没有我理解是还没有用上一些虚拟的一些数据。其实很多还是真实采集的数据。但是在这个硅控一些模块的话，我理解其实已经用了一些仿真�来的一些虚拟化的一些数据来做这些。我我理解其实这个的话就是一方面在端到端，我我我也说内部也有人在做端到端。高端这个的话其实会用大量的这部分这些数据，他们会用大部分很多数据，然后就是规控的模型化这块的话也会用这些数据，就是会增加这块的数据的一些使用。发言人12:11 因为我们现在的数据不够，为什么说不够？就是说感知这块的话用真实数据的话可能会够。但是我们其实如果要让硅控的一些数据的话，还其实不太够的。我们其实涉及到很多一些博弈，还有一些commoncase，还有一些就是说我们我们的数据大部分是一些监管的数据。但是你会发现我们其实接管了之后，会对这个真实的一些场景会造成一些影响。所以说我们在这块的话是需要一些防控的数据来做我这些事情是啊，所以这块的话会我我我所知道的是会加一些这样的一些数据在这里。发言人12:54 这个里面其实。好的，因为现在我们路上实际上跑的车就小几百台。我们现在目前从真实的算法的训练来看的话，真实的数据回来是不是还是处于一个相对来说不太够的状态。然后我们去用一些仿真数据去解决一些cornercase的问题。发言人13:17 我这样理解，您觉得是正确的吗？我理解有有应该这么说，有一些数据你跑的再多也很难很难拿到。其实就是得得跑非常多才能拿到。其实你可以这么说，所以说就更效率更高的话，可能是去做一些合成其实。了解。然后还有一个话题，就是关于我们一直说的强化学习、模仿学习以及所使用的世界模型的一个这样的说法。对，您能不能稍微系统的帮我们过一下，就是小马他们到底是怎么去理解世界模型的，然后到底是怎么理解强化学习和模仿学习的一个优劣势差异，以及真正自身我用到强化学习的比例是多少？发言人14:10 这么说，其实首先就是在etoe里面，首先就是我们几个方面，我刚刚也说了，就是有有好有好有好几个部分。首先如果是单个模块的感知这块，其实是很少用，强化学习和模仿学习的预测这块也很少用。其实用的比较多的是这个planner这块，就是规划这块。这块的话其实模仿学习比较早就开始使用了，具体的话会用在一些我们用规则处理不好的一些场景。我们就会用到这些modelbase的这些方法。这里面的话其实是很多用这个limitationlearning，就模仿学习这个东西来做。其实然后强化学习的话，在一对一里面会用到这个，我们的etoe模型里面是用到了强化学习的。其实现在的话planner这块除了invitation的那我理解也有一些小模块会用到强化学习。发言人15:17 所以说你说比例是多大？不都不大不大，就是不大。因为你知道。发言人15:30 首先现在我们现在还不是真正上车这套还不是这个端到端的一个模型来解决，还是还不是一个模型的那这个的话就是感知这边有有不少的一些模型，除了最主干的一，我们刚刚说的这个BB的这么个模型之外，还有一些其他的一些细小的一些模型来保证一些安全性。然后还有预测的一些模型也没有运用到这个里面。那其实是depend这块会用的会多一些，大概就是这样的一个情况。就是说你让我说一个比例�来，就是说一定是百分之几，百分之几还是百分之几十这样子，我我我也很难说�这个百分比比例，大概是这么去用。发言人16:12 明白，您觉得在真正实操过程当中，想要学习上车的难点在哪里？因为我个人理解可能会对比如说奖励模型的设定相对来说还是比较困难的。可不可以在车身上复杂博弈场景，对我们南京哪里，然后以及我们的解决的思路是大概是什么样子的。发言人16:35 您刚刚问的是强学习这个上车的难点，还有解决思路是吧？对，是的，是这样的，这个比较难回答。因为其实为什么？就是说因为我没

点击免费查看完整报告