您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:畅谈Robotai与自动驾驶大时代 - 发现报告

畅谈Robotai与自动驾驶大时代

2024-04-27未知机构匡***
畅谈Robotai与自动驾驶大时代

日推出 Robotaxi 无人驾驶出租车服务。此外,特斯拉的 FSD V12 版本数据更新迅速。在中国,滴滴自动驾驶是国内自动驾驶领域的先行者之一,一直在 L4 级别自动 驾驶技术 上进行布局。最近,滴滴自动驾驶与广汽集团旗下的电动车品牌埃安 宣布成立合资公司,双方将基于广汽埃安的纯电动平台和车辆电气架构,结合 滴滴自动驾驶面向出行服务的 L4 级别自动驾驶技术,共同打造 L4 级别无人驾 驶量产车。今天,我们非常荣幸地邀请到了滴滴自动驾驶的首席运营官,同时也是滴滴自 动驾驶与广汽埃安合资 公司安迪科技的总经理孟醒孟总,与我们共同探讨 Robotaxi 和自动驾驶的未来发展。今天的讨论将由两位首席共同主持,我将从 计算机技术的角度出发,聚焦技术层面的重大转折点。稍后,我们的汽车首席 分析师崔老师将从商业模式的角度,与孟总一起深入讨论自动驾驶的最新进 展。首先,我想从技术角度提出大家普遍关注的问题。特斯拉的 FSD V12 版本,尤 其是最近发布的版本,已经实现了相当于老司机级别的 L4 甚至 L5 级别自动驾 驶。在海外媒体如 YouTube 上,我们可以看到其零接管的成功率可能超过 90%。孟总,您如何看待这一技术突破?它背后的基础是什么?孟总:首先,感谢有机会与大家分享我们的观点。特斯拉以及其他车厂所做的 辅助驾驶系统,我们统 称为辅助驾驶。其潜在假设是车上始终有人,是在人机 共驾的前提下优化体验的自动驾驶模式。滴滴自动驾驶以及我们的海外同行,我们的目标是在无人驾驶领域,假设车上没有司机。这实际上是两个不同的方 向。具体到特斯拉的 FSD V12 版本,它从早期的版本到现在的 12.3 版本,包括 对 12.4 和 10.5 版本的预测,对行业产生了很大影响。影响主要体现在特斯拉重写了整个架构,从原有的多个模型和一些兜底规则的 模式,转变为马斯克所 说的端到端模型。这个模型中,人类经验的预判非常 少,基本上是从感知信号输入到控制信号输出,过程中是一个黑盒,所有训练 都基于积累的数据。但是否真正实现了完全的端到端模型,目前还无法证实。我们与特斯拉的同事沟通,或从市场上获取的信息,都不能作为确凿证据。如 果我们假设特斯拉确实做到了这一点,那么对行业来说,这将是一个重大变 化。因为在过去,无论是效果上的提升,还是自动驾驶能力的可解释性,都不 太支持端到端模型的出现。FSD V12 的最大影响在于它采用了端到端模型,理论上具有更高的天花板。长期 而言,其能 否提升取决于能否在模型上进行大量数据训练,从而解决以前无法 解决的复杂问题。这是我们行业内部讨论 FSD V12 价值时的共识。至于 V12 版本发布后的实际效果,我认为 12.1 版本,即伊隆·马斯克自己发布 的视频 ,与 V11 相比,可能是持平或略有下降。这是一个有趣的现象,V12 的 第一个版本发布时,大家都感到震惊,但同时也不知道如何评价,包括行业内 的许多人都感到困惑,不知道这是好事还是坏事。 从架构上看,两个版本都具有相当的规模,重写架构是一项艰巨的任务,而且 大家不预期它会立即表现出色,即能达到与上一个版本相似的水平,这已经很 了不起了。所以从这个角度来看,V12 的架构改进是积极的,天花板很高。但 同时,作为一个辅助驾驶能力,如果驾驶 45 到 48 分钟后出现一次闯红灯的情况,可能还不如上一个版本,这在某种程度上是退步的。 当然,从 12.0 到 12.3,现在已经有了很多进步。最近发布的视频显示,V12 版 本 能够完成许多新任务。但我认为我们首先关注的应该是架构上的天花板提 升,而不是它目前能达到的水平。你提到的零接管成功率 90%,在无人驾驶的 语境下,这是完全不及格的,这是远远不能接受的,因为如果假设车上没有 人,那么成功率应该是数量级上的差别。但是,作为一个辅助驾驶能力的提升,我们可以清晰地感知到它的进步。许多 以前无法做到的事情, 现在可以完成,甚至有时它不完全按照导航地图进行规 划,而是根据现场感知做出判断和规划。有时,它可能不会严格按照红绿灯规 则行驶,而是根据旁边的车流量来决定是否闯红灯。这些变化表明,V12 版本在算法能力上有所提升,能够完成以前无法完成的任 务,但这种提升并 没有体现在稳定性和可靠性上。也就是说,虽然现在能够做 到,但成功的概率是多少?我们进行十次操作能成功九次,还是一百次操作能 成功九十九次?目前看来,这种提升更多体现在方法能力上,而不是可靠性 上。在当前阶段,尤其是在无人驾驶领域,可靠性变得越来越重要。我们衡量自动 驾驶的核心标准 2、自动驾驶数据驱动竞争格局近日,我亲自体验了 Robotaxi 服务,在过去两周内共进 ,这一频率在行业内 属于平均水平。在城市道路和郊区中心,以及高速公路上的表现有所不同,高 速公路上的接管频率可能超过 100 英里,而市中心和郊区中心的接管频率可能 在 10 到23 英里之间。尽管这一表现并不突出,但 Robotaxi 相较于以往版本已 经取得了显著进步。 为了获得更准确的评估,可能需要进行更大规模的测试,例如内部测试,至少 需要行驶上万公里。目前,我们所获得的数据只能反映出 Robotaxi 的最低性能 水平,而无法确定其最高性能。因此,进行严谨的测试需要投入更多的成本和 时间。 此外,特斯拉的 FSD(全自动驾驶)系统在经历了 V12 和 V12.3 版本的迭代 后, 马斯克于 8 月 8 日宣布推出 robot taxi 服务。这标志着自动驾驶技术开始进 入数据驱动的快速发展阶段。随着 FSD 系统的不断完善,robot taxi 的用户数量将增加,从而为系统提供更多的数据,进一步优化 FSD 的性能。这种数据驱动 的竞争模式可能 会成为未来自动驾驶领域的主要竞争方式,对于拥有大量出行 需求和车队数据的公司,如滴滴,将是一个有利因素。目前,自动驾驶技术的发展越来越依赖于机器学习。从感知、决策到控制和预 测,机器学习技术已经 在不同程度上被应用于自动驾驶的各个环节。特斯拉在 这方面做得尤为突出,实现了全流程的机器学习应用。特斯拉在数据采集和处理方面具有优势。首先,特斯拉拥有大量的车辆和先进 的采集设备,能够收集 到大量的行驶数据。其次,特斯拉已经建立了成熟的数 据管道,能够处理大规模的车辆数据。然而,要实现数据的闭环利用,还需要 进行数据的清洗、筛选和标注,以及仿真系统的自动迭代和场景库的建设。这 些都需要强大的基础设施和高昂的成本。 最后,特斯拉还需要一套合适的架构,以确保训练数据能够被有效应用并进行迭代。目前,特斯拉在这方面已经取得了一定的进展,但仍然处于初级阶段。随着基础训练平台的 GPU 数量预计将增长两到三倍,特斯拉在自动驾驶领域的 领先地位将进一步巩固。3、自动驾驶的算力与挑战对,所以架构我认为需要整合三方面:数据收集、基础架构的区域训练能 力,以及算法模型对数据迭代的支持。这三者缺一不可,才能确保整个系统的顺畅 运行。特斯拉在这方面建立了非常强大的架构,但即便如此,它的架构也在不 断地发展和探索中。对于滴滴而言,情况也是类似。我们的优势在于滴滴本身 拥有庞大的数据规模和技术设施,我们一直在进行数据训练,以支持滴滴的网 约车系统。我们拥有自己的基础平台建设,但如果没有足够的算力支持,这些 都是空谈。对于一家初创公司或小型企业来说,从头开始建立一个基础平台的训练体系是 非常困难的。这需要大 量的 GPU 算力、云计算设施以及弹性云等一系列能力,而这些通常都是现成的。当然,一旦这个体系运行起来,它的价值是巨大的。但反过来说,还需要考虑的一个问题是,最终是否所有车辆都会使用端到端的 模型。我认为这还是一个未知数,因为虽然端到端模型的通用性和功能性更 强,但它也带来了更大的问题,如前期的巨额投入、训练成本,以及更大的黑 盒性。一旦出现问题,其行为很难被追溯和解释,这在线上文本或图片生成中 可能不是问题,但在线下物理行为中,如服务器群、汽车等,任何失误都需要 严格的溯源和纠正。此外,还有车辆规范和一系列制度需要考虑。因此,这两个行业可能非常不 同,对于端到端模型的接 受程度也会有所不同。当然,有很多方法可以作为最 后的保障或替代方案,但我认为在行业演进中,可能不会完全围绕数据飞轮逻 辑来评价一个企业的表现。特斯拉是基础算力投入的一个例子,其算力已经提升了 2 到 3 倍,使用了数千 张 H100 显卡。随着 FSD 和 12.3 等技术的使用越来越广泛,未来端到端的数据 驱动,包括训练、回撤等,以及盈利模式,算力的投入可能会非常巨大,甚至 达到互联网巨头的量级。对于云端和边缘侧的算力投入,您如何看待?如果我们采用不同的路线,那么在云端的投入选择可能不会完全与特斯拉相 同。我们的投入规模可能 很大,但影响系数可能与特斯拉不一致。如果我们假 设使用端到端模型,并使用超大规模的预训练数据来训练模型体系,同时建立 庞大的云计算平台,那么对应的投入将会非常巨大。例如,特斯拉可能已经投 入了 3 万张 H100 显卡,年底可能会增加到 8.5 万张,并可能建立与 H100 算力 相当的多 GPU 云计算训练平台。这些加起来将是一个非常大的规模。 当然,这些投入不仅限于 FSD,还可能包括其他工作和能力,甚至可能包括与 SAI 的信任、人机交互等,都可能共享同样的平台来实现。但可以肯定的是,这 将是一笔巨大的投入。如果我们类比一下,最近开源的最强大模型,如 Lambda School 的 M3 模型,大约需要 2,400 张 H100 显卡的集群来支持百亿甚至千亿级 别的参数模型。这已经非常惊人了。 一般来说,我们认为具身智能或自动驾驶的模型参数应该会比大型语言模型或 多模态模型少一些,因 为它不需要那么多冗余信息。但是,如果将其扩展到如 此大的规模,那么所需的算力将会非常巨大。 在云端,训练侧的算力需求可能还好,但在边缘侧,我认为特斯拉本来就不是在边缘计算上投入最多的。当然,这得益于特斯拉强大的一体化研发能力,使 得模型和硬件能够高效 协同,使得端上的算力能够支持 FSD。实际上,端上的 算力并不算特别大,下一代的成本可能会有所增加,但肯定不会是行业里最高 的。即便如此,端上的算力成本正在迅速下降,因此不会成为一个特别大的问 题。将这种模型部署在车上,带宽和内存可能是更大的问题,而算力反而可能 是相对较小的问题。然而,我认为一个可能被忽视的价值是,尽管每辆车的算力有限,因为我们要 考虑成本,不可能在每 辆车上都放置一台云服务器。但是,如果有数百万辆,甚至未来可能上千万辆这样的车在我们的平台上,那么这将是一个非常庞大的 算力。这个算力在大多数时间里可能用于支持车辆的自动驾驶能力,但在空闲 时间里,它可能比今天的任何公有云都要大得多。如果我们能够将这种分布式 算力,即使打一个折扣,转化为有用的产品,那么这可能是一个非常有价值的 资源。4、自动驾驶与数据价值探讨明白,刚才也提到了。补充一点,您说对我补充一点,就是刚才因为也 讲了滴 滴,但滴滴其实在这方面会更加注重。我刚才提到,滴滴不仅仅是一家自动驾 驶公司,它的核心业务是网约车,并且在此基础上拓展了金融等一系列业务。因此,滴滴为了全面考虑业务,已经建立了自己的云基础服务平台。在这个平 台内部,滴滴已经具备了包括显卡算力在内的能力,这些能力并非专门为自动 驾驶采购,而是为了构建完整的基础设施。这些基础设施在算力需求高峰和低 谷时都能为自动驾驶提供支持,尤其在使用量上升时。当然,我们也有低谷 期,这时滴滴的整个业务体系可以共享算力,实现算力需求的相对平衡和最有 效利用。这可能是我们相对于特斯拉或只专注于自动驾驶的公司的一个重要优 势,即我们在算力的有效性和投入上的回报率可能更高。关于特斯拉的 Robotaxi 和 FSD 的成功,全球约有 500 万辆的保有量,这将带 来 巨大的数据资源。对于国内的情况,包括滴滴在内的企业,您如何看待数据潜 力和储备情况?未来格