AI智能总结
2025中国汽车智能化创新峰会——端到端自动驾驶专题论坛-20250427_原文 2025年04月28日 10:24 发言人1 00:03接下来我们将进入到峰会的第三个板块,端到端自动驾驶专题论坛。 发言人1 00:10 在自动驾驶端到端架构设计中,newmax研发了基于decoronemodel端到端技术架构,特别是对transfer解码器在自动驾驶中的应用进行了深入探索,在架构设计和工程化落地方面均取得了非常不错的进展。 发言人1 00:30 接下来让我们花欢迎newmax首席科学家陈二康博士带来演讲,主题为端到端onemotor架构设计,有请。 发言人1 00:46很感谢主办方的邀请。 发言人1 00:48然后今天很高兴和大家分享一下,老马是在这个重驾驶相关领域的一些工作。 发言人1 00:57那么今天的工作,今天的分享就主要分为三个部分,我会快速的介绍一下公司。 发言人1 01:04然后第二部分是我们在做的这个感知相关的一些工作,我们叫做BVI9架构。 发言人1 01:10最后我们会重点分享一下,如何把感BVI这个感知扩展到这个感知规划端的抵扣的这个技术架构的设计。 发言人1 01:22纽劢科技是行业领先的人工智能的科技公司。 发言人1 01:26的发展历程。 发言人1 01:27我们2016年在硅谷成立,2017年研发中心的搬回上海。 发言人1 01:33经历了在1.0时代我们获得了德赛西威的二战略投资。 发言人1 01:39在2.0时代我们拿到多个量产的定点项目。 发言人1 01:45在2023年10月份,获得了研山科技的1亿美元的B轮融资。 发言人1 01:51在也在加速多个量产项目交付,以及新的下一代技术的研发工作。 发言人1 01:58我介绍一下这个学雷博士,学历博士曾任职于高通和特斯拉。 发言人1 02:04在特斯拉期间是perit研发团队的核心成员。 发言人1 02:08作为特斯拉vivan的深度学习负责人,也参与了特斯拉第一代产品的研发工作。 发言人1 02:16这个是是主要做的一些工作,主要包含云端和这个车端的。 发言人1 02:22我们自己是不做这个硬件相关的工作,要和合作伙伴一起做自动驾驶的解决方案。 发言人1 02:30主要包含max pad phone,我们会这里面包含两部分,第一个是max OS的中间键,然后之上是我们的上层应用。 发言人1 02:40包含感知,包含决策,也包含规划方案控制。 发言人1 02:46在除了除此之外,我们还在开发max cloud的云端系统。 发言人1 02:50这个里面主要包含云端闭环系统以及云端的数据集去支持我们的这个研发工作,这个是一个概或就是说我们在打造这个辅助驾驶的大脑,包含可以快速部署到多个预控或者芯片上面的max up phone。 发言人1 03:11也包含支撑目前我们开发各个量的项目的marx call d就是所有的云端的系统交付。 发言人1 03:20我简单介绍一下我们目前的产品的一些规划,主要包含三大类。 发言人1 03:24 第一大类是mart cm就钱箱一体机,主要面向中低算力,比如说在2 top或者8 top上面开发的这这个钱箱一体机功能。 发言人1 03:35中间是我们目前已经在交付的行波一体解决方案,包含覆盖32t top左右的全玻璃体叫产品。 发言人1 03:46最右边是我们还在合作伙伴一起在研发的仓加一体的产品,主要包含基础的L级别的ados,也包含高速的ANV,也包含橙色记忆型车,同样也包含城市的城市NV和泊车的HPA和APA相关的一些产品。 发言人1 04:18这个是有一个项目交付的一个概括。 目前从2022年开始,陆续在包含TI包含在黑芝麻芯片,国内和国外芯片上面交付的包含行车和泊车的不同的产品。 发言人1 04:32你的一些介绍,这个我就快速略过。 发言人1 04:38这个是我们在奇瑞上面交付的,在TDFVM上面能够在8top上面同时把这个基础A大高速NA以及博士的APP放到一个8T算上面的一个项目。 发言人1 04:52这个是目前我们今年7月份要在本土的一个OEM上面要量产的。 发言人1 04:57这个包含城市机行车的供功能,具体细节可以到展台了解一下。 发言人1 05:04然后我们转入到这个感知的一些介绍,我说我们目前可以支持不同上滤芯片,包含两套是到32tops到100G以上的。 发言人1 05:17我们希望有一个平台化架构设计去支撑产品的研发。 发言人1 05:22我们就研发了平台化的软件软件架构,我们叫BBAI这个BEVI实现三大目标。 发言人1 05:30 第一大目标是能够实现不同算力芯片支持。 发言人1 05:33比如说可以在低算力上面可以支持,在中算力上面可以支持,也可在高端上面支持。 发言人1 05:39同样它需要支持不同的产品,比如说我们可以支持行车产品,也可以支持泊车产品。 发言人1 05:44最后我们开发出来这个一套架构,能够为不同的产品服务。 发言人1 05:48最后是说我们有不同产品的我不同芯片有不同芯片的特性,那么我们需要说对不同芯片去做一些面向芯片的优化。 发言人1 05:59这个就要我们DVAI的旧架构。 发言人1 06:03这个是BVI这个感知方面的一个介绍。 发言人1 06:07它包含BVAI杠OD就是动态障碍。 发言人1 06:12我的理解,BVAI map静态这个九部地图的理解,BVI line车道线的理解。 发言人1 06:20BVI tele就是如何去理解持续信息,以及我们最新的工作BV杠这个top p尤其是在城市far创业下面,如何更好的理解这个静态场景的拓扑结构。 发言人1 06:34今因为今天的分享是我们要分享说我们自己在做这个BVI这个decode的设计。 发言人1 06:41这里面所有工作都是通过我们设计传染泡沫中的抵扣的来完成的。 发言人1 06:47我首先介绍一下我们BVV杠这个AI杠OD。 发言人1 06:51传统大家在做这个BVAI做这个3D目标检测,主要集中在去理解三维世界上面的东西。 发言人1 07:00 我们发现其实很成熟的2D目标检测是可以来帮助这个BV视角下面的3D目标检测。 发言人1 07:08我们有两个工作,我们就在去年CPR和ECCV上面发现说可以使用2D目标检测来多视角的2D目标检测来提升3D目标检测的性能。 最右边的工作目前在这个ust上面还是榜单第一,这是我们做的BVI,干这个OD上面工作,后面会介绍一下我们为什么设计这个2D和3D联合检测。 发言人1 07:34那么椅子它为什么能够做出来,能够扩展到端的抵扣的设计上面去。 发言人1 07:42这个是我们做这个静态场景理解map的理解。 我们在222年推出了面向,因为我们要交付不同的项目,不同项目有不同的传感器的配置,以不同传感器的摄像头的数目以及安装位置,这个摄像头的分辨率。 发言人1 07:58我们推出了BB3个phone能够处理不同配置的摄像头。 发言人1 08:06实现了BB加产业phone能够支持静态场景理解的这个工作。 发言人1 08:11目前在城市和高上面都可以使用,这是我们在静态场景下面的设计。 发言人1 08:19它其实底层是用的我们提出来一种多摄像头可形变对立机制,实现不同相机配置的结码,这个是我们实现的一个BVI杠line,并发现有很多人在做这个BV是对稠密空间,对我们这样的环境做稠密空间的定义。 发言人1 08:41比如说我们就定义100米乘100米百米的稠密空间。 发言人1 08:44但是我们发现说驾驶场景离子,尤其是次效线,它其实很稀疏的。 发言人1 08:49比如这个场景中可能就十条次号线,20条次号线,它是远小于100乘100这个元素的。 发言人1 08:56 如果采用稀疏这个场景的定义,就可以把这个四号线检测做更快,就提出了coomo抵扣的设计,实现吸收场景加速计算。 发言人1 09:08是能够实现实时四号线检测。 发言人1 09:10我们现在在城市场景下面可以做的非常快速,这是我们做或者抵扣的设计。 发言人1 09:15如何去实现中加场景吸收感知。 发言人1 09:21正是有了这个吸收感知的定义,我们可以做持续。 发言人1 09:25因为这个吸收感知的话,我们可以缓存很少的元素,就可以把持续信息给利用起来。 发言人1 09:31我们就提出到了如何把这些批素的元素给缓存出来,更好利用实际信息做出来BVAI杠摊破信息的利用。 发言人1 09:42最后我们还提出了fara创,下面做这个拓步理解。 发言人1 09:46传统的或者大家常用的方法是说先做车道中医性的检测,然后再做这个拓步的解析。 发言人1 09:53这两个工作是串行的或者吉连的那我们提出一种工作是说除了创新结构之外,我们是否能够说收到中心的检测可以帮助拓扑。 发言人1 10:05是不是能够反过来,拓扑也能帮助超限中心线的提取,变成一个循环提升的一些结构。 发言人1 10:11这个也是我们独立设计的一个抵扣的实现循环交货的一个功能。 发言人1 10:16目前在公开数据上面也是客户结构的最佳成绩,这个是一些业界评价。 发言人1 10:24就是我们其实在特色AI对之后,我们在行业内部在2022年早期提出了BV加全fm的架构设计去设计这个BVI的技术的图形。 发言人1 10:36 我也在2022年提出了稀疏场景理解,而不是通过稠密空间理解去加速在不同算力上面的部署。 发言人1 10:44我们在2024年提出了如何做吸收场景的持续的一些工作。 发言人1 10:50我这个是一些我们的工作,因为大部分工作都已经被发表,这是业界对我们的一些评价。 发言人1 10:59有了这BVI这个position,我们要回答一个问题,就是说我们如何从BVIsection这些工作扩展到感知规划端的端。 发言人1 11:09更具体说如何做这个抵扣的基础架构的设计。 发言人1 11:14这个就是我们的一个问题。 发言人1 11:15因为我们长期我们从基本上从2022年第一次押出来之后,我们就开始设计transform的抵扣的如何去做重驾驶感知的所有任务。 发言人1 11:27那么基像我们这个出现已经完成,从OD到map到烂到top到拓破已经完成。 发言人1 11:32我们就问这一个问题说,我们是否能够把这个架构设计扩展到planning,这是我们的一个一个一个工作。 发言人1 11:40这样的话就可以完成感知到规划的档案端的设计。 发言人1 11:46这个是我们方案的一些思考。 发言人1 11:50最左边是这个分模块,或者一旦是分模块串联结构,就是说我有OD检测,也有map检测,串联起来去做还你。 发言人1 12:00中间是这个pol try,就是英韦达推出的通过多个独立抵扣的完成这个增驾驶任务的解析。 发言人1 12:09但是这几个抵扣的是独立的,虽然能够并行,但是是独立的。 发言人1 12:13最右边是我们的架构设计的这个设想。 发言人1 12:15就是说我们是否能够设计一个抵扣的是所有信息在这里面充分交互,最后把目标检测感知或者这个盘有任务给输出。 发言人1 12:26这个是我们技术架构的设计思想。 发言人1 12:29最左边的两个是以前前面的一些工作,右边就是说如何做一个抵扣的,完成多个任务的解析,尤其是感知到规划的,我们为什么做这个的架构的设计呢? 发言人1 12:43我们先看一下右边,右边是现在最火的大家都在说的VIV这个旧架构的设计。 发言人1 12:50它主要采用了兰桂这个model的设计。 发言人1 12:54其实兰桂model从bod开始之后,现在PPT出来之后,大多都采用抵扣的N利的基础架构设计。 发言人1 13:01大家都是在兰硅的model上面去做自动驾驶的或者辅助驾驶的这个