您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[申万宏源]:机器人行业系列深度研究之12:大模型迭代,智能驾驶、机器人算法进化 - 发现报告
当前位置:首页/行业研究/报告详情/

机器人行业系列深度研究之12:大模型迭代,智能驾驶、机器人算法进化

机械设备2023-09-19申万宏源葛***
机器人行业系列深度研究之12:大模型迭代,智能驾驶、机器人算法进化

大模型迭代,智能驾驶、机器人算法进化机器人系列深度研究之12证券分析师:洪依真A0230519060003 施鑫展A0230519080002 刘洋A0230513050006王珂A0230521120002 戴文杰A0230522100006黄忠煌A0230519110001胡雪飞A0230522120002屠亦婷A02305120800032023.9.19 www.swsresearch.com2模型AI小结:理解不同参与者的环节检测跟踪Tracking映射地图Mapping运动预测Motion占用预测Occupancy路径规划(含防碰撞)Planner控制执行尝试视觉+4D成像为主的传感器大模型:谷歌/微软/Tesla/Meta等发力尝试人车互动/人机互动/自动行走局部尝试大模型AI的端对端自动驾驶传感器摄像头视觉激光雷达毫米波雷达超声波雷达传动部件减速器/丝杠/其他等控制器电机伺服/步进/空心杯传感器电流环控制/力矩/被动力控制/视觉GPUDSA(Tesla DOJO为例)ASIC/边缘计算处理器MCU高速连接器高压传感器光芯片定位导航IMU等其他连接器电子和半导体范畴通信范畴大机械范畴大汽车范畴软件互联网AI范畴图例大机器人具身智能大智联汽车 vNbZfVpQtMeUdX9P9R9PtRqQoMtQiNpPuNkPrQuN6MpOpMuOmPtMuOrQmMwww.swsresearch.com3大模型AI小结:理解不同参与者的环节检测跟踪Tracking映射地图Mapping运动预测Motion占用预测Occupancy路径规划(含防碰撞)Planner控制执行尝试视觉+4D成像为主的传感器推理+理解:例如谷歌PaLM-E传感器摄像头视觉激光雷达毫米波雷达超声波雷达传动部件减速器/丝杠/其他等控制器电机伺服/步进/空心杯传感器电流环控制/力矩/被动力控制/视觉GPUDSA(Tesla DOJO为例)ASIC/边缘计算处理器MCU高速连接器高压传感器光芯片定位导航IMU等其他连接器电子和半导体范畴通信范畴大机械范畴大汽车范畴软件互联网AI范畴图例大机器人具身智能大智联汽车2020-2022年硬件预埋理解+运动。如UCLA两篇机器人相关论文《Design of a Highly Dynamic Humanoid Robot》、《Development and Real-Time Optimization-based Control of a Full-sized Humanoid for Dynamic Walking and Running》AI端到端(CVPR 2023最佳论文为代表):局部尝试大模型AI的端对端自动驾驶谷歌/微软/Tesla/Meta等发力,尝试人车互动/人机互动/自动行走2022年机器人硬件AI 视觉的3D化:Nerf/BEV/占用网络AI视觉大模型:脸书:SAM/dinoV2ViT/MAE/Swin视觉+理解+运动:泛化+零样本例如谷歌RT-1/RT-2,例如李飞飞VoxPoser 主要内容1.智能驾驶:端到端的算法新范式2.视觉泛化:大模型带来何种改变3.机器人:从google看算法迭代4.投资机会和标的选择4 www.swsresearch.com51.1AI感知:机器人+驾驶+具身智能的智能化曾都卡在这里检测跟踪Tracking映射地图Mapping运动预测Motion占用预测Occupancy路径规划(含防碰撞)Planner检测-激光雷达检测-毫米波雷达检测-摄像头雷达感知算法毫米波雷达感知算法摄像头感知算法原始数据Raw data原始数据Raw data原始数据Raw data识别结果1识别结果2识别结果3融合算法预测&决策算法控制执行控制执行检测-激光雷达检测-毫米波雷达检测-摄像头端到端融合算法原始数据Raw data原始数据Raw data原始数据Raw data数据融合预测&决策算法控制执行检测跟踪预测L1-L2时代,大约2018年以前后融合ADAS算法L2+~L3时代多种传感器崛起ADAS域控制器崛起前融合ADAS算法传感器感知算法尝试视觉+4D成像为主的传感器L3-L4时代尝试人车互动局部尝试大模型AI的端对端自动驾驶 www.swsresearch.com61.2AI感知:以毫末智行为例,中美简单对比表:截至2022中美主要自动驾驶公司全栈AI技术对比公司对比维度特斯拉毫末智行整体战路发展路线大模型、大数据、大算力核心产品智能辅助驾驶发展阶段已经进入3.0阶段的领跑者加速进入3.0阶段的冲刺者大模型发展路线引入Transformer大模型,提升4D时空理解能力数据来源基于自动标注数据基于真实人驾数据算法设计3D占据栅格网络多模态自监督,覆盖感知、认知、自动标注大数据发展路线重感知为主,减少对高精度地图的依赖数据体系建立数据闭环成本控制依靠量产车数据回传和自动标注标注方式人工标注团队+自动标注能力4D自动标注+人工纠偏感知方式纯视觉感知视觉+LIDAR等多模态融合感知大算力发展路线重视算力建设,数据计算中心+车端计算平台车端硬件平台144TOPS车端FSD计算平台高中低计算平台并举,最高算力360TOPS云端计算中心自研云端超算中心Dojo毫末智算中心资料来源:毫末智行、申万宏源研究 www.swsresearch.com71.3自动驾驶:大模型AI对感知和标注的改造强化感知:空间-时序维度,多模态数据融合•在2021TESLAAIDAY将引入Transformer进行大规模的无监督学习。2022年后国内公司跟进。•特斯拉从安装在汽车周围的八个摄像头的视频中用传统的ResNet提取图像特征,并使用Transformer、CNN、3D卷积中的一种或者多种组合完成跨时间的图像融合,实现基于2D图像形成具有3D信息输出。•毫末智行的AI团队正在逐步将基于Transformer的感知算法应用到实际的道路感知问题,如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测&识别、道路交通标志检测、点云检测&分割等。数据标注升级:大模型无标注自监督学习•先统一所有感知任务的backbone,再使用以无标注数据为主的数据,对大模型进行预训练,使大模型获得能够使用无标注数据训练的能力。这里同样使用了大模型并行计算的能力。资料来源:Tesla AI Day,毫末智行官网,申万宏源研究图:特斯拉的多模态数据融合图:毫末智行MANA基于十亿级未标注数据的自监督学习 www.swsresearch.com81.3自动驾驶:大模型的BEV transformer重要BEV的通俗理解:把不同视角的观察合成一个“天眼模式”整体图,了解全局传统驾驶算法下,时序信息很难与已有3D目标检测融合•3DBEV优势:1)将不同视角在BEV下统一,方便后续规划控制模块任务;2)BEV下的物体没有图像视角下的尺度(scale)和遮挡(occlusion)问题;•时序信息:自动驾驶感知任务重要,但现阶段基于视觉的3D目标检测方法并没有很好的利用;BEVformer:基于Transformer的自动驾驶BEV纯视觉感知•BEVFormer的两大核心任务:mutil-camera(多视角相机)和bird-eye-view(鸟瞰图)BEV•BEVFormer利用了Transformer的特征提取能力以及Timestamp结构的时序特征的查询映射能力,在时间维度和空间维度对两个模态的特征信息进行聚合,增强整体感知系统的检测效果。资料来源:nullmax,《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》(中文可翻译为《通过时空变换器,从多摄像机图像中学习鸟瞰图表示》),申万宏源研究图:使用Transformer进行BEV数据融合相比CNN更加便捷图:BEVFormer在目标检测和地图分割的视觉结果BEV-CNNBEV-Transformer www.swsresearch.com91.3自动驾驶:BEV transformerBEV的通俗理解:把不同视角的观察合成一个“天眼模式”整体图,了解全局。Pre-BEV特征提取(如果输入特征提取的是3D信息,得到3DBEV,压缩到2DBEV)。•3D坐标离散化到体素空间(高效率)+3D卷积提取特征+3D特征高度压缩变成2DBEV特征;•体素稀疏、不规则、3D卷积计算量大,落地困难。Post-BEV特征提取(如果输入特征提取数据是BEV信息)。•先将3D的点云转化为BEV表示,然后再使用2D卷积等方式提取BEV特征。资料来源:nullmax,《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》(中文可翻译为《通过时空变换器,从多摄像机图像中学习鸟瞰图表示》),申万宏源研究图:2D到3D BEV层的转化,包括两维特征提取/视角转化/三维解码图:雷达是点云数据,上半部分点云到三维(提高精度),下半部分把BEV转化到两维(提高效率)图:融合的视角融合图:融合的BEV融合 www.swsresearch.com101.4 AI感知:NeRF(神经辐射场)-大模型和自动驾驶的交集NeRF,即NeuralRadianceFields(神经辐射场)。其通俗理解:给予海量不同视角的二维图,合成同一场景不同视角下的图像。•还可以通俗理解为X-Y-Z到三维极坐标的转化,第三视角到第一视角的转化。辐射场:•如果我们从一个角度向一个静态空间发射一条射线,我们可以查询到这条射线在空间中每个点(x,y,z)的密度ρ,以及该位置在射线角度(θ,φ)下呈现出来的颜色c(c=(R,G,B))。•即F(x,y,z,θ,φ)→(R,G,B,ρ)。密度是用来计算权重的,对点上的颜色做加权求和就可以呈现像素颜色。•给定F(x,y,z,θ,φ)直接查表获得RGB值和密度,给体渲染方法。体渲染:•对上述辐射场的密度和颜色做积分,就可以得到像素的颜色。•遍历所有像素,这个视角下的图像就渲染出来了。资料来源:《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》,申万宏源研究图:从相机焦点出发,往一个像素连出一条射线,获取射穿过空间中每个点的属性,进行积分得到这个像素的颜色训练:•用Tensor输入5D数据(三个位置,两个角度);•得到颜色和密度;•端到端训练,把原图和训练结果的损失做梯度回传。图:5维输入,输出颜色和密度,并且做端到端的训练 www.swsresearch.com111.4 AI感知+预测:Occupancy Network占用网络OccupancyNetwork的通俗理解:两维的鸟瞰BEV,变为三维的鸟瞰。而增加运动序列预测。2022CVPR放大的占用网络•2022CVPR中,TeslaFSD新负责人AshokElluswamy推出了OccupancyNetwork。借鉴了机器人领域常用的思想,基于occupancygridmapping,是一种简单形式的在线3D重建。•将世界划分为一系列网格单元,然后定义哪个单元被占用,哪个单元是空闲的(考虑速度、预测轨迹等)。通过预测3D空间中的占据概率来获得一种简单的3d空间表示。关键词是3D、使用占据概率而非检测、多视角。对BEV鸟瞰图的加强和改进•首先是纯视觉+AI+大模型路线,国内更可能用传感器路线;•BEV感知:高水平视觉为主的自动驾驶方案的起点;•占用网络OccupancyNetwork:纯视觉自动驾驶技术的里程碑(CVPR2022)。优势有哪些?泛化,2D变3D,像素变体素•2DBEV栅格变成3D栅格,