您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [腾讯]:DMS智驾数据管理一站式平台 - 发现报告

DMS智驾数据管理一站式平台

2025-10-11 腾讯 艳阳天Cathy
报告封面

2025.09TencentIntelligentMobility ⾃动驾驶数据闭环发展难点 完整的数据驱动闭环是指从量产、采集车在路端实地采集的交通场景,通过技术⼿段还原成仿真场景,进⼊测试环节⽤于算法测试,再更新和升级量产车的过程。但在此过程中由于关键链路涉及多个环节与领域,当前⾏业内(包括数据采集商、软硬件供应商、车⼚、算法公司等在内)尚未出现能提供统⼀视野、融合所有车的环节、⼀体化打通整条链路的产品或者平台。 真实场景信息如何转换为统⼀数据 真信息提取⼿段缺失 不同的供应商,拥有不同的数据采集⽅案和存储格式以及仿真数据管理 原始数据在加⼯时会产⽣各种误差和噪声:复杂场景会⼤⼤增加数据挖掘的难度 海量数据处理的“⾼本低效” 上下游链路割裂,数据流转困难 ⼤数据时代带来的海量数据是传统软件开发和数据处理⽅法难以承受的;同时,传统的⼈⼯数据标注成本也⼗分⾼昂 负责数据采集与算法研发的团队较为割裂缺乏⾼效的数据处理和挖掘能⼒ DMS能⼒ 平台能⼒ 对多源数据进⾏统⼀接⼊、加⼯、标准化、检索、开放,通过场景化的能⼒对路测数据、采集数据、标注成果、场景数据进⾏分类管理。 关键问题 核⼼功能 价值 提供海量存储、⾼效运算、数据压缩引擎和场景智能提取等能⼒,构建⼀站式开发、测试、运营数字化基础设施,解决数据多点分散、难以管理、利⽤率低、成本⾼等问题 1、服务于⾃动驾驶感知、定位、预测、决策、控制等算法研发数据管理需求2、⽀持智能⽹联、智慧交通、智慧出⾏和⾃动驾驶等多个领域商业落地 4、在线预览回放加⼯5、统⼀的⾮结构化数据管理中台 1、场景数据⾃动挖掘提取2、数据多粒度统⼀管理(采集、标注、评测等)3、数据内容检索 系统架构 基 于 腾 讯 地 图 、 合 规 云 、A I的 能 ⼒ 构 建 智 驾 数 据 处 理 平 台 , ⼀ 站 式 覆 盖 数 据 接 ⼊ 、 预 处 理 、 脱 敏 加 密 、 数 据 挖掘 、 标 注 、 管 理 各 环 节 , 加 速 ⾃ 动 驾 驶 数 据 闭 环 研 发 数据架构 服务开发技术栈 数据接⼊:采集车数据注⼊&量产回传 数据注⼊可视化、可审计 •数据保障:保障数据⼀致性、完整性•传输监控:传输速率、耗时预估、耗时统计可视化•设备监控:传输服务器CPU、内存、带宽•操作⽇志:操作记录统计、可视化,避免重复注⼊ 数据接⼊:车-云数据配置拉取 车端上电查询 配置更新可扩展 配置加载上报 数据接⼊:车端脱敏&国密回传 数据管理:标签元数据管理 数据管理:数据⾎缘管理 数据存储/查询技术优化 数据管理核⼼技术点: 1.存储优化,针对对象存储数据,冷热温分层,⽀持⽣命周期配置•热点数据:GooseFS缓存•温数据:⼀般传感器、点云、图像数据•冷数据:历史数据、不常使⽤数据,⾃动沉降到低频数据存储降本 2.查询优化•针对事件分析、批量分析,⾛DLC,按需调度计算任务 •针对故障类数据,⾛OLAP进⾏实时查询分析,⽆需数仓•Doris索引结构设计,列式数据库查询加速(压缩+SIMD+分布式)•Query索引设计优化 3.复杂多路数据可视化渲染优化•ZeroCopy技术实现 •GPU渲染优化,参数适配、QGPU等•点云数据加载优化,点云裁剪、压缩•多线程并发异步数据加载优化,数据load优化•数据缓存加速优化:本地缓存/云缓存联合优化 4.数据导出技术优化•批量异步导出任务机制设计 数据存储:COS存储架构概览 数据存储:冷数据降频,低成本 数据存储:热数据基于GooseFx加速 数据缓存能⼒ 多模态数据检索:向量检索过程 多模态数据检索–CLIP模型技术原理 Figure1.Summaryofourapproach.Whilestandardimagemodelsjointlytrainanimagefeatureextractorandalinearclassifertopredictsomelabel,CLipjointlytrainsanimageencoderandatextencodertopredictthecorrectpairingsofabatchof(image,text)trainingexamples.Attesttimethelearnedtextencodersynthesizesazero-shotlinearclassilierbyembeddingthenamesordescriptionsofthetargetdataset'sclasses. 多模态数据检索:向量检索原理 HNSW IVF-PQ 倒排⽂件(IVF)分桶:⾸先利⽤k-means聚类将所有向量划分为多个桶,每个向量只存储在距离最近的桶中。检索时,仅在与查询向量最接近的⼏个桶中查找,⼤⼤减少了需要⽐较的向量数量。 HNSW(HierarchicalNavigableSmallWorld)算法借鉴了跳表的思想,将图结构划分为多个层级,每⼀层都构成⼀个NSW(NavigableSmallWorld)图。最底层包含所有节点,形成完整的NSW图;⽽上层则由部分节点组成,构成更加稀疏的NSW图。通过这种多层次的结构,HNSW能够在⼤规模数据集上实现⾼效的近似最近邻搜索。 乘积量化(PQ)压缩:桶内的向量通过PQ⽅法进⾏压缩,将⾼维向量分成若⼲⼦向量并分别量化,这样既节省了存储空间,也便于⾼效地计算近似距离。检索流程:查询时,先定位到与查询向量最近的桶,然后在这些桶内利⽤PQ编码计算近似距离,最终返回最相似的结果。 多模态数据检索:最终结果 任务调度:海量任务调度 场景回放:可视化技术⽅案(⾼性能渲染) 场景回放:可视化回放 原始数据以及场景数据可进⾏回放操作,在数据回放页⾯,可回放当前数据,并可查看和编辑该数据的标签和标记。