AI智能总结
数据产⽣速度L2L2.5L3L4280GB/⼩时1.6TB/⼩时5.8TB/⼩时智驾提升需要更⾼效的AI中台,实现数据价值智能汽车时代,数据体量指数级增长从算法为核⼼到数据为核⼼•⾃动驾驶级别提升,数据产⽣速度量级激增•数据种类多、实时性强•数据的采集、存储、计算、发布形成闭环,推动智驾能⼒迭代数据⾼效利⽤为AI基建带来新的挑战数据体量更⼤海量弹性存储能⼒Data数据类型更多⾼效检索和标注能⼒数据⽣产更快算法训练和仿真能⼒ 数据来源更⼴灵活健壮的传输⽹络 智驾云智算,为智能汽车提供⾼效引擎腾讯云智算服务矩阵云智算能⼒解决⾏业关注点算法训练/仿真⾼性能计算集群HCC机器学习平台TI数据标注/清洗数据万象CI云函数SCF数据合规地图合规专区数据存储对象存储COS数据湖仓TurboCFS数据采集云联⽹CCN⽹络加速AIASD-Wan⾼带宽⼴覆盖的传输能⼒ 数据闭环的五个关键阶段 全球⽹络加速:随时随地⾼速接⼊,轻松应对数据井喷稳定可靠•云联⽹跨地域互联平稳畅⾏•专线多线互备,智能切换超⼤带宽•全链路⼤吞吐访问•适配5G通信低时延接⼊节点腾讯云加速⽹络专线接⼊国内车辆IPV4海外车辆CNAME腾讯云接⼊节点接⼊节点就近接⼊点加速通道源站国内车辆域名四层监听七层监听回源节点智能路由技术⾃有IDC源站IP源站域名源站IP源站域名内⽹同城免流避免关键数据丢失丢包降低99%确保OTA升级包完整刷写抖动降低99%公⽹就近接⼊就近接⼊•依托全球超50个加速节点•提供任意位置车辆数据接近接⼊ ⾼性能存储:超⼤容量与智能数据,加速释放数据潜能Tencent Cloud Data Platform就近接⼊•单集群超⼤存储规模•可管理超百EB级数据量AI检索与标注•⽀持⽂搜图/视频•场景数据⾃动打标样本⾼并发处理提升数据存储及预处理效率数据上报效率90%智能识图/视频⾃动数据标注数据打标效率50% 云函数SCF:国内⾸发GPU混合调度,数据预处理成本可控超⾼可⽤•⾃动跨Zone容灾•多集群部署容灾机制弹性扩缩•毫秒级⾃动弹性扩缩容•上不封顶,下可到零每秒最⾼⽀持10万并发请求数并发数10万 单集群⽀持100QPS运⾏QPS100万按量付费•毫秒级精确计费,⽆访问不收费•最⾼成本节省超70%⾼度兼容车企已有触发器,⽀持MQTT、COS、Kafka等错峰调度资源复⽤ 案例1:某头部车企数据合规脱敏业务痛点•数据吞吐⼤:百万量级车辆,数据峰值吞吐带宽⾼达•时效要求⾼:数据必须在T+1⼩时内完成处理•合规要求⾼:存在国家相关法律法规要求,数据端到端安全诉⽅案成效•云函数SCF:多任务共享算⼒资源,提⾼GPU利⽤率,单卡可每秒处理30MB视频⽂件,成本降低50%•⾃动驾驶专区:数据安全可信服务覆盖数据采集、数据配送、数据注⼊,以及注⼊⾄云端专区后的数据与算法训练、数据存⽅案介绍上海⾃动驾驶专区1、获取临时秘钥AKSK……秘钥服务3、COS触发器5、下载原⽇志/视频⽂件2、⽇志/⾳视频上传8、上传脱敏视频⽂件COSCARSCF PASS4、根据COS请求弹性扩容5、处理结果阶段性回写MQJAVA 服务A函数JAVA 服务A函数CAR 649.5Gbps求⾼储等⽅⾯ ⾼性能计算集群: 训练稳定性领先, 拥抱全场景AI模型启动时间「短」基于腾讯云服务内外部客户经验沉淀,设备到位到开始训练从30天缩短⾄1天故障率「低」星星海⾃研AI服务器针对AI场景定制优化,千卡单⽇故障率低⾄0.16星星海⾃研AI服务器故障恢复「快」集群⼀致性检测,任务及节点异常发现恢复机制。故障恢复时间仅需5分钟丰富算⼒⽀持⽀持CPU、GPU等多种算⼒3.2 TbpS RDIA⽹络全⾯搭载腾讯⾃研星脉⽹络基础设施层“零”改造适配轻松接⼊,业务代码⽆侵⼊框架独家优化软硬协同,针对腾讯云硬件定制适配加速框架层训练⼀键部署⽀持主流AI框架、训练作业模板推理混布调度推理混布调度算⼒编排层⽹络故障⽆感知基于5DHП实现硬件故障隔离5%超细粒度切分⽀持qGPU对单卡进⾏算⼒隔离软件定义层 低成本⾼性能•⽆额外硬件成本,实现us级⽹络低延时,200Gbps加速⽹络带宽深度适配智驾场景•⽀持RDMA原⽣协议,业务零适配⼯作量;适配市⾯上智能驾驶场景所有算法模型训练•多系列实例可⽀持vRDMA能⼒,标准型搭配vRDMA⽀持HPC流体仿真等场景集群算⼒近⽆损扩展,⽐肩传统RDMA集群训练扩展⽐98% ⼤幅节省业务训练成本训练成本节省20%全栈⾃研•基于腾讯云⾃研智能⽹卡实现的全新⾃研⽹络加速技术,RDMA弹性扩展⾃研vRDMA⽹络: 全新多机互联⽹络, 助⼒出⾏降本增效端到端⾼⽹运营系统部署、验收⾼可⽤性问题巡检、定位10%~25%NCCL模式集合通讯提升TensorflowNCCLEFI Driver (Verbs)PyTorchLibfabricRDMA协议栈封装银衫智能⽹卡payloadOS⽹卡及⽹络 案例2:某主流⾃动驾驶模型训练业务痛点•数据吞吐⼤:业务训练模型参数规模较⼩,⼤规模⾼带宽组⽹存在⼀定冗余,需要提供⾼性价⽐解决⽅案•数据增长快:数据量达100PB+量级,需要较⾼的读写效率,以⽅案成效•vRDMA:200Gbps多机互联⽀持⾼效训练,⽆需额外⽹卡硬件成本,为客户业务节省20%成本,性价⽐最⾼提升20%•COS+GooseFS :为⽤户提供海量、低成本存储服务,解决客户100PB+数据快速增长需求;提供⾼性能存储缓存服务, ⾃动驾驶训练性能提升30%⽅案介绍对象存储CO5原始数据GPU云服务器实例对象存储CO5预处理后的数据模型训练TKE 容器集群管理HCC-GPU⾼性能集群本地数据管理路测车采集数据数据标注模型训练通过⾃研训练平台统⼀调度分配任务路采数据专线接⼊ 提升训练效率 极致性价⽐•机型规格灵活切分•满⾜不同环节算⼒需要软件兼容⼴•适配主流仿真平台与场景⽣成模型•快速调整场景天⽓、光照、街道环境等通过最佳实例搭配,显著降低仿真成本仿真成本30% 多任务共享GPU,精准隔离,性能⽆损GPU利⽤率60%仿真验证快•云上海量算⼒调度•实现仿真并⾏加速、时间加速GPU实例: 云上仿真算⼒基座, 场景⽣成/算法验证快⼈⼀步场景库⽣成Text to worldImage to worldVideo to world AI Infra⾼性能软件AI Infra多元硬件⾃研及第三⽅交换机⼀云多芯软硬协同公有云管控同源同构,向外延展中⼼IDCCDZTCETCS专有云管控AI Infra灵活底座⽀持七⼤硬件⽣态TACO Infer提升1.5x-2.5x推理加速HAI即插即⽤,部署时间减少95%⾼性能应⽤服务TACO Train⾼加速⽐,性能提升30% 训练加速IHN⾼带宽,3.2T RDMA⽹络智能⾼性能⽹络TurboFS/GooseFS ⾼并发,千卡并发读写⾼性能⽂件存储TKE&qGPUGPU卡使⽤率提升60%+云原⽣调度编排HCC[CVM/CBM]⾼可⽤,超300⼩时连续训练⾼性能计算集群向量数据库10亿级向量规模,百万级QPS向量检索与存储云上使⽤AI算⼒本地智算IDC建设AIGC⼤模型⾃动驾驶搜索/⼴告/推荐科学计算⾃然语⾔处理计算机视觉……AI Infra解决⽅案Gartner®⽣成式AI云基础设施领域新兴市场象限中位列新兴领导者象限产品性能、未来潜⼒维度均位列亚太⼚商第⼀腾讯云智算:突破算⼒瓶颈,加速释放出⾏AI⽣产⼒ 性能领先多芯兼容灵活部署卓越性能 智算⾸选 Thanks 腾讯云Data Platform重塑汽车驾驶存储技术底座王登宇 腾讯云存储专家架构师 海 量 数 据 输 ⼊,要 求 平 台具 备 超 ⼤ 规 模 的 数 据 存 储⼤规模数据处理访问⼤量的数据,要求数据存储和处理系统具有⾼吞吐量和低延迟多样化数据整合不同来源的数据,要求平台能够灵活地整合和管理数据管理和治理数据管理和治理任务变得更加复杂,包括数据质量管理、数据⼀致性、数据安全和合规性等成本控制和效率提升需 要 提 供 ⾼ 效 的 数 据 处 理 和存 储 能 ⼒,同 时 保 持 成 本 的可控性如何掌控智能时代的数据存储挑战 海量数据统⼀存储能⼒ 超⼤规模单集群最⼤可管理百 EB 级⽂件对象存储YottaStore接⼊层流量负载均衡海量公⽹接⼊⽆感扩缩容故障监测⾃愈COS对象存储:功能全⾯、⾼可靠性、⾼性价⽐的 Data Platform 存储底座AZ 1AZ 2AZ 3原⽣多 AZ元数据分级存储数据⾃动均衡过载智能保护采存⽤⾼可靠12个9的数据可靠性⾼可⽤99.995%的数据可⽤性 GooseFS 2.0Computer SideStorage SideGooseFS 2.0:性能、扩展性、可⽤性全⾯提升为Data Platform提供⾼效数据访问能⼒性能缓存算法优化,缩短数据IO路径,提升缓存效率10x扩展性通过Master架构升级,OPS和元数据能⼒⼤幅度提升5x可⽤性容灾机制优化,⼤幅度缩短容灾恢复时间,提升集群可⽤性10xStorage-LessHDFSPOSIXGooseFS-CacheGatewayPOSIXGooseFS-LiteProvisioned-ClusterPOSIXGooseFS-XCOS/S3COS AcceleratorHDFSMetadata Accelerator NVMESSOGooseFS-Cache L2NVMESSO•数据本地存储,提供计算亲和性•任务就近调度,提升节点内流量•丰富缓存策略,精细化管理数据流动,提升加速效果•客户端缓存即时命中加速•⽀持数据预读和并⾏ IO,减少 GPU等待时间•⽹络开销优化,⽀持 RDMA ⽹络•元数据节点平⾏扩展,均衡海量请求•⾼效线程模型,优化内存分配,减少请求积压•⾼并发⾼吞吐 KV DB实现GooseFS-Cache:近计算端缓存为AI、⼤数据业务提供⾼性能数据缓存服务CPUCPU MEMCPU Node…CPUCPUCPU MEMGooseFS-Cache L1MEMCPU NodeGooseFS-Cache L3对象存储 COSTbps 吞吐亚毫秒延迟百万级IOPS GooseFS-X: 加速访问海量⼩⽂件训练数据集、加速写⼊模型checkpoint GooseFS-X 分布式架构图COS Data Lake......GPU......ContainerHigh Performance Computing Cluster 沉降、预热0001010101001001001001000100NodeMetaDataNodeMetaDataNodeMetaData......⾼性能访问海量⼩⽂件500 万 OPS 数据万象:数据处理引擎 Data Engine提供⼀站式数据处理服务智能处理图⽚处理图⽚脱敏图⽚⽔印图⽚智能处理图⽚标签质量评分图像增强图像修复以图搜图OCR识别商品抠图……⽂档服务⽂件处理视频处理视频智能处理视频标签质量评分⽼⽚修复视频DNA数据⼯作流批量处理听歌识曲唱歌打分歌词识别⾳乐标签智能作曲⾳频智能处理图⽚压缩画质优化图像编辑图像评分图像理解基础转码画质优化·视频编辑视频评分内容审核⽂档审核⽂本审核⾳频审核⾊情查处⼴告查处暴恐查处视频理解转图⽚预览HTML预览⽂档⽔印⽂档翻译⽂件Hash计算⽂件解压缩⽂件打包压缩病毒查杀 MetaInsight 结合⼤模型,为Data Platform提供数据智能检索服务万象API腾讯云CloudVectorDBCOS对象存储{url: cos://bucket_name/…vector: [0.23,-0.84,0.12 …]}{text:………………………..vector: [0.23,-0.84,0.12 …]}{text:………………………..}万象APICall API to 检索数据{url: cos://bucket_name/…url: cos://bucket_name/…