AI智能总结
自研软硬件能力算存网数安+生态的高性能智算底座 自研软硬件能力算存网数安+生态的高性能智算底座 远景&使命 持续打造AIInfra品牌影响力,引领云智算发展新范式 Gartner®生成式AI云基础设施领域新兴市场象限中位列新兴领导者象限产品性能、未来潜力维度均位列亚太厂商第一 高性能计算集群HCC:训练稳定性领先,全面拥抱大模型 加速框架层 启动时间「短」 软硬协同,针对腾讯云硬件定制适配框架独家优化 轻松接入,业务代码无侵入“零”改造适配 基于腾讯云服务内外部客户经验沉淀,设备到位到开始训练从30天缩短至1天 算力编排层 推理混布调度充分利用闲置训练集群资源 支持主流AI框架、训练作业模板训练一键部署 故障率「低」 星星海自研AI服务器针对AI场景定制优化,千卡单日故障率低至0.16 软件定义层 基于SDHN实现硬件故障隔离网络故障无感知5%超细粒度切分支持qGPU对单卡进行算力隔离 模型应用 故障恢复「快」 基础设施层 集群一致性检测,任务及节点异常发现恢复机制。故障恢复时间仅需5分钟。 云原生一致体验相比友商提供云上网络、存储、镜像 全面搭载腾讯自研星脉网络3.2TbpsRDMA网络 星脉网络:云网端全链路感知AI业务,保障集群算力全开,为AI加速而生 自研硬件 云上首发51.2T自研交换机、自研400G光模块;3.2Tbps接入带宽,高可用组网架构, 高效集合通讯 通过软硬协同的自研集合通讯,AI训练集合通讯性能与IB持平,成本降低67%。 训练通讯耗时占比 全局监控,高效运营 集群规模提升 360度立体监控,毫秒级调度,万卡集群训练无卡顿,慢节点分钟级定位。 大幅缩短网络交换对训练时长的影响 集群规模提升,支撑模型快速迭代需求 高性能存储解决方案:数据读写效率领先,打造更适合大模型的存储,ckpt写入时间缩短90% 自研通讯协议亚ms级延迟自研RDMA协议加持 Histor自研高性能存储引擎 全并行架构 客户端、服务端均采用全并行架构实现TiB/s聚合吞吐 样本读取效率 分布式元数据服务千万级IOPS能力 样本高并发处理,overlap覆盖度100%数据零等待 腾讯云数据平台,优化AI存储性能,提升数据管理效率,全面释放数据价值 数据管理引擎,跨模态数据检索,可实现千亿级数据管理,毫秒级延时数据查询 90% 提升数据洞察能力全面释放数据价值 丰富的智算生态——TACO加速套件、qGPU、Tione、知识引擎 异构计算加速软件服务 TACO Kit集成腾讯自研加速技术,提升AI计算效率。 •产品形态:AI推理及训练加速组件•使用方法:透明替换客户的应用框架,代码无需变更•适用场景:AI计算 痛点:AI优化技术门槛高,降本难 •AI业务优化方案迭代快,优化部署改动大,门槛高•AI计算集群规模大,运营成本高,存在降本诉求•外部业务无法直接获取腾讯内部优秀实践 产品能力: 价值:帮助客户无感提升AI业务性能 •TACO Train与TACO Infer提供全流程加速服务•快速完成工业级训练或推理任务部署•无感接入,轻量部署•极致性能,助力业务从数倍到数十倍的加速优化•全场景支持CPU/GPU,各版本CUDA及Tensorflow/Pytorch/Onnx 客户A:自动驾驶训练 客户B:推荐系统训练 助力客户使单个step的训练耗时从初始的约16秒下降到0.42秒。性能优化40+倍,成本降低高达100%+。 通过自动驾驶模型编译优化及集合通讯优化,帮助客户感知训练系统性能提升25%。 本地部署场景:赋能行业数智化转型,多形态分布式部署,让拥抱AI更简单 分布式云&专有云&私有云 支持行业云,为行业赋能 完整运维运营能力 安全合规、开放兼容 全栈智能 •一云 多算力 ,覆盖 智算、 通算、超算 等所需 的全栈 解决方 案 •健全 的计量/计费 、租户/账号 、资源 池等管 理能力 ,为行 业客户保价 护航 •从操 作系统 到硬件 全面自 主可控•软件 开放、 硬件开 放 •蕴含 公有云 大规模 稳定运 营的最佳实 践和产 品设计 开箱即用的推理服务:高性能应用服务HAI AI infra智算新时代腾讯云助力产业AI加速 扫码获取云智算方案内容及更多产业互联网干货 谢谢观看