行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

普惠AI浪潮下腾讯云智算解决方案

2025-03-25 腾讯 Marco.M

腾讯云智算解决方案深耕高性能AI基础设施，坚定基础平台研发与生态建设，打造算存网数安一体的高性能智算底座。核心能力包括：

1. 自研软硬件能力

自研星星海AI训练服务器、星脉网络交换机，构建算存网数安+生态的高性能智算底座。
发展历程：2019年发布第一代高性能计算集群，2021年推出A100 GPU训练集群并获信通院认证，2022年升级800G星脉网络架构，2023年首发H800 3.2T训练集群、1.6T超带宽训练集群及昇腾910B训练集群，2024年联合Gartner发布AI原生云建设指南，2025年升级智算2.0平台。

2. 智算平台特征

云原生、同源同构、场景驱动，支持多元硬件生态，提供TACO Infer推理加速（提升1.5x-2.5x）、TACO Train训练加速（性能提升30%）、星脉网络（3.2Tbps RDMA）、TurboFS/GooseFS（高并发存储）、TKE & qGPU（GPU卡使用率提升60%+）、HCC（高可用计算集群）、向量数据库（10亿级规模，百万级QPS）等。

3. 高性能计算集群HCC

训练稳定性领先，全面拥抱大模型，提供云原生一致体验，支持主流AI框架及一键部署。
星脉网络：集群规模提升100%，训练通讯耗时占比大幅缩短，自研交换机及光模块实现3.2Tbps接入带宽，成本降低67%。
高性能存储：ckpt写入时间缩短90%，样本高并发处理，数据零等待，模型分发时间缩短90%。

4. 丰富的智算生态

TACO加速套件：提供全流程加速服务，无感接入，极致性能，助力业务加速。
qGPU：透明替换客户应用框架，代码无需变更，适用AI计算异构计算加速。
知识引擎：集成腾讯自研加速技术，提升AI计算效率。

5. 数据安全保护措施

构建安全的数据流转环境，包括数据溯源、敏感数据发现、动态脱敏、身份认证、权限控制、数据库安全审计等。

6. 本地部署场景

支持公有云能力1:1完全输送，提供分布式云、专有云、私有云多形态分布式部署。
全面自主可控，软件开放、硬件开放，蕴含公有云大规模稳定运营的最佳实践。

7. 开箱即用的推理服务

HAI相关产品：快速部署，丰富模板，可视化AI调试，一站式开发管理工具。

结论
腾讯云智算解决方案通过自研软硬件、高性能计算集群、丰富生态及数据安全措施，打造算存网数安一体的高性能AI智算底座，助力产业突破算力瓶颈，加速释放AI生产力。Gartner®生成式AI云基础设施领域新兴市场象限中位列新兴领导者象限，产品性能、未来潜力维度均位列亚太厂商第一。

自研软硬件能力算存网数安+生态的高性能智算底座自研软硬件能力算存网数安+生态的高性能智算底座远景&使命持续打造AIInfra品牌影响力，引领云智算发展新范式 Gartner®生成式AI云基础设施领域新兴市场象限中位列新兴领导者象限产品性能、未来潜力维度均位列亚太厂商第一高性能计算集群HCC：训练稳定性领先，全面拥抱大模型加速框架层启动时间「短」软硬协同，针对腾讯云硬件定制适配框架独家优化轻松接入，业务代码无侵入“零”改造适配基于腾讯云服务内外部客户经验沉淀，设备到位到开始训练从30天缩短至1天算力编排层推理混布调度充分利用闲置训练集群资源支持主流AI框架、训练作业模板训练一键部署故障率「低」星星海自研AI服务器针对AI场景定制优化，千卡单日故障率低至0.16 软件定义层基于SDHN实现硬件故障隔离网络故障无感知5%超细粒度切分支持qGPU对单卡进行算力隔离模型应用故障恢复「快」基础设施层集群一致性检测，任务及节点异常发现恢复机制。故障恢复时间仅需5分钟。云原生一致体验相比友商提供云上网络、存储、镜像全面搭载腾讯自研星脉网络3.2TbpsRDMA网络星脉网络：云网端全链路感知AI业务，保障集群算力全开，为AI加速而生自研硬件云上首发51.2T自研交换机、自研400G光模块；3.2Tbps接入带宽，高可用组网架构，高效集合通讯通过软硬协同的自研集合通讯，AI训练集合通讯性能与IB持平，成本降低67%。训练通讯耗时占比全局监控，高效运营集群规模提升 360度立体监控，毫秒级调度，万卡集群训练无卡顿，慢节点分钟级定位。大幅缩短网络交换对训练时长的影响集群规模提升，支撑模型快速迭代需求高性能存储解决方案：数据读写效率领先，打造更适合大模型的存储，ckpt写入时间缩短90% 自研通讯协议亚ms级延迟自研RDMA协议加持 Histor自研高性能存储引擎全并行架构客户端、服务端均采用全并行架构实现TiB/s聚合吞吐样本读取效率分布式元数据服务千万级IOPS能力样本高并发处理，overlap覆盖度100%数据零等待腾讯云数据平台，优化AI存储性能，提升数据管理效率，全面释放数据价值数据管理引擎，跨模态数据检索，可实现千亿级数据管理，毫秒级延时数据查询 90% 提升数据洞察能力全面释放数据价值丰富的智算生态——TACO加速套件、qGPU、Tione、知识引擎异构计算加速软件服务 TACO Kit集成腾讯自研加速技术，提升AI计算效率。 •产品形态：AI推理及训练加速组件•使用方法：透明替换客户的应用框架，代码无需变更•适用场景：AI计算痛点：AI优化技术门槛高，降本难 •AI业务优化方案迭代快，优化部署改动大，门槛高•AI计算集群规模大，运营成本高，存在降本诉求•外部业务无法直接获取腾讯内部优秀实践产品能力：价值：帮助客户无感提升AI业务性能 •TACO Train与TACO Infer提供全流程加速服务•快速完成工业级训练或推理任务部署•无感接入，轻量部署•极致性能，助力业务从数倍到数十倍的加速优化•全场景支持CPU/GPU,各版本CUDA及Tensorflow/Pytorch/Onnx 客户A:自动驾驶训练客户B:推荐系统训练助力客户使单个step的训练耗时从初始的约16秒下降到0.42秒。性能优化40+倍，成本降低高达100%+。通过自动驾驶模型编译优化及集合通讯优化，帮助客户感知训练系统性能提升25%。本地部署场景：赋能行业数智化转型，多形态分布式部署，让拥抱AI更简单分布式云&专有云&私有云支持行业云，为行业赋能完整运维运营能力安全合规、开放兼容全栈智能 •一云多算力，覆盖智算、通算、超算等所需的全栈解决方案 •健全的计量/计费、租户/账号、资源池等管理能力，为行业客户保价护航 •从操作系统到硬件全面自主可控•软件开放、硬件开放 •蕴含公有云大规模稳定运营的最佳实践和产品设计开箱即用的推理服务：高性能应用服务HAI AI infra智算新时代腾讯云助力产业AI加速扫码获取云智算方案内容及更多产业互联网干货谢谢观看

点击免费查看完整报告

普惠AI浪潮下腾讯云智算解决方案

你可能感兴趣

腾讯云智算解决方案单页

腾讯云智算解决方案单页

腾讯云智算底座，加速释放出行行业AI生产力

腾讯云音视频对话式AI解决方案

云+AI 共启数字政府新势能 2025腾讯云数字政府行业解决方案

腾讯云AI在互联网行业的解决方案及应用案例

通信行业周报：国产大模型引领AI普惠浪潮，算力需求激发产业动能

DeepSeek开源引领AI普惠化浪潮

【财联社早知道】重磅!谷歌正在开发安卓原生的卫星通信功能，这家公司已形成“芯片模块终端平台系统解决方案”的全产业链;这家GPU龙头面向Al训练、AI推理等领域的高性能智算模块及整机产品研发成功-20240313

【电报解读】AI浪潮驱动电力需求爆发，GE Vernova上调全年业绩指引，机构称燃气轮机有望成为短期内最优的数据中心供电解决方案，这家公司为GE Vernov-20260423