AI智能总结
演讲者:佃锐辉AMD公司大中华区数据中心事业部高级技术专家 Computing at the heart of modern life Most transformational technology in 50 yearsAI AI Platforms Unmatchedportfolio of trainingand inferencecompute engines Evolving AI Landscape Innovation moving from silicon to nodes to racks to clusters Advancing the AI Data Center Leadership Engines for Enterprise AI Workloads Fromanalyticstogenerative AItoagentic AI AMD EPYCrecord market share…and growing AMD end-to-end AI infrastructure leadership AMD end-to-end AI infrastructure leadership 5th Gen AMD EPYC World’s great CPU for Cloud, Enterprise and AI 150 billiontransistorsUp to192 cores384 threads17%IPC upliftFullAVX5125GHzUp to3nm4nm Consistent x86 ISAConsistent IPC SP5 Socket“Genoa” Compatible “Turin” ContinuesAMD EPYCLeadership 8to192 cores125W to 500W 12Ch DDR5-6400128 PCIe® 5.0/CXL® 2.0Up to Confidential Computewith Trusted I/O Scale-Up 16“Zen 5”CCDs128Cores•256ThreadsUp to Scale-Out 12“Zen 5c”CCDs192Cores•384ThreadsUp to Fifth Generation of CPU Leadership Starts Today 10.9xPerformanceAcross 5 Generations Industry’s HigherPerforming Server CPU 60% More Performance at the Same Licensing Cost up to1.6x Performance per core invirtualized infrastructure End-to-End AI and Inference Performance up to3.8x AI performance on CPU 7:1consolidation Use thesavings,spaceandpowertogrow your business ~87%fewer servers~67%lower TCO~68%less power 300+世界纪录ANDSTILLCOUNTING强者更强vEVEN 工程/技术 数据管理&分析 商业应用 73Massively Parallel applications37Modeling & Simulation16Floating Point Compute Intensive apps12HPC Energy Efficiency 16Business Intelligence6Structured Database Management2Unstructured Analytics Database9AI Platform/Text & Media Analytics 8ERM/SCM Business48Enterprise server-side Java®18EnterpriseEnergy Efficiency4FinTech 内容应用5Rendering 基础架构/超融合/软件定义基础架构23Cloud and Virtualization15Integer Performance/General Purpose8Integer/General-Purpose Energy Efficiency3VM Energy Efficiency 数字服务1Social Networking BI Complete Portfolio From Edge To Endpoint Powering Artificial Intelligence for Large-Scale Data Centers Largest Finnish languagemodel (TurkuNLP-13B)Allen Institute scientific LLM WUS3 runningAI and HPC workloads National Cancer Instituteand DOE acceleratingcancer researchand treatment T5 NLP with11Bparameters Strategic Partnership Between AMD and Tencent Cloud AMD携手腾讯云为企业和用户提供领先的人工智能,大数据和云计算服务,助力数字化转型。 THANKS 谢 谢 观 看 腾讯云高效能智算底座加速释放AI生产力 演讲者:腾讯云计算产品架构师孙辰龙 AI原生新时代训练加速推理加速应用加速01020304 AI原生新时代 AI原生时代,大模型的蓬勃发展跟智能算力息息相关 AI大模型训练的算力每3.4个月翻一倍 全球人工智能硬件市场预计2026年增长至347亿美元五年年复合增长率达17.3% 全球科技巨头倾力入场中国10亿参数大模型超100个 技术突破 2024年《政府工作报告》首次提出开展“人工智能+”行动 政策支持 AI大模型及应用,对智算方案提出了三大挑战 腾讯云“一云多芯”智算方案,提供高价值软硬一体高性能算力服务 一云多芯支持国内外主流芯片与处理器 完整工具链 统一接口的硬件屏蔽方案及全面的生态迁移工具 训推加速套件软硬协同,提供腾讯云独有的极致性能 率先提出AI Infra品牌「腾讯云智算」,持续提升用户体验 训练的核心诉求:尽快完成每一个训练任务 高性能计算集群HCC:算力丰富度升级,全面拥抱大模型,业内领先的AI算力 集结前沿国内外芯片 软硬协同,针对腾讯云硬件定制适配框架独家优化 轻松接入,业务代码无侵入“零”改造适配 丰富多元的算力,提供完整配套的工具链支持 加速框架层 星脉网络全新升级 推理混布调度充分利用闲置训练集群资源 支持主流AI框架、训练作业模板训练一键部署 自研交换机多轨道网络架构,千卡集群的训练性能扩展比高达96% 算力编排层 基于SDHN实现硬件故障隔离网络故障无感知 5%超细粒度切分支持qGPU对单卡进行算力隔离 软件定义层 全面搭载腾讯自研星脉网络3.2TbpsRDMA网络 云原生一致体验相比友商提供云上网络、存储、镜像 基础设施层 长稳训练不中断 任务及节点异常恢复机制,资源利用率99%,模型训练提效200% 高性能网络:集合通讯全面领先,云网端全链路感知AI业务 ◼产品能力 IHN运营运维系统 •低成本、大规模多轨道网络架构: •流量亲和性FatTree组网,路径时延降低40%,支持高冗余bonding上联•超大规模:多GPU异构接入,通过双平面多轨道方案,支持单集群万卡规模 •高性能无损通信: •TCCL,感知拓扑进行流量亲和性调度,实现AllReduce的负载率达到90%以上•拥塞调度器,全局业务流精准的监控、选择、决策和调度,3分钟内完成拥塞消除 •监控系统:全QP精细监控,可快速定位网络、GPU故障节点,实现集群自愈•网络故障1分钟发现、3分钟定位、5分钟自愈 高性能存储:多级加速数据快速读取,云原生混合存储方案 千万级IOPS、100GB/s吞吐,百us延时高性能 低成本 支持全量训练数据持久化在对象存储上,通过GooseFS提供多级分布式缓存方案。提供海量低成本分布式存储 可靠存储 通过高性能并行文件存储TurboCFS,支持Checkpoint数据及重要模型/样本数据可靠存储 3TBcheckpoint的写入时间从10分钟缩短至10秒内,大幅提升大模型训练效率 云原生平台:故障实时监测,支持智能断点续算 训推一体:业务无缝衔接,灵活调度充分利用GPU算力 推理的核心诉求:硬件算力发挥到极致 AI推理需求 提升Batch_size来提升吞吐高吞吐 推理集群:为业务提供更高性价比选项 性能规格、软件加速、场景覆盖全面提升 国产推理实践:某电商客户高效迁移,满足客户丰富的场景需求 客户背景 国内大型社交媒体平台,生活平台和消费方式流量入口。 业务需求 •客户业务有大量传统AI模型推理需求,业务场景涉及CV、NLP等;•随着业务量增长推理卡有扩容需求,考虑到未来供应链多元化、稳定性,适配国产推理卡。 迁移解决方案 •提供PTX1计算实例作为现有推理卡型补充并支持TKE接入方式•客户推理服务框架集成腾讯九霄软件栈•1个月内完成NLP、CV共计6个模型适配和迁移 迁移时间 TKE NPU实例 计算加速套件:软硬协同优化,「降本」和「提效」之间兼得 TACO/Pipefusion实现高效推理 TACO-LLM:加速LLM模型高效推理,性能最高提升2倍 主流模型兼容全面兼容LLAMA/Falcon/OPT等 TACO-LLM使用收益 TACO-DiT:加速DiT文生图模型推理,性能最高提升2倍 高能效显存占用减少30~50% 多维度 高精度 支持张量/序列/流水/混合等多种并行模式 图像生成质量几乎无损耗 DiT模型发展成为趋势 TACO-DiT套件 继Sora之后,DiT架构成为文生图/视频主流 序列并行(USP) 张量并行(Megatron) 偏移流水并行(PipeFusion) 偏移序列并行(DistriFusion:) 腾讯云异构计算平台 高性能计算集群HCC 高性能应用服务HAI:每个人、每家企业都能实现自己的AI Idea GPU轻量工作空间全新上线 腾讯云智算套件:让高性能算力无处不在,任意位置构建AI原生能力 灵活部署 支持专有云、分布式云多种形态部署满足客户自有GPU、自建智算中心需求 全栈智算 经历公有云和自研混元大模型打磨沉淀应对智算木桶效应,推出算存网全栈方案 一云多芯 适配多种GPU芯片和网络交换机支持混合部署,对硬件保持开放兼容 广泛认可:覆盖全国90%+大模型客户,被市场坚定选择的稳固AI底座 THANKS 谢 谢 观 看 腾讯云大数据AI场景实践 Data+AI CONTENT 腾讯云大数据概述DataforAI产品实践AIforData产品实践010203 腾讯云大数据概述 腾讯具备全球领先的大数据技术能力与实践 在腾讯大数据in all 对外开放腾讯业界领先的大数据技术实践 大数据应用全场景化覆盖企业级数仓与数据湖用户画像精准推荐 业界领先大数据技术贡献 千万核大数据平台运营 大规模运营技术海量算力调度技术丰富运维工具沉淀 SortBenchmark性能冠军近百技术贡献者数百万代码贡献 开源开放,回馈社区 •2014年TDW开源•20