AI智能总结
Cloud Infrastructure基础云服务 解决方案 AI算力与安全稳定性再突破,为AI普惠上“双保险” 阿里云ECS g9i企业级云实例采用至强® 6性能核处理器实现计算性能再突破,并利用处理器内置的英特尔® AMX和英特尔® TDX提升AI应用性能,构筑稳固的安全防线。 •凭借至强® 6性能核处理器在核数、单核性能和内存带宽等方面的优势,显著提升算力性能; •借助处理器内置的AI加速引擎–英特尔® AMX,新增对FP16指令的支持,加速AI推理,同时利用英特尔® QAT进一步提升加解密效率,使得数据库压缩、视频压缩等更加高效; •基于处理器内置的安全引擎-英特尔® TDX,通过TDX机密虚拟机硬件隔离、加密隔离机制等方式,为应用提供更高水平的机密保障,并有效避免因应用大幅改造可能引发的兼容性问题。 云服务器升级 企业云服务 2倍ResNet50运算效率提升阿里云ECS g9i标配支持英特尔® AMX 1.7倍预训练Bert模型效率提升3 30%大数据缓存加速场景下性价比可提升搭载至强® 6性能核处理器的阿里云ECS g9i 20%较第八代实例,Web应用场景性能提升2 20%搭载至强® 6性能核处理器的阿里云ECS g9i,相较于第八代实例,算力性能最大可提升1 挑战 大模型迭代速度惊人,AI算力需求持续高涨 AI应用逐渐普及,用户对数据 隐 私 安 全 及 云 计 算 稳 定 性提出更高要求 AI时代企业级用户需要更具性价比的高性能算力新选择 解决方案 助力云上“算力+模型”一站式部署,火山引擎g4il加速AI普惠 火山引擎第四代通用计算型实例g4il引入至强® 6性能核处理器,在性能、网络及存储I/O等方面实现全面升级,以更加卓越的云计算性能和效率为通用Web应用等场景提供强劲支持。 •利用英特尔®至强® 6性能核处理器(P-core)更出色的单核性能、更多的内核、双倍内存带宽等经过精心优化的代际提升,助力火山引擎g4il支持计算密集型应用、AI推理等更广泛工作负载; •利用至强® 6性能核处理器内置的AI加速引擎--英特尔® AMX,及其新增对FP16指令集的支持,对AI大模型推理场景进行进一步优化,并推出“开源大模型应用-知识库问答”应用镜像。 解决方案 云实例算力升级 云服务/弹性计算 8%火山引擎g4il计算性能提升1 >10%火山引擎g4il常用应用性能提升3 >50%火山引擎g4il内存带宽、网络PPS、云盘带宽及云盘IOPS指标均提升2 挑战 企业与开发者期待快速高效地获取和部署AI大模型在企业AI落地过程中,产生算 力 成 本、 隐 形 的 机 会 成 本以及投资回报长周期等难题繁 琐 的 前 期 准 备 工 作 对 用 户尽快体验AI大模型形成阻碍 解决方案 效率与效益双提升?了解一下金山云SE9的秘诀! 金山云推出搭载英特尔®至强® 6能效核处理器的第九代云服务器——高效型SE9,实现卓越的代际性能提升,且得益于处理器核心数量的大幅增长,性价比提升显著。 •计算性能与网络能力显著提升:最大套餐规格支持256核512G内存,一个虚拟处理器(VCPU)对应一个物理CPU,可有效避免资源争抢;物理网络支持至2×100G,提供最高单虚机2,400 PPS; 解决方案 •内存性能与存储能力有效升级:单CPU支持8个DDR5内存通道,频率高达6,400MT/s,非一致性内存访问效率大幅提升;全系标配极速云盘ESSD,最高可支持单盘吞吐1 GB/s。 处理器升级 云服务/云实例 2.8倍对比基于第三代至强®可扩展处理器的线上主售机型,采用基于至强® 6能效核处理器的高效型SE9,Redis读写性能提升达1 3.5倍对比基于第三代至强®可扩展处理器的线上主售机型,采用基于至强® 6能效核处理器的高效型SE9,转码业务性能提升达2 2.6倍对比基于第三代至强®可扩展处理器的线上主售机型,采用基于至强® 6能效核处理器的高效型SE9,Nginx业务性能提升达3 挑战 提升成本控制能力,为用户带来更经济、更卓越的云上服务 不断降低时延,持续提升云服务质量 提升云服务器部署密度,加强成本控制和弹性部署 Large Language Model (LLM)大语言模型 解决方案 CPU也能玩转AI -为AI提速,给安全加码 阿里云引入第五代至强®可扩展处理器,实现ECS g8i算力再升级,为大模型AI推理加速添新解,更易得、更易用、可扩展性强,满足从小模型到超大模型的各类需求。 •使用处理器内置的AI加速引擎--英特尔® AMX和英特尔® AVX-512,提升并行计算和浮点运算能力; •受益于第五代至强®可扩展处理器显著提升的内存带宽和三级缓存共享容量,化解AI大模型吞吐性能挑战; •利用第五代至强®可扩展处理器内置的英特尔® SGX和英特尔® TDX安全引擎,实现端到端的数据全流程保护。 云服务器升级 企业云服务 挑战 算力需求激增:视频、数据库等场景算力需求激增 以针对工作负载优化的性能实现业务增长和飞跃 智能化应用普及:大模型推理需求爆炸式增长 值得信赖的优质解决方案和安全功能 数据安全挑战:数据隐私及安全需求增强 第五代英特尔®至强®可扩展处理器具备更强通用计算和AI加速能力整体性能提升推理性能提升三级缓存提升每瓦性能提升内存速度提升 解决方案 让更加可及、经济的AI算力资源,在千行百业扬“千帆” 千帆大模型平台利用百度智能云平台中丰富的英特尔®至强®可扩展处理器资源,加速LLM模型推理,满足LLM模型实际部署需求。 •基于至强®可扩展处理器不断提升的算力和内存带宽,有效支持LLM实现端到端加速; •采用第四代/第五代至强®可扩展处理器内置的AI加速引擎–英特尔® AMX,最大限度地利用计算资源,显著增加AI应用程序的每时钟指令数(IPC);•利用大模型推理软件解决方案xFasterTransformer(xFT),进一步加速LLM推理。 大模型推理优化 AI服务平台 2.32倍相较于第三代至强®可扩展处理器,基于第五代至强®可扩展处理器的Llama-2-7b模型输出Token吞吐提升达1 75%相较于第三代至强®可扩展处理器,基于第五代至强®可扩展处理器的Llama-2-7b模型首Token时延降低达² 利用充足的CPU资源,降低LLM推理服务TCO 挑战 LLM推理中大量矩阵及向量矩阵乘法对硬件的较高需求 满足行业离线LLM应用需求,并支持用户快速部署LLM 解决30B等规模的LLM使用高端GPU成本较高等问题 解决方案白皮书|中国电信携英特尔积极探索基于至强® CPU平台的网络大模型推理算力方案 用CPU打造智行云网大脑,网络大模型直面算力拦路虎 中国电信网络大模型方案引入第五代至强®可扩展处理器,借助其内置的多种AI加速引擎,结合英特尔开源的xFT分布式推理框架,有效平衡大模型推理的性能和成本。解决方案:基于第五代至强®的CPU算力方案基于这些优势,中国电信联合英特尔,将英特尔®至强®可扩 •采用第五代英特尔®至强®可扩展处理器作为方案的算力核心,利用其更多的内核数量、更强的单核性能和更大的三级缓存容量等,为大模型提供强劲算力支持;为中国电信网络大模型提供高效能推理CPU在传统上被视为更适于AI负载中的通用计算,例如大模型应用的前期数据准备、知识库的存储和处理等工作。随着更多AI加速技术嵌入CPU,以及围绕CPU平台的AI生展处理器引入中国电信网络大模型的基础算力平台,积极探索基于CPU平台的大模型推理方案,化解大模型推理能力下沉到省公司的挑战,并为满足各行各业对大模型推理算力的迫切需求探索新路。 •利用英特尔® AMX对INT8和BF16低精度数据类型的支持,在矩阵运算中有效提高计算速度并减少存储空间占用,更充分地利用计算资源,大幅提升网络大模型推理效能;•采用英特尔AI软件工具(如xFasterTransformer)提升推理性能、降低部署成本并便捷地迁移模型。态逐步完善,CPU平台所具备的多项优势使其能在满足大模型推理性能的同时,又可兼具成本、绿色节能等方面的优势。使用CPU构建大模型推理方案的优势• CPU作为通用计算资源更易获取;如图一所示,方案使用第五代英特尔®至强®可扩展处理器作为算力核心。通过其内置的英特尔® AMX、英特尔® AVX-512等AI引擎提供的加速能力,中国电信网络大模型能通过分类预测、知识生成、方案撰写、根因分析等能力向上打造智行云网大脑。大脑以故障推理、业务逻辑以及智能交互等多个引擎为驱动力,在流量预测、异常检测、故障管理等云网场景中实现隐患自动 大模型推理优化 网络大模型 >40%与主流GPU相比,CPU平台方案可节省算力资源池建设成本3进行即时/近即时处理。为了更好地满足业务需求并提升使用白皮书|中国电信携英特尔积极探索基于至强® CPU平台的网络大模型推理算力方案 < 100毫秒新方案已在多个运维场景推理任务中运用,辅助生成时延可有效满足业务响应时间要求1•基于既有的x86架构设计的开发和部署方案更高效且稳定;•可复用既有平台的空闲算力,避免额外投资;•可便捷地将GPU训练好的模型在CPU上推理,无需额外迁移成本;• CPU有着更完备的能耗管理,更利于绿色节能。 提升10%新方案使得运维效率有效提升,准备在中国电信现网各省公司实现规模落地2筛选和总结等交互方式,直接使用大模型的推理结果。第五代英特尔®至强®可扩展处理器实现高效的大模型推理的技术关键要素面对高强度、高并发的大模型推理需求,第五代英特尔®至强®可扩展处理器不仅具有更多的内核数量、更强的单核性能和更大的三级缓存(LLC)容量,还可凭借增强的内存子系统,以及 挑战 网络大模型在执行云网运营等应用时,需承受巨大的并发推理压力和性能要求 GPU算力方案会带来巨大的成本压力和能耗,且不利于LLM大规模应用 网络大模型运行过程对内存容量有较大需求,而GPU方案往往缺乏足够的内存容量 解决方案 看如何用CPU加速的AI大模型构建数智化供应链 京东云推出搭载第五代至强®可扩展处理器的新一代云服务器,以处理器内置AI引擎显著加速多种云上大模型推理,有效支撑11.11促销运行高峰。 •利用第五代至强®可扩展处理器及其内置的AI加速引擎--英特尔® AMX,在提升算力的同时,高效处理大量矩阵乘法运算,提升AI推理性能; •使用英特尔® oneDNN对CPU、GPU或两者使用相同的API,抽象出指令集的其他复杂的性能优化,实现深度学习构建块的高度优化。 解决方案 云服务器升级 大模型推理调优 4.19倍基于第五代至强®可扩展处理器,通过英特尔®AMX将模型转化为BF16,JDSE-ResNext-50推理性能提升高达1 避免采购专用硬件加速器的高昂支出 挑战 巨大算力开销带来的性能挑战 专用模型服务器带来的成本挑战 专用AI服务器带来的灵活性挑战 解决方案 中小模型推理新选择!算力性能倍增,实例全新升级 火山引擎第三代弹性计算云服务器实例g3i引入第五代至强®可扩展处理器进行全新升级,通用性能与应用场景性能均大幅提升,可有力胜任高达80亿参数的模型推理,并兼顾速度与成本。 •基于火山引擎最新自研DPU2.0架构和第五代至强®可扩展处理器显著提升的代际性能、更高的CPU核心数、更快的内存以及更大的末级缓存容量,显著提升g3i算力性能,实现内存扩容,有效为LLM与更多场景提供支撑; •利用第五代至强®可扩展处理器及其内置的AI加速引擎--英特尔® AMX,在提升算力的同时,高效处理大量矩阵乘法运算,提升AI推理性能,胜任80亿参数模型推理,降低中小模型推理成本。 122%火山引擎g3i整机算力提升1 75%火山引擎g3i内存带宽提升2 挑战 提供更加稳定可靠、弹性灵活、性能优越的云实例 不