CONTENT目录 Large Language Model (LLM)大语言模型03 Traditional Deep Learning传统深度学习10 英特尔AI实战视频课程36 英特尔中国AI实战资源库37 Large Language Model (LLM)大语言模型 解决方案 CPU也能玩转AI -为AI提速,给安全加码 阿里云引入第五代至强®可扩展处理器,实现ECS g8i算力再升级,为大模型AI推理加速添新解,更易得、更易用、可扩展性强,满足从小模型到超大模型的各类需求。 •使用处理器内置的AI加速引擎--英特尔® AMX和英特尔® AVX-512,提升并行计算和浮点运算能力; •受益于第五代至强®可扩展处理器显著提升的内存带宽和三级缓存共享容量,化解AI大模型吞吐性能挑战; •利用第五代至强®可扩展处理器内置的英特尔® SGX和英特尔® TDX安全引擎,实现端到端的数据全流程保护。 云服务器升级 企业云服务 挑战 算力需求激增:视频、数据库等场景算力需求激增 以针对工作负载优化的性能实现业务增长和飞跃 智能化应用普及:大模型推理需求爆炸式增长 数据安全挑战:数据隐私及安全需求增强 第五代英特尔®至强®可扩展处理器具备更强通用计算和AI加速能力整体性能提升推理性能提升三级缓存提升每瓦性能提升内存速度提升 解决方案 让更加可及、经济的AI算力资源,在千行百业扬“千帆” 千帆大模型平台利用百度智能云平台中丰富的英特尔®至强®可扩展处理器资源,加速LLM模型推理,满足LLM模型实际部署需求。 •基于至强®可扩展处理器不断提升的算力和内存带宽,有效支持LLM实现端到端加速;•采用第四代/第五代至强®可扩展处理器内置的AI加速引擎–英特尔® AMX,最大限度地利用计算资源,显著增加AI应用程序的每时钟指令数(IPC);•利用大模型推理软件解决方案xFasterTransformer(xFT),进一步加速LLM推理。 解决方案 大模型推理优化 AI服务平台 2.32倍相较于第三代至强®可扩展处理器,基于第五代至强®可扩展处理器的Llama-2-7b模型输出Token吞吐提升达1 75%相较于第三代至强®可扩展处理器,基于第五代至强®可扩展处理器的Llama-2-7b模型首Token时延降低达² 利用充足的CPU资源,降低LLM推理服务TCO 挑战 LLM推理中大量矩阵及向量矩阵乘法对硬件的较高需求 满足行业离线LLM应用需求,并支持用户快速部署LLM 解决30B等规模的LLM使用高端GPU成本较高等问题 解决方案 用CPU打造智行云网大脑,网络大模型直面算力拦路虎 中国电信网络大模型方案引入第五代至强®可扩展处理器,借助其内置的多种AI加速引擎,结合英特尔开源的xFT分布式推理框架,有效平衡大模型推理的性能和成本。解决方案:基于第五代至强®的CPU算力方案基于这些优势,中国电信联合英特尔,将英特尔®至强®可扩白皮书|中国电信携英特尔积极探索基于至强® CPU平台的网络大模型推理算力方案 •采用第五代英特尔®至强®可扩展处理器作为方案的算力核心,利用其更多的内核数量、更强的单核性能和更大的三级缓存容量等,为大模型提供强劲算力支持;为中国电信网络大模型提供高效能推理CPU在传统上被视为更适于AI负载中的通用计算,例如大模型应用的前期数据准备、知识库的存储和处理等工作。随着更多AI加速技术嵌入CPU,以及围绕CPU平台的AI生展处理器引入中国电信网络大模型的基础算力平台,积极探索基于CPU平台的大模型推理方案,化解大模型推理能力下沉到省公司的挑战,并为满足各行各业对大模型推理算力的迫切需求探索新路。 •利用英特尔® AMX对INT8和BF16低精度数据类型的支持,在矩阵运算中有效提高计算速度并减少存储空间占用,更充分地利用计算资源,大幅提升网络大模型推理效能;•采用英特尔AI软件工具(如xFasterTransformer)提升推理性能、降低部署成本并便捷地迁移模型。态逐步完善,CPU平台所具备的多项优势使其能在满足大模型推理性能的同时,又可兼具成本、绿色节能等方面的优势。使用CPU构建大模型推理方案的优势• CPU作为通用计算资源更易获取;如图一所示,方案使用第五代英特尔®至强®可扩展处理器作为算力核心。通过其内置的英特尔® AMX、英特尔® AVX-512等AI引擎提供的加速能力,中国电信网络大模型能通过分类预测、知识生成、方案撰写、根因分析等能力向上打造智行云网大脑。大脑以故障推理、业务逻辑以及智能交互等多个引擎为驱动力,在流量预测、异常检测、故障管理等云网场景中实现隐患自动 解决方案 大模型推理优化 >40%与主流GPU相比,CPU平台方案可节省算力资源池建设成本3进行即时/近即时处理。为了更好地满足业务需求并提升使用白皮书|中国电信携英特尔积极探索基于至强® CPU平台的网络大模型推理算力方案 < 100毫秒新方案已在多个运维场景推理任务中运用,辅助生成时延可有效满足业务响应时间要求1•基于既有的x86架构设计的开发和部署方案更高效且稳定;•可复用既有平台的空闲算力,避免额外投资;•可便捷地将GPU训练好的模型在CPU上推理,无需额外迁移成本;• CPU有着更完备的能耗管理,更利于绿色节能。 提升10%新方案使得运维效率有效提升,准备在中国电信现网各省公司实现规模落地2筛选和总结等交互方式,直接使用大模型的推理结果。第五代英特尔®至强®可扩展处理器实现高效的大模型推理的技术关键要素面对高强度、高并发的大模型推理需求,第五代英特尔®至强®可扩展处理器不仅具有更多的内核数量、更强的单核性能和更大的三级缓存(LLC)容量,还可凭借增强的内存子系统,以及 挑战 网络大模型在执行云网运营等应用时,需承受巨大的并发推理压力和性能要求 GPU算力方案会带来巨大的成本压力和能耗,且不利于LLM大规模应用 网络大模型运行过程对内存容量有较大需求,而GPU方案往往缺乏足够的内存容量 解决方案 看如何用CPU加速的AI大模型构建数智化供应链 京东云推出搭载第五代至强®可扩展处理器的新一代云服务器,以处理器内置AI引擎显著加速多种云上大模型推理,有效支撑11.11促销运行高峰。 •利用第五代至强®可扩展处理器及其内置的AI加速引擎--英特尔® AMX,在提升算力的同时,高效处理大量矩阵乘法运算,提升AI推理性能; •使用英特尔® oneDNN对CPU、GPU或两者使用相同的API,抽象出指令集的其他复杂的性能优化,实现深度学习构建块的高度优化。 解决方案 云服务器升级 大模型推理调优 避免采购专用硬件加速器的高昂支出 基于第五代至强®可扩展处理器,通过英特尔®AMX将模型转化为BF16,JDSE-ResNext-50推理性能提升高达1 挑战 巨大算力开销带来的性能挑战 专用模型服务器带来的成本挑战 专用AI服务器带来的灵活性挑战 解决方案 中小模型推理新选择!算力性能倍增,实例全新升级 火山引擎第三代弹性计算云服务器实例g3i引入第五代至强®可扩展处理器进行全新升级,通用性能与应用场景性能均大幅提升,可有力胜任高达80亿参数的模型推理,并兼顾速度与成本。 •基于火山引擎最新自研DPU2.0架构和第五代至强®可扩展处理器显著提升的代际性能、更高的CPU核心数、更快的内存以及更大的末级缓存容量,显著提升g3i算力性能,实现内存扩容,有效为LLM与更多场景提供支撑; •利用第五代至强®可扩展处理器及其内置的AI加速引擎--英特尔® AMX,在提升算力的同时,高效处理大量矩阵乘法运算,提升AI推理性能,胜任80亿参数模型推理,降低中小模型推理成本。 122%火山引擎g3i整机算力提升1 75%火山引擎g3i内存带宽提升2 挑战 提供更加稳定可靠、弹性灵活、性能优越的云实例 不断拉升云实例算力性能,满足变化迅速的业务需求 支持内置AI加速的算力需求,兼顾速度与成本 解决方案 实现云端“算力+模型”一站式部署 金山云推出搭载第四代至强®可扩展处理器的新一代云服务器,以针对性调优的模型镜像,充分利用原生AI加速能力,有效提升云上大模型推理性能。 •利用第四代至强®可扩展处理器提供的强劲底层算力支撑,及内置AI加速引擎--英特尔® AMX,以矩阵运算显著提升AI推理性能; •基于英特尔® MKL及英特尔® oneDNN搭建大模型镜像,在满足计算准确率的前提下,进一步提升模型性能。 解决方案 云服务器升级 大模型推理调优 3.97-4.96倍 2.52-2.62倍 灵活满足各种应用负载所需 采用IPEX 2.0 BF16优化后,Stable Diffusion模型推理性能提升达1 在LLaMa2-AMX和ChatGLM2-AMX性能测试中,经英特尔Super-Fuse优化后,LLM推理性能提升达2 挑战 采用高性能、高经济性的模型推理算力基础 利用创新的AI硬件加速策略,提升模型推理灵活性 以经过调优的模型镜像,充分调用硬件加速能力 Traditional Deep Learning传统深度学习 解决方案 激发硬件AI加速潜能,让每一份推荐都“算数” 阿里妈妈引入第五代至强®可扩展处理器作为算力核心,并借助处理器内置的英特尔® AMX及软件方案,为新方案提供面向AI推理的优化加速,为平台带来更优的推荐效果。 •利用第五代至强®可扩展处理器更大的末级缓存容量等为推荐系统提供强劲的算力支持;•英特尔® AMX可提供矩阵类型的运算且同时支持INT8和BF16数据类型,助力阿里妈妈推荐系统在保证精度影响最小的前提下加速推理过程;•借助英特尔® oneDNN、算子融合等软件方案,加速矩阵运算,提升内存访问效率。 案例研究 AI模型推理加速 智能推荐系统 1.52倍基于第五代至强®可扩展处理器的广告推荐模型,经过英特尔® AMX和英特尔® AVX-512优化后,相较上一代吞吐性能提升达1 提升智能推荐系统准确性和效率 挑战 更复杂的模型结构和更丰富的组合特征,不断提升对硬件基础设施的算力需求 在有限的算力资源和严格的时延约束下,充分发挥硬件效能,持续提供强劲算力和AI加速 解决方案 AI辅助提升DDR5内存可靠性,让数据中心一直“在线” 阿里云携手英特尔合作改进DDR5内存可靠性,联合开发了面向DDR5的内存故障预测和预防解决方案,帮助提升服务器的可靠性和业务的正常运行。 •方案在BMC中集成英特尔® MRT技术提供AI辅助的实时预测和内存故障分析,其利用多维模型和人工智能算法,在微观层面检测内存故障,使得数据中心提前预警和主动预测潜在的内存故障风险; •在平台中引入第五代至强®可扩展处理器,助力阿里云数据中心为不同工作负载提供更加强劲的算力支持。 57%基于第五代至强®可扩展处理器,方案经过迭代优化后,预期能够预测的不可纠正错误(UE)达1 74%基于第五代至强®可扩展处理器,方案经过迭代优化后,预期能够预测的可纠正错误(CE)达2 快速且全面的硬件监控服务 挑战 DDR5引入了新的架构和信号传输方式,需要更复杂的电路设计和优化DDR5内存模块容量更大,增加了故障的风险In-DRAM纠 错 码(ECC) 导致主机错误观察不够明确 解决方案 AI+游戏,让消消乐玩法更多样,体验更顺畅 乐元素引入基于第五代至强®可扩展处理器的新一代腾讯云实例S8,并采用处理器内置的AI加速引擎,软硬结合加速AI推理,提升开发效率和游戏体验。 •利用基于第五代至强®可扩展处理器的腾讯云实例S8获得平衡、稳定的计算、内存和网络资源;•采用处理器内置AI加速引擎--英特尔® AMX,高效处理矩阵乘法运算,加速基于CPU的AI推理,避免使用独立加速器带来的成本和复杂性;•借助英特尔® oneDNN这一开源、跨平台的库,开发人员可对CPU、GPU使用相同的