行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

公有云和互联网创新实践报告

信息技术 2025-01-15 - 英特尔中国 yuannauy

核心观点

英特尔至强® 可扩展处理器助力大模型推理加速：研报重点介绍了英特尔至强® 可扩展处理器在大模型推理场景下的应用，包括第五代和第四代处理器，以及英特尔® AMX、英特尔® AVX-512 等AI加速引擎的作用。多个案例展示了至强® 处理器如何帮助阿里云、百度、中国电信、京东云、金山云等企业提升大模型推理性能，降低成本，并满足不同场景的需求。
CPU平台在大模型推理中的优势：研报对比了CPU平台和GPU平台在大模型推理中的优劣，指出CPU平台在易获取性、成本、绿色节能等方面具有优势，适合中小模型推理和离线应用。
英特尔AI产品组合助力AI应用落地：研报介绍了英特尔AI产品组合，包括英特尔® 至强® 处理器家族、英特尔® AI软件工具组合、英特尔® oneAPI等，并展示了这些产品如何助力AI应用在数据中心、边缘端等场景的落地。
AI加速实践案例：研报列举了多个AI加速实践案例，涵盖智能推荐系统、自然语言处理、游戏开发、大数据分析等领域，展示了英特尔AI技术在不同行业的应用价值。

关键数据

第五代英特尔® 至强® 可扩展处理器相较于第四代提升：
- 整体性能提升42%
- 推理性能提升3.42倍
- 内存带宽提升1.2倍
- 三级缓存提升10倍
- 每瓦性能提升16%
阿里云ECS g8i集群可支撑72B参数级别的大语言模型分布式推理。
用友NLP应用在基于第五代英特尔® 至强® 可扩展处理器上吞吐性能相较于第四代提升1.2倍。
千帆大模型平台基于第四代/第五代至强® 可扩展处理器，Llama-2-7b模型输出Token吞吐提升达175%，首Token时延降低达²。
中国电信网络大模型在吞吐量、首字符时延和生成时延方面都与规模相当的开源大模型性能表现一致，在CPU平台上的生成时延均小于100毫秒。
京东云新一代云服务器S8，基于第五代至强® 可扩展处理器，新春扫龙字活动模型推理性能提升达5.19倍。
金山云新一代云服务器，基于第四代至强® 可扩展处理器，Stable Diffusion 模型推理性能提升达12.52-2.62倍。
阿里妈妈推荐系统，基于第五代至强® 可扩展处理器，吞吐性能提升达1.52倍。

研究结论

英特尔至强® 可扩展处理器凭借其强大的AI加速能力和高效的计算性能，为大模型推理提供了理想的算力平台。CPU平台在大模型推理中具有独特的优势，能够满足不同场景的需求。英特尔AI产品组合为AI应用提供了全面的解决方案，助力AI技术在各行各业落地应用。

CONTENT目录 Large Language Model (LLM)大语言模型03 Traditional Deep Learning传统深度学习10 英特尔AI实战视频课程36 英特尔中国AI实战资源库37 Large Language Model (LLM)大语言模型解决方案 CPU也能玩转AI -为AI提速，给安全加码阿里云引入第五代至强®可扩展处理器，实现ECS g8i算力再升级，为大模型AI推理加速添新解，更易得、更易用、可扩展性强，满足从小模型到超大模型的各类需求。 •使用处理器内置的AI加速引擎--英特尔® AMX和英特尔® AVX-512，提升并行计算和浮点运算能力； •受益于第五代至强®可扩展处理器显著提升的内存带宽和三级缓存共享容量，化解AI大模型吞吐性能挑战； •利用第五代至强®可扩展处理器内置的英特尔® SGX和英特尔® TDX安全引擎，实现端到端的数据全流程保护。云服务器升级企业云服务挑战算力需求激增：视频、数据库等场景算力需求激增以针对工作负载优化的性能实现业务增长和飞跃智能化应用普及：大模型推理需求爆炸式增长数据安全挑战：数据隐私及安全需求增强第五代英特尔®至强®可扩展处理器具备更强通用计算和AI加速能力整体性能提升推理性能提升三级缓存提升每瓦性能提升内存速度提升解决方案让更加可及、经济的AI算力资源，在千行百业扬“千帆” 千帆大模型平台利用百度智能云平台中丰富的英特尔®至强®可扩展处理器资源，加速LLM模型推理，满足LLM模型实际部署需求。 •基于至强®可扩展处理器不断提升的算力和内存带宽，有效支持LLM实现端到端加速；•采用第四代/第五代至强®可扩展处理器内置的AI加速引擎–英特尔® AMX,最大限度地利用计算资源，显著增加AI应用程序的每时钟指令数(IPC)；•利用大模型推理软件解决方案xFasterTransformer(xFT),进一步加速LLM推理。解决方案大模型推理优化 AI服务平台 2.32倍相较于第三代至强®可扩展处理器，基于第五代至强®可扩展处理器的Llama-2-7b模型输出Token吞吐提升达1 75%相较于第三代至强®可扩展处理器，基于第五代至强®可扩展处理器的Llama-2-7b模型首Token时延降低达² 利用充足的CPU资源，降低LLM推理服务TCO 挑战 LLM推理中大量矩阵及向量矩阵乘法对硬件的较高需求满足行业离线LLM应用需求，并支持用户快速部署LLM 解决30B等规模的LLM使用高端GPU成本较高等问题解决方案用CPU打造智行云网大脑，网络大模型直面算力拦路虎中国电信网络大模型方案引入第五代至强®可扩展处理器，借助其内置的多种AI加速引擎，结合英特尔开源的xFT分布式推理框架，有效平衡大模型推理的性能和成本。解决方案：基于第五代至强®的CPU算力方案基于这些优势，中国电信联合英特尔，将英特尔®至强®可扩白皮书|中国电信携英特尔积极探索基于至强® CPU平台的网络大模型推理算力方案 •采用第五代英特尔®至强®可扩展处理器作为方案的算力核心，利用其更多的内核数量、更强的单核性能和更大的三级缓存容量等，为大模型提供强劲算力支持；为中国电信网络大模型提供高效能推理CPU在传统上被视为更适于AI负载中的通用计算，例如大模型应用的前期数据准备、知识库的存储和处理等工作。随着更多AI加速技术嵌入CPU，以及围绕CPU平台的AI生展处理器引入中国电信网络大模型的基础算力平台，积极探索基于CPU平台的大模型推理方案，化解大模型推理能力下沉到省公司的挑战，并为满足各行各业对大模型推理算力的迫切需求探索新路。 •利用英特尔® AMX对INT8和BF16低精度数据类型的支持，在矩阵运算中有效提高计算速度并减少存储空间占用，更充分地利用计算资源，大幅提升网络大模型推理效能；•采用英特尔AI软件工具(如xFasterTransformer)提升推理性能、降低部署成本并便捷地迁移模型。态逐步完善，CPU平台所具备的多项优势使其能在满足大模型推理性能的同时，又可兼具成本、绿色节能等方面的优势。使用CPU构建大模型推理方案的优势• CPU作为通用计算资源更易获取；如图一所示，方案使用第五代英特尔®至强®可扩展处理器作为算力核心。通过其内置的英特尔® AMX、英特尔® AVX-512等AI引擎提供的加速能力，中国电信网络大模型能通过分类预测、知识生成、方案撰写、根因分析等能力向上打造智行云网大脑。大脑以故障推理、业务逻辑以及智能交互等多个引擎为驱动力，在流量预测、异常检测、故障管理等云网场景中实现隐患自动解决方案大模型推理优化 >40%与主流GPU相比，CPU平台方案可节省算力资源池建设成本3进行即时/近即时处理。为了更好地满足业务需求并提升使用白皮书|中国电信携英特尔积极探索基于至强® CPU平台的网络大模型推理算力方案 < 100毫秒新方案已在多个运维场景推理任务中运用，辅助生成时延可有效满足业务响应时间要求1•基于既有的x86架构设计的开发和部署方案更高效且稳定；•可复用既有平台的空闲算力，避免额外投资；•可便捷地将GPU训练好的模型在CPU上推理，无需额外迁移成本；• CPU有着更完备的能耗管理，更利于绿色节能。提升10%新方案使得运维效率有效提升，准备在中国电信现网各省公司实现规模落地2筛选和总结等交互方式，直接使用大模型的推理结果。第五代英特尔®至强®可扩展处理器实现高效的大模型推理的技术关键要素面对高强度、高并发的大模型推理需求，第五代英特尔®至强®可扩展处理器不仅具有更多的内核数量、更强的单核性能和更大的三级缓存(LLC)容量，还可凭借增强的内存子系统，以及挑战网络大模型在执行云网运营等应用时，需承受巨大的并发推理压力和性能要求 GPU算力方案会带来巨大的成本压力和能耗，且不利于LLM大规模应用网络大模型运行过程对内存容量有较大需求，而GPU方案往往缺乏足够的内存容量解决方案看如何用CPU加速的AI大模型构建数智化供应链京东云推出搭载第五代至强®可扩展处理器的新一代云服务器，以处理器内置AI引擎显著加速多种云上大模型推理，有效支撑11.11促销运行高峰。 •利用第五代至强®可扩展处理器及其内置的AI加速引擎--英特尔® AMX，在提升算力的同时，高效处理大量矩阵乘法运算，提升AI推理性能； •使用英特尔® oneDNN对CPU、GPU或两者使用相同的API，抽象出指令集的其他复杂的性能优化，实现深度学习构建块的高度优化。解决方案云服务器升级大模型推理调优避免采购专用硬件加速器的高昂支出基于第五代至强®可扩展处理器,通过英特尔®AMX将模型转化为BF16，JDSE-ResNext-50推理性能提升高达1 挑战巨大算力开销带来的性能挑战专用模型服务器带来的成本挑战专用AI服务器带来的灵活性挑战解决方案中小模型推理新选择！算力性能倍增，实例全新升级火山引擎第三代弹性计算云服务器实例g3i引入第五代至强®可扩展处理器进行全新升级，通用性能与应用场景性能均大幅提升，可有力胜任高达80亿参数的模型推理，并兼顾速度与成本。 •基于火山引擎最新自研DPU2.0架构和第五代至强®可扩展处理器显著提升的代际性能、更高的CPU核心数、更快的内存以及更大的末级缓存容量，显著提升g3i算力性能，实现内存扩容，有效为LLM与更多场景提供支撑； •利用第五代至强®可扩展处理器及其内置的AI加速引擎--英特尔® AMX，在提升算力的同时，高效处理大量矩阵乘法运算，提升AI推理性能，胜任80亿参数模型推理，降低中小模型推理成本。 122%火山引擎g3i整机算力提升1 75%火山引擎g3i内存带宽提升2 挑战提供更加稳定可靠、弹性灵活、性能优越的云实例不断拉升云实例算力性能，满足变化迅速的业务需求支持内置AI加速的算力需求，兼顾速度与成本解决方案实现云端“算力+模型”一站式部署金山云推出搭载第四代至强®可扩展处理器的新一代云服务器，以针对性调优的模型镜像，充分利用原生AI加速能力，有效提升云上大模型推理性能。 •利用第四代至强®可扩展处理器提供的强劲底层算力支撑，及内置AI加速引擎--英特尔® AMX，以矩阵运算显著提升AI推理性能； •基于英特尔® MKL及英特尔® oneDNN搭建大模型镜像，在满足计算准确率的前提下，进一步提升模型性能。解决方案云服务器升级大模型推理调优 3.97-4.96倍 2.52-2.62倍灵活满足各种应用负载所需采用IPEX 2.0 BF16优化后，Stable Diffusion模型推理性能提升达1 在LLaMa2-AMX和ChatGLM2-AMX性能测试中，经英特尔Super-Fuse优化后，LLM推理性能提升达2 挑战采用高性能、高经济性的模型推理算力基础利用创新的AI硬件加速策略，提升模型推理灵活性以经过调优的模型镜像，充分调用硬件加速能力 Traditional Deep Learning传统深度学习解决方案激发硬件AI加速潜能，让每一份推荐都“算数” 阿里妈妈引入第五代至强®可扩展处理器作为算力核心，并借助处理器内置的英特尔® AMX及软件方案，为新方案提供面向AI推理的优化加速，为平台带来更优的推荐效果。 •利用第五代至强®可扩展处理器更大的末级缓存容量等为推荐系统提供强劲的算力支持；•英特尔® AMX可提供矩阵类型的运算且同时支持INT8和BF16数据类型，助力阿里妈妈推荐系统在保证精度影响最小的前提下加速推理过程；•借助英特尔® oneDNN、算子融合等软件方案，加速矩阵运算，提升内存访问效率。案例研究 AI模型推理加速智能推荐系统 1.52倍基于第五代至强®可扩展处理器的广告推荐模型，经过英特尔® AMX和英特尔® AVX-512优化后，相较上一代吞吐性能提升达1 提升智能推荐系统准确性和效率挑战更复杂的模型结构和更丰富的组合特征，不断提升对硬件基础设施的算力需求在有限的算力资源和严格的时延约束下，充分发挥硬件效能，持续提供强劲算力和AI加速解决方案 AI辅助提升DDR5内存可靠性，让数据中心一直“在线” 阿里云携手英特尔合作改进DDR5内存可靠性，联合开发了面向DDR5的内存故障预测和预防解决方案，帮助提升服务器的可靠性和业务的正常运行。 •方案在BMC中集成英特尔® MRT技术提供AI辅助的实时预测和内存故障分析，其利用多维模型和人工智能算法，在微观层面检测内存故障，使得数据中心提前预警和主动预测潜在的内存故障风险； •在平台中引入第五代至强®可扩展处理器，助力阿里云数据中心为不同工作负载提供更加强劲的算力支持。 57%基于第五代至强®可扩展处理器，方案经过迭代优化后，预期能够预测的不可纠正错误(UE)达1 74%基于第五代至强®可扩展处理器，方案经过迭代优化后，预期能够预测的可纠正错误(CE)达2 快速且全面的硬件监控服务挑战 DDR5引入了新的架构和信号传输方式，需要更复杂的电路设计和优化DDR5内存模块容量更大，增加了故障的风险In-DRAM纠错码（ECC）导致主机错误观察不够明确解决方案 AI+游戏，让消消乐玩法更多样，体验更顺畅乐元素引入基于第五代至强®可扩展处理器的新一代腾讯云实例S8，并采用处理器内置的AI加速引擎，软硬结合加速AI推理，提升开发效率和游戏体验。 •利用基于第五代至强®可扩展处理器的腾讯云实例S8获得平衡、稳定的计算、内存和网络资源；•采用处理器内置AI加速引擎--英特尔® AMX，高效处理矩阵乘法运算，加速基于CPU的AI推理，避免使用独立加速器带来的成本和复杂性；•借助英特尔® oneDNN这一开源、跨平台的库，开发人员可对CPU、GPU使用相同的

点击免费查看完整报告

公有云和互联网创新实践报告

核心观点

关键数据

研究结论

你可能感兴趣

英特尔中国公有云和互联网创新实践

英特尔中国公有云和互联网创新实践

通往创新之巅：互联网技术架构创新案例和实践

使用最新的云和数据保护技术促进云中灾难恢复的新最佳实践

战略参股“新云和创”，布局农业互联网平台

美股科技互联网25Q2财报总结：AI显著拉动云和广告需求，Capex投入商业化闭环

亚太及香港的混合云和创新数据

2024年数字机关应用创新评估报告-数字机关建设的创新实践

守正创新融合共生-2023游戏IP赋能文旅实践报告

跨越国界，引领创新-2024年中国药企出海的布局实践报告