AI智能总结
#芯加速 行至远 人工智能市场支出指南企业部署AI时应考量的因素基于英特尔®架构的AI基石040610 目录 CONTENTS •第四代英特尔®至强®可扩展平台•经英特尔优化的开源AI框架和工具•基于第四代英特尔®至强®可扩展处理器的AI调优指南•广泛的英特尔AI产品组合和合作伙伴 AI趋势与展望–生成式AI38 人工智能主要应用行业及场景 全球 中国 销售流程推荐和增强 Top 3行业AI应用场景 企业按业务需求选择合适的AI方法时,应考量哪些因素? 企业部署AI时应考量的因素 部署AI时需要考量的基础设施因素 在基于CPU的基础设施上运行AI工作负载 在漫长的AI开发流程中,对计算资源的要求各不相同基于英特尔®技术的现有基础设施可以支持多种AI用例和工作负载 借助英特尔®技术提升洞察质量驱动关键业务产出 •从云端、边缘到终端设备,更广泛的应用场景意味着AI的部署环境正变得更为复杂且多元化; •在异构平台上运行全栈软件,需要用户基于不同的硬件基础设施来设计高效稳定的开发和部署方案,且需要根据业务场景、软件框架的不同来实施复杂的调优过程。 对于力求在整个企业业务层面扩展AI应用的企业来说,降低复杂性是关键所在。 人工智能(AI)、机器学习(ML)和深度学习工作负载,如图像分类、自然语言处理(NLP)、目标检测和视频分析,正在推动各行各业拥有更快和更好的洞察力。然而,不合格的硬件和未经优化的AI训练和推理解决方案阻碍了它们的进一步发展。 英特尔携手生态系统合作伙伴,共推AI的繁荣演进 第四代英特尔®至强®可扩展处理器内置AI加速 纵观市场上所有的CPU,第四代英特尔®至强®可扩展处理器内置众多加速器,可为AI工作负载提供性能和能效优势,并可凭借全新的英特尔®高级矩阵扩展(英特尔® AMX)提供卓越的AI训练和推理性能。 英特尔数千名软件工程师正在整个AI生态系统中贡献着自己的一份力量加速AI的发展。例如,NumPy、TensorFlow、PyTorch、Scikit-learn、XGBoost的主流开源版本均已面向英特尔®架构进行了优化。 英特尔提供了许多工具来加速AI发展,如用于推理模型优化的OpenVINOTM工具套件;用于Apache Spark上的分布式深度学习的BigDL;以及用于在任意基础设施上协调机器学习管道的cnvrg.io MLOps平台。 高达5.7倍至10倍PyTorch实时推理性能提升 高达3.5倍至10倍PyTorch训练性能提升 第四代英特尔®至强®可扩展处理器,结合软件优化和生态系统合作,正在帮助人工智能开发者实现其生产力目标,并从人工智能中更快地获得商业价值。 启用内置英特尔® AMX (BF16)的第四代英特尔®至强®可扩展处理器vs上一代产品(FP32) 加速AI应用构建 基于英特尔®架构的AI基石 可运行各种AI代码,各类工作负载 英特尔® AI平台 经过英特尔优化的开源AI框架和工具 广泛的英特尔AI产品组合和合作伙伴 第四代英特尔®至强®可扩展处理器 加速整个AI管道,以运行多种AI代码和工作负载 通过丰富的软硬件组合加速AI方案部署时间 加速开发者构建和部署AI应用的旅程 端到端人工智能流水线的挑战 端到端人工智能流水线的挑战 AI需要一个均衡的服务器平台 深度学习和GNN训练 第四代英特尔®至强®可扩展处理器 英特尔® AI软件 性能提升/瓦17.7x 300+深度学习模型50+经过优化的机器学习和图模型Optimizations up-streamed英特尔® AI开发者工具 采用内置AI加速器的INT8/ BF16模型 内置英特尔® AMX的第四代英特尔®至强®可扩展处理器vs.第三代英特尔®至强®可扩展处理器 相较于第三代英特尔®至强®可扩展处理器PCI Express 5.02x oneAPI AI生态系统 使用主流的DL、ML和数据处理库和框架、操作系统和虚拟机管理器 最高512 GB/路受保护的内存“飞地”-英特尔® SGX DDR5内存带宽和容量1.5x 相较于第三代英特尔®至强®可扩展处理器 由BigDL和OpenVINOTM工具套件支持的机密AI计算 第四代英特尔®至强®可扩展处理器内置七大加速器 英特尔®加速引擎的优势性能更强大的服务器架构 英特尔®动态负载均衡器(英特尔® DLB) 英特尔®高级矩阵扩展(英特尔® AMX) 英特尔®数据流加速器(英特尔® DSA) 英特尔®数据保护与压缩加速技术(英特尔® QAT) 英特尔®存内分析加速器(英特尔® IAA) RocksDB性能提升高达2.1倍 SPDK-NVMe IOPS提升高达1.7倍 高达8.6 这是启用内置的英特尔® QAT与使用开箱即用的软件在NGINX上实现相同的每秒连接次数时内核用量的比较结果 这是启用英特尔® IAA与使用Ztsd软件的比较结果 这是启用内置的英特尔® DSA与使用ISA-L软件的比较结果 这是在相同的吞吐量下,启用英特尔® DLB与使用软件处理Istio-Envoy入口网关连接请求的比较结果 这是启用内置AMX (BF16)时与上一代产品(FP32)的比较结果 加速器带来超越基础架构的阶梯式性能提升 一款处理器同时适用于标量、矢量和矩阵 英特尔®高级矩阵扩展(英特尔® AMX) 功能 •提供广泛的软硬件优化,使AI加速能力获得提升 商业价值 •为AI/深度学习推理和训练工作负载带来显著性能提升•通过硬件加速使常见应用更快交付 软件支持 •市场上的主流框架、工具套件和库(PyTorch、TensorFlow),英特尔® oneAPI深度神经网络库(英特尔® oneDNN) 用例 •图像识别、推荐系统、机器/语言翻译、自然语言处理(NLP)、媒体处理和分发 英特尔® AVX-512 依据表示数字的比特位数,FP32可提供更高的精度 与FP32相比,使用bfloat16可实现每周期两倍的吞吐量 许多AI功能并不需要FP32提供的精度水平 从FP32转换到bfloat16比转换到FP16更简单 bfloat16支持基于相同指数域的相同范围的数字,但精度略低 在随处构建和部署AI应用 英特尔® AI平台 经过英特尔优化的开源AI框架和工具 第四代英特尔®至强®可扩展处理器 广泛的英特尔AI产品组合和合作伙伴 加速开发者构建和部署AI应用的旅程 加速整个AI管道,以运行多种AI代码和工作负载 通过丰富的软硬件组合加速AI方案部署时间 通用AI平台:更高的端到端机器学习性能 测试配置: 1 x BDX: Test by Intel as of <11/25/22>. GCP n1-highmem-64 instancebased on Intel Xeon processor (Broadwell), 1 socket, 32 cores, HT On,64 vCPUs, Turbo On, Total Memory 416 GB, bios: Google, ucode: 0x1,Ubuntu 22.04, 5.15.0-1022-gcp1 x SPR: Test by Intel as of <11/25/22>. 1-node, 1x Intel Xeon Platinum8480+, 56 cores, HT On, Turbo On, Total Memory 250 GB,0x2b000081, Red Hat Enterprise Linux release 8.6 (Ootpa), Linux4.18.0-372.19.1.el8_6.x86_64Baseline Scanpy: version 1.8.1 https://github.com/scverse/scanpyOpen Omics Scanpy-based single cell pipeline: https://github.com/IntelLabs/Trans-Omics-Acceleration-Library/tree/master/applications/single_cell_pipeline, branch: master, commit: #8ae29eb 通用AI平台:更高的端到端深度学习性能 英特尔® oneAPI AI Analytics工具套件 数据分析&机器学习 深度学习 利用面向英特尔®架构优化的库加速端到端人工智能和数据分析管道 面向英特尔®架构优化的TensorFlow 显著优势 面向英特尔®架构优化的PyTorch •利用面向英特尔®架构优化的深度学习框架和工具提升训练和推理性能•使用计算密集型Python包为数据分析和机器学习工作流提供落地加速 面向英特尔®架构优化的Python 英特尔®低精度优化工具(英特尔® LPOT) Scikit-learn XGBoost 面向英特尔®架构优化的Model Zoo SciPy 示例及端到端工作负载 性能加速 硬件支持因个别工具而异。架构支持将随着时间的推移而扩大。 提高生产力 加快开发 点击或通过如下链接获取工具包 OpenVINO™工具套件-由oneAPI提供支持 旨在使用高性能人工智能和计算机视觉推理实现更加快速和准确的实际结果,部署在从边缘到云的、基于英特尔® XPU架构(CPU、GPU、FPGA、VPU)的生产环境中 1. BUILD 2. OPTIMIZE 高性能、深度学习推理部署 Trained Model 简化开发、易于使用 Open Model Zoo100+ open sourced andoptimized pre-trainedmodels; 80+ supportedpublic models 一次编写、随处部署 基于第四代英特尔®至强®可扩展处理器的人工智能调优指南 •全新内置AI加速引擎-英特尔® AMX•软硬件配置•面向Linux操作系统的优化•面向AI框架的优化-面向英特尔®架构优化的TensorFlow-英特尔® Extension for PyTorch•面向AI神经网络模型的低精度优化•AI模型推理加速– OpenVINOTM工具套件•数据分析和机器学习加速 扫码获取完整调优指南 以多样化软硬件组合加速AI部署 英特尔® AI平台 经过英特尔优化的开源AI框架和工具 广泛的英特尔AI产品组合和合作伙伴 第四代英特尔®至强®可扩展处理器 通过丰富的软硬件组合加速AI方案部署时间 加速整个AI管道,以运行多种AI代码和工作负载 加速开发者构建和部署AI应用的旅程 第四代英特尔®至强®可扩展处理器相较于上一代产品的性能提升 (与上一代产品相比)推荐系统训练性能提升 (与上一代产品相比)推荐系统批量推理性能提升 AI关键用例 •互联网企业可以更好地驱动客户的需求并持续吸引他们的关注,从而获得巨大的营收潜力。 深度学习:推荐系统和自然语言处理(NLP) 根据实时行为信号和上下文队列提供个性化用户体验,企业可以部署基于深度学习的推荐系统以及使用自然语言处理,同时平衡总体拥有成本(TCO)。推荐系统可帮助企业通过个性化推荐为每个客户提供更好的服务,而自然语言处理则使设备能够更好地理解文本的含义,从而让企业能够更好地了解并满足客户的需求。 •金融服务机构可以更好地了解客户,从而做出更明智的投资和风险管理决策。 •医疗保健服务企业和机构可以通过更高效的计费和预先审批流程以及更准确的术后并发症预测,来改进患者护理并降低成本。 •零售企业可以利用更准确的文本识别和语义理解来更好地解读用户行为,从而以更具个性化的客户体验创造增加营收的机会。同时,情感分析还有助于零售企业收集用户反馈,并基于此提供更好的产品