挑战
几乎每位深度学习工程师都面临在CPU上运行深度学习模型的性能瓶颈问题,即“运行在CPU上很慢”。
解决方案
OpenVINO™通过视觉推理优化、神经网络+NLP、音频等技术,提供从模型开发、优化到部署的全流程解决方案,支持CPU、GPU、VPU等多种设备,实现实时AI推理。
开发者旅程
- 开发:使用Model Optimizer将模型转换为优化后的中间表示(IR),支持FP32、FP16等数据类型。
- 优化:利用Post-Training Optimization Tool(POT)和Neural Network Compression Framework(NNCF)进行模型压缩,包括量化、混合精度、剪枝等技术。
- 部署:通过OpenVINO Runtime(Core)编译和运行模型,支持动态形状输入,并提供CPU、GPU等设备的自动插件选择。
关键功能
- 预训练模型:提供270+预训练和优化模型,涵盖PaddlePaddle等框架。
- 动态形状支持:允许模型处理不同形状的输入数据。
- 性能优化:通过配置优化(如CPU、GPU加速)提升推理性能。
应用案例
- 实时AI推理:以OCR为例,展示OpenVINO Runtime在CPU和GPU上的推理性能对比。
- MQTT集成:通过MQTT将OpenVINO™推理结果推送给EdgeX Foundry,实现全流程部署。
实践指南
- OpenVINO Notebooks:提供环境搭建、代码示例和教程,方便开发者快速上手。
- Intel® DevCloud for the Edge:提供云平台,支持开发者自行尝试和优化模型。
性能基准
- 平台配置:测试配置包括Intel® Core™ i7/i5/i3处理器、不同主板、内存和操作系统,确保测试环境的多样性。
- 性能指标:测试结果基于FP32精度,批量大小为1,并发请求为4,性能因配置和使用场景而异。
结论
OpenVINO™通过全面的优化工具和部署方案,有效解决边缘实时AI推理的性能瓶颈,支持多种设备和框架,助力开发者高效部署AI应用。