行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

稳定扩散推理加速技巧分析

金融2023-08-08DataFunSummit2023：大模型与AIGC峰会测***

AI智能总结

核心观点与关键数据

稳定扩散与 TensorRT 结合

目标：利用 TensorRT 加速稳定扩散模型，特别是针对安培架构的 2:4 结构化稀疏模型。
方法：通过 PyTorch Sparsity API 生成 2:4 结构化稀疏模型，支持稀疏梯度反向传播，用于研究/微调。

稀疏矩阵压缩格式

压缩方式：在 4 个值的块中不存储两个 0，如果一个块包含两个以上的 0，部分 0 不存储。
元数据：使用索引元数据访问剩余的 2 个值，每个值 2 位，fp16 开销 12.5%，int8 开销 25%。
工具：NVIDIA APEX 库（包括 AMP 和 ASP）支持混合精度和稀疏训练。

TensorRT 部署

流程：PyTorch 检查点 -> ONNX -> TensorRT 引擎。
命令：trtexec --onnx=model.onnx --saveEngine=engine.trt --explicitBatch --sparsity=enable --fp16。

稀疏基准测试

模型：SD 1.5 和 SD 2.1，宽度为 512x512。
结果：展示了稀疏性训练后的验证图像，表明模型在稀疏化后仍保持较高性能。

量化与重新安装

量化目标：模型架构量化。
步骤：LoRA TensorRT 重新安装，对齐 ONNX 权重名称与 PyTorch 权重。

稳定扩散 TensorRT 利用 SD trt 的两种方法 TensorRT 演示扩散扩散器社区示例稳定扩散结构化稀疏性稀疏性 2: 4 细粒度 (安培) 2: 4 细粒度适用于: ❑Conv, Linear (ConvNets, Transformer blocks, MLP 等)❑输入:稀疏权重(输入维)，密集的激活❑输出：密集激活稀疏矩阵的压缩格式： ❑不要在每个 4 个值的块中存储两个 0 - > 原始存储的 50 ％▪如果一个块包含两个以上的 0 ，一些 0 将被存储 ❑用于对剩余 2 个值进行索引的元数据- 需要访问密集的激活 ▪每个值 2 位▪fp16 的开销为 12.5% ， 25%int8 的开销 •PyTorch Sparsity API ：公开发布并在 NVIDIA APEX Lib, 下 • Aim: ❑生成一个 2 ： 4 结构化的稀疏模型，可以利用 Ampere 的新功能。❑支持稀疏梯度向后，研究 / 微调结构化稀疏模型。 • NVIDIA 的 APEX 库： ❑用于轻松混合精度和分布式训练的 PyTorch 扩展工具 200nm AMP = 自动混合精度 (apex. amp) Source ASP = 自动稀疏(从 apex. contrib. sparsity 导入 ASP) 与 TensorRT 的稀疏性使用 TensorRT 8 进行部署如何使用 ◎ PyTorch 检查点 - > onnx - > TensorRT 引擎使用 trtexec 命令： ▪trtexec\▪-- onnx = model. onnx\▪-- saveEngine = engine. trt\▪-- explicitBatch\▪-- sparsity = enable\▪--fp16 稀疏基准 SD 1.5 ， wh = 512x512 稀疏性训练结果 SD 1.5 验证图像 SD 1.5 稀疏性训练结果 SD 2.1 验证图像 SD 2.1 要量化什么模型体系结构 LoRA TensorRT重新安装将 onnx 权重名称与火炬权重对齐

点击免费查看完整报告