AI智能总结
稳定扩散 TensorRT 利用 SD trt 的两种方法 TensorRT 演示扩散 扩散器社区示例 稳定扩散 结构化稀疏性 稀疏性 2: 4 细粒度 (安培) 2: 4 细粒度 适用于: ❑Conv, Linear (ConvNets, Transformer blocks, MLP 等)❑输入:稀疏权重(输入维), 密集的激活❑输出 : 密集激活 稀疏矩阵的压缩格式 : ❑不要在每个 4 个值的块中存储两个 0 - > 原始存储的 50 %▪如果一个块包含两个以上的 0 , 一些 0 将被存储 ❑用于对剩余 2 个值进行索引的元数据- 需要访问密集的激活 ▪每个值 2 位▪fp16 的开销为 12.5% , 25%int8 的开销 •PyTorch Sparsity API :公开发布并在 NVIDIA APEX Lib, 下 • Aim: ❑生成一个 2 : 4 结构化的稀疏模型 , 可以利用 Ampere 的新功能。❑支持稀疏梯度向后 , 研究 / 微调结构化稀疏模型。 • NVIDIA 的 APEX 库 : ❑用于轻松混合精度和分布式训练的 PyTorch 扩展工具 200nm AMP = 自动混合精度 (apex. amp) Source ASP = 自动稀疏(从 apex. contrib. sparsity 导入 ASP) 与 TensorRT 的稀疏性 使用 TensorRT 8 进行部署 如何使用 ◎ PyTorch 检查点 - > onnx - > TensorRT 引擎 使用 trtexec 命令 : ▪trtexec\▪-- onnx = model. onnx\▪-- saveEngine = engine. trt\▪-- explicitBatch\▪-- sparsity = enable\▪--fp16 稀疏基准 SD 1.5 , wh = 512x512 稀疏性训练结果 SD 1.5 验证图像 SD 1.5 稀疏性训练结果 SD 2.1 验证图像 SD 2.1 要量化什么 模型体系结构 LoRA TensorRT重新安装 将 onnx 权重名称与火炬权重对齐