随着模型越变越大,内存需求也随之增加。对扩散模型而言,这个问题愈加严重,因为扩散流水线通常由多个模型串成: 文本编码器、扩散主干模型和图像解码器。此外,最新的扩散流水线通常使用多个文本编码器 – 如: Stable Diffusion 3 有 3 个文本编码器。使用 FP16 精度对 SD3 进行推理需要 18.765GB 的 GPU 显存。
基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型
未经允许不得转载:小狮博客 » 基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型