两个VAE版本:SDXL-VAE 和 XL_VAE_C 系列 都是当前 SDXL 大模型搭配最多的优化器。
一般情况使用 SDXL_VAE 即可。
您可以将这个微调的 SDXL VAE 解码器集成到您现有的工作流程中,方法是在 diffusersvaeStableDiffusionPipeline
from diffusers.models import AutoencoderKL
from diffusers import StableDiffusionPipeline
model = "stabilityai/your-stable-diffusion-model"
vae = AutoencoderKL.from_pretrained("stabilityai/sdxl-vae")
pipe = StableDiffusionPipeline.from_pretrained(model, vae=vae)
SDXL 是一种潜在扩散模型,其中扩散在预训练的 自编码器的学习(和固定)潜在空间。 虽然大部分语义组合是由潜在扩散模型完成的, 我们可以通过提高自动编码器的质量来改善生成图像中的局部高频细节。
![图片[1]_SDXL - VAE,XL-VAE-F1图像编解码优化器](https://scdn.qpipi.com/2024/03/5ec5940e7520240325233029.webp)
为此,我们以更大的批量(256 对 9)训练了用于原始 Stable Diffusion 的相同自动编码器架构 此外,还使用指数移动平均线 (EMA) 跟踪权重。 生成的自动编码器在所有评估的重建指标中都优于原始模型,请参见下表。
SDXL-VAE vs original kl-f8 VAE vs f8-ft-MSE
COCO 2017 (256×256, val, 5000 images)
Model | rFID | PSNR | SSIM | PSIM | Link | Comments |
---|---|---|---|---|---|---|
SDXL-VAE | 4.42 | 24.7 +/- 3.9 | 0.73 +/- 0.13 | 0.88 +/- 0.27 | https://huggingface.co/stabilityai/sdxl-vae/blob/main/sdxl_vae.safetensors | as used in SDXL |
original | 4.99 | 23.4 +/- 3.8 | 0.69 +/- 0.14 | 1.01 +/- 0.28 | https://ommer-lab.com/files/latent-diffusion/kl-f8.zip | as used in SD |
ft-MSE | 4.70 | 24.5 +/- 3.7 | 0.71 +/- 0.13 | 0.92 +/- 0.27 | https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.ckpt | resumed with EMA from ft-EMA, emphasis on MSE (rec. loss = MSE + 0.1 * LPIPS), smoother outputs |
AI绘图常用工具
💡如有问题或建议,🥳请在社区或评论告诉我们。🎨享受精彩的AI绘画乐趣!
⭕ 使用Qpipi读图提示功能,获取图片TAG Prompt提示 | Stable Diffusion AI绘图软件常见问题解答 | AI绘画新人必备工具指南
© 版权声明
⚠️ 与人分享是一种高尚品德,转载本站图文等内容,请保留出处和链接! By-SA 4.0
THE END
- 最新
- 最热
只看作者