VAE是对Stable Diffusion 1.4或1.5模型的部分更新,它将改善眼睛的渲染效果。
本文将介绍VAE的含义、你可以期待什么、在哪里可以获取它,以及如何安装和使用它。
什么是VAE?
VAE代表变分自编码器。它是神经网络模型的一部分,负责将图像编码和解码到更小的潜在空间,以加快计算速度。
我需要VAE吗?
运行Stable Diffusion时,你不需要安装VAE文件——你使用的任何模型,无论是v1、v2还是自定义的,都已经有了默认的VAE。
当人们谈论下载和使用VAE时,他们指的是使用其改进版本。这是模型训练者使用额外数据进一步微调模型的VAE部分时发生的。他们发布的不是一个全新的大文件模型,而是只有更新了的小部分。
使用VAE的效果是什么?
通常,效果相当微小。改进的VAE可以更好地从潜在空间解码图像。细节恢复得更好。它有助于渲染眼睛和文本,其中所有细节都很重要。
Stability AI发布了两个经过微调的VAE解码器版本,EMA和MSE。(指数移动平均和均方误差是衡量自动编码器好坏的指标。)
以下是EMA、MSE和原始解码器的比较。
应该使用哪一个? Stability对256×256图像的评估是,EMA生成的图像更清晰,而MSE的图像更平滑。(这与我的测试相符。)
在我自己测试Stable Diffusion v1.4和v1.5的512×512图像时,我看到在一些图像中,特别是当面孔很小的时候,眼睛的渲染有很好的改进。
在任何情况下,新的VAE都不会表现得更差。要么表现得更好,要么没有变化。
以下是使用Stable Diffusion v1.5模型的原始、EMA和MSE的比较。(提示可以在这里找到。)放大并比较差异。
最后要注意的是,EMA和MSE与Stable Diffusion v2.0兼容。你可以使用它们,但效果很小。2.0已经非常擅长渲染眼睛了。可能他们已经将改进纳入了模型。
应该使用VAE吗?
如果你对你得到的结果感到满意,你不需要使用VAE。例如,你已经在使用像CodeFormer这样的面部恢复来修复眼睛。
如果你属于想要获取所有小改进的阵营,你应该使用VAE。你只需要设置一次。之后,艺术创作工作流保持不变。
总结
我们已经介绍了如何使用Stability AI发布的两个改进的VAE解码器。它们为渲染眼睛提供了小但可见的改进。你可以决定是否想要使用它。
阅读全文