如何在Stable Diffusion上使用VAE改善眼睛和脸部？

VAE是对Stable Diffusion 1.4或1.5模型的部分更新，它将改善眼睛的渲染效果。

本文将介绍VAE的含义、你可以期待什么、在哪里可以获取它，以及如何安装和使用它。

什么是VAE？

VAE代表变分自编码器。它是神经网络模型的一部分，负责将图像编码和解码到更小的潜在空间，以加快计算速度。

运行Stable Diffusion时，你不需要安装VAE文件——你使用的任何模型，无论是v1、v2还是自定义的，都已经有了默认的VAE。

当人们谈论下载和使用VAE时，他们指的是使用其改进版本。这是模型训练者使用额外数据进一步微调模型的VAE部分时发生的。他们发布的不是一个全新的大文件模型，而是只有更新了的小部分。

通常，效果相当微小。改进的VAE可以更好地从潜在空间解码图像。细节恢复得更好。它有助于渲染眼睛和文本，其中所有细节都很重要。

Stability AI发布了两个经过微调的VAE解码器版本，EMA和MSE。（指数移动平均和均方误差是衡量自动编码器好坏的指标。）

以下是EMA、MSE和原始解码器的比较。

应该使用哪一个？ Stability对256×256图像的评估是，EMA生成的图像更清晰，而MSE的图像更平滑。（这与我的测试相符。）

在我自己测试Stable Diffusion v1.4和v1.5的512×512图像时，我看到在一些图像中，特别是当面孔很小的时候，眼睛的渲染有很好的改进。

在任何情况下，新的VAE都不会表现得更差。要么表现得更好，要么没有变化。

以下是使用Stable Diffusion v1.5模型的原始、EMA和MSE的比较。（提示可以在这里找到。）放大并比较差异。

最后要注意的是，EMA和MSE与Stable Diffusion v2.0兼容。你可以使用它们，但效果很小。2.0已经非常擅长渲染眼睛了。可能他们已经将改进纳入了模型。

如果你对你得到的结果感到满意，你不需要使用VAE。例如，你已经在使用像CodeFormer这样的面部恢复来修复眼睛。

如果你属于想要获取所有小改进的阵营，你应该使用VAE。你只需要设置一次。之后，艺术创作工作流保持不变。

我们已经介绍了如何使用Stability AI发布的两个改进的VAE解码器。它们为渲染眼睛提供了小但可见的改进。你可以决定是否想要使用它。

阅读全文

温馨提示：

更新时间：2024年07月05日