SDXL 1.0模型介绍与使用

AIGC Stable Diffusion AI

最近，Stability AI正式推出了全新的SDXL 1.0版本。与1.5版本相比，SDXL的效果有了巨大的提升。不仅在理解提示词方面表现出色，而且图片的构图、颜色渲染和画面细腻程度都有了很大的进步，实际出图效果堪比Midjourney！

SDXL 1.0具有以下新特性：

更好的成像质量：SDXL能够以几乎任何艺术风格生成高质量的图像，SDXL 1.0比SD v1.5和SD v2.1（甚至比SDXL 0.9）都有巨大的提升！盲测者评估图像在各种风格、概念和类别中的整体质量和美学都是最好的。
更多艺术风格：SDXL v1.0比其前身能够实现更多的风格，并且对每种风格都“知道”得更多。您可以尝试比以前更多的艺术家名称和美学。SDXL 1.0特别适合生动、准确的颜色，比其前身具有更好的对比度、光照和阴影，质量可与Midjourney的最新版本相媲美。
更智能、更简单的语言：SDXL只需要几个词就能创建复杂、详细、美观的图像。用户不再需要调用“杰作”等限定词来获得高质量图像。此外，SDXL能够理解诸如“红场”（一个著名的地方）与“红色正方形”（一个形状）之间的概念差异。
更高的分辨率：SDXL 1.0的基础分辨率为1024 x 1024，比其前身产生了更好的图像细节，同时SDXL 1.0处理宽高比效果更好。
最大的开放图像模型：SDXL 1.0拥有任何开源文生图模型中最大的参数数量之一，它建立在一个创新的新架构上，由一个3.5B参数基础模型和一个6.6B参数精炼器组成。完整模型由一个专家混合管道组成，用于潜在扩散：
微调和高级控制：使用SDXL 1.0，微调模型以适应自定义数据比以往更容易。可以使用更少的数据整理来生成自定义LoRAs或检查点。Stability AI团队正在构建T2I/ControlNet专门针对SDXL构建下一代的特定任务结构、样式和组成控制。

SDXL 1.0包括两种不同的模型:

sdxl-base-1.0:生成1024 x 1024图像的基本文本到图像模型。基本模型使用OpenCLIP-ViT/G和CLIP-ViT/L进行文本编码。

sdxl-refiner-1.0:一个图像到图像的模型，用于细化基本模型的潜在输出，可以生成更高保真度的图像。细化模型只使用OpenCLIP-ViT/G模型。

SDXL 1.0的refiner是基于OpenCLIP-ViT/G的具有6.6B参数模是目前可用的最强大的开放访问图像模型之一。

base模型在第一阶段创建(有噪声的)结果，然后由专门为最后去噪步骤设计的refiner模型进一步处理（base模型也可以作为一个模块单独使用）