使用 Diffusers 通过 DreamBooth来训练 Stable Diffusion

Hugging Face 2023-05-20 原文

邀请参与我们的 DreamBooth 微调编程马拉松活动！

DreamBooth 是一种使用专门的微调形式来训练 Stable Diffusion 的新概念技术。一些人用他仅仅使用很少的他们的照片训练出了一个很棒的照片，有一些人用他去尝试新的风格。🧨 Diffusers 提供一个 DreamBooth 训练脚本。这使得训练不会花费很长时间，但是他比较难筛选正确的超参数并且容易过拟合。

我们做了许多实验来分析不同设置下 DreamBooth 的效果。本文展示了我们的发现和一些小技巧来帮助你在用 DreamBooth 微调 Stable Diffusion 的时候提升结果。

在开始之前，请注意该方法禁止应用在恶意行为上，来生成一些有害的东西，或者在没有相关背景下冒充某人。该模型的训练参照 CreativeML Open RAIL-M 许可。

注意：该帖子的先前版本已出版为 W＆B 报告

TL;DR: 推荐设置

DreamBooth 很容易快速过拟合，为了获取高质量图片，我们必须找到一个 “sweet spot” 在训练步骤和学习率之间。我们推荐使用低学习率和逐步增加步数直到达到比较满意的状态策略。
DreamBooth 需要更多的脸部训练步数。在我们的实验中，当 BS 设置为 2，学习率设置为 1e-6，800-1200 步训练的很好。
先前提到的对于当训练脸部时避免过拟合非常重要，但对于其他主题可能影响就没那么大了。
如果你看到生成的图片噪声很大质量很低。这通常意味着过拟合了。首先，先尝试上述步骤去避免他，如果生成的图片依旧充满噪声。使用 DDIM 调度器或者运行更多推理步骤 (对于我们的实验大概 100 左右就很好了)
训练文本编码器对于 UNet 的质量有很大影响。我们最优的实验配置包括使用文本编码器微调，低学习率和一个适合的步数。但是，微调文本编码器需要更多的内存，所以理想设置是一个至少 24G 显存的 GPU。使用像 8bit adam、fp 16 或梯度累计技巧有可能在像 Colab 或 Kaggle 提供的 16G 的 GPU 上训练。
EMA 对于微调不重要
没有必要用 sks 词汇训练 DreamBooth。最早的实现之一是因为它在词汇中是罕见的 token ，但实际上是一种 rifle。我们的实验或其他像 @nitrosocke 的例子都表明使用自然语言描述你的目标是没问题的。

学习率影响

DreamBooth 很容易过拟合，为了获得好的结果，设置针对你数据集合理的学习率和训练步数。在我们的实验中 (细节如下)，我们微调了四种不同的数据集用不同的高或低的学习率。总的来说，我们在低学习率的情况下获得了更好的结果。

实验设置

所有的实验使用 train_deambooth.py 脚本，使用 AdamW 优化器在 2X40G 的 A00 机器上运行。我们采用相同的随机种子和保持所有超参相同，除了学习率，训练步骤和先前保留配置。

对于前三个例子 (不同对象)，我们微调模型配置为 bs = 4 (每个 GPU 分 2 个)，400 步。一个高学习率 = 5e-6，一个低学习率 = 2e-6。无先前保留配置。

最后一个实验尝试把人加入模型，我们使用先去保留配置同时 bs = 2 (每个 GPU 分 1 个)，800-1200 步。一个高学习率 = 5e-6，一个低学习率 = 2e-6。

你可以使用 8bit adam，fp16 精度训练，梯度累计去减少内存的需要，并执行相同的实验在一个 16G 显存的机器上。

Toy 猫

高学习率 (5e-6)

低学习率 (2e-6)

猪头

高学习率 (5e-6) 请注意，颜色伪像是噪声残余物 - 运行更多的推理步骤可以帮助解决其中一些细节

低学习率 (2e-6)

土豆先生的头

高学习率 (5e-6) 请注意，颜色伪像是噪声残余物 - 运行更多的推理步骤可以帮助解决其中一些细节

低学习率 (2e-6)

人脸

我们试图将 Seinfeld 的 Kramer 角色纳入 Stable Diffusion 中。如前所述，我们培训了更小的批量尺寸的更多步骤。即使这样，结果也不是出色的。为了简洁起见，我们省略了这些示例图像，并将读者推迟到下一部分，在这里，面部训练成为我们努力的重点。

初始化结果总结

为了用 DreamBooth 获取更好的 Stable Diffusion 结果，针对你的数据集调整你的学习率和训练步数非常重要。

高学习率多训练步数会导致过拟合。无论使用什么提示，该模型将主要从训练数据中生成图像
低学习率少训练步骤会导致欠拟合。该模型将无法生成我们试图组合的概念。

脸部训练非常困难，在我们的实验中，学习率在 2e-6 同时 400 步对于物体已经很好了，但是脸部需要学习率在 1e-6 (或者 2e-6) 同时 1200 步才行。

如果发生以下情况，模型过度拟合，则图像质量会降低很多

学习率过高
训练步数过多
对于面部的情况，如下一部分所示，当不使用事先保存时。

训练脸部使用先前配置

先前的保存是一种使用我们试图训练的同一类的其他图像作为微调过程的一部分。例如，如果我们尝试将新人纳入模型，我们要保留的类可能是人。事先保存试图通过使用新人的照片与其他人的照片相结合来减少过度拟合。好处是，我们可以使用 Stable Diffusion 模型本身生成这些其他类图像！训练脚本如果需要的话会自动处理这一点，但是你还可以为文件夹提供自己的先前保存图像

先前配置，1200 步数，学习率 = 2e-6

无先前配置，1200 步数，学习率 = 2e-6

如你所见，当使用先前配置时，结果会更好，但是仍然有嘈杂的斑点。是时候做一些其他技巧了

调度程序的效果

在前面的示例中，我们使用 PNDM 调度程序在推理过程中示例图像。我们观察到，当模型过度时，DDIM 通常比 PNDM 和 LMSDISCRETE 好得多。此外，通过推断更多步骤可以提高质量：100 似乎是一个不错的选择。附加步骤有助于将一些噪声贴在图像详细信息中。

PNDM, Kramer 脸

LMSDiscrete, Kramer 脸。结果很糟糕

DDIM, Kramer 脸。效果好多了

对于其他主题，可以观察到类似的行为，尽管程度较小。

PNDM, 土豆头

LMSDiscrete, 土豆头

DDIM, 土豆头

微调文本编码器

原始的 DreamBooth 论文讲述了一个微调 UNet 网络部分但是冻结文本编码部分的方法。然而我们观察到微调文本编码会获得更好的效果。在看到其他 DreamBooth 实施中使用的方法后，我们尝试了这种方法，结果令人惊讶！

微调文本编码器会产生最佳结果，尤其是脸。它生成更现实的图像，不太容易过度拟合，并且还可以更好地提示解释性，能够处理更复杂的提示。

后记： Textual Inversion + DreamBooth

我们还进行了最后一个实验，将 Textual Inversion 与 DreamBooth 结合在一起。两种技术都有相似的目标，但是它们的方法不同。

在本次实验中我们首先用 Textual Inversion 跑了 2000 步。接着那个模型我们又跑了 DreamBooth 额外的 500 步，学习率为 1e-6。结果如下：

我们认为，结果比进行简单的 DreamBooth 要好得多，但不如我们调整整个文本编码器时那样好。它似乎可以更多地复制训练图像的样式，因此对它们可能会过度拟合。我们没有进一步探索这种组合，但是这可能是改善 DreamBooth 适合 16GB GPU 的过程的有趣替代方法。欢迎随时探索并告诉我们你的结果！

英文原文：Training Stable Diffusion with DreamBooth using 🧨 Diffusers
译者：innovation64 (李洋)
加入译者团队

有关使用 Diffusers 通过 DreamBooth来训练 Stable Diffusion的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po

使用 Diffusers 通过 DreamBooth来训练 Stable Diffusion

TL;DR: 推荐设置

学习率影响

实验设置

Toy 猫

猪头

土豆先生的头

人脸

初始化结果总结

训练脸部使用先前配置

调度程序的效果

微调文本编码器

后记： Textual Inversion + DreamBooth

有关使用 Diffusers 通过 DreamBooth来训练 Stable Diffusion的更多相关文章

随机推荐