Adding Conditional Control to Text-to-Image Diffusion Models

Kun Li 2023-07-28 原文

安全验证 - 知乎知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。https://zhuanlan.zhihu.com/p/605761756

ModelScope 魔搭社区https://modelscope.cn/models/dienstag/cv_controlnet_controllable-image-generation_nine-annotators/summarycontrolnet的核心在于给stable diffusion施加了精准控图，stable diffusion生成的图本质上是通过prompt进行引导从噪声中生成的，text是唯一的输入，controlnet输入了text之外额外的一个维度，目前论文支持canny边缘图，hough线条，hed边缘图，简笔图，pose人体姿态，分割图，深度图等。在流程上，依然是输入图片和prompt，controlnet会先从图片中提取线框图，再输入prompt和线框图即可生成新图。从技术上，controlnet对stable diffusion进行微调，核心通过两个零卷积对权重部分进行映射调整，具体来说，对于预训练好的模型（比如作者使用sd1.5-unet里encoder和middlelayer的resenet和transformer层）里的一层结构，作者固定其参数，并将该层的输入额外添加一个全连接映射后的条件c，输入到一个和该层结构一致的复制网络里，再映射一次后重新添加回原结构里的输出。在训练上，需要成对的text-线框和原图这种数据对。此外作者也提出了小规模训练和大规模训练，力争将stable diffusion的微调平民化。

1.introduction

基于提示的大模型是否满足我们特定的要求？在图像领域已经有明确范式的任务，大模型是否可以应用促进这些特定任务？我们应该构建什么样的框架来处理大范围的条件问题和用户的控制需求？在具体任务中，大模型能否保留从数十亿张图像中获得的优势和能力？

为了回答这些问题，我们的调查有三个发现。1.特定任务领域中的可用数据并不总是像一般图像-文本领域中那么大。许多特定问题（目标形状/normal，姿态理解等）的最大数据往往在100k以下，laion-B有5b的数据对。2.大型计算集群并不是谁都有的，预训练权重的迁移微调是可利用的。3.各种图像处理问题具有不同形式的定义，用户控制或者图像注释。尽管扩散算法可以以程序性方式来调节，这些问题本质上需要将原始输入解释为对象级别或者场景级别的理解，人工规则往往行不通，并且很多任务都是希望端到端进行的。

上图输入是canny边缘图，输出是符合控制条件的图。

本文介绍controlnet，这是一种端到端的神经网络结构，它控制大型图像扩散模型来学习特定任务的输入条件。controlnet将大型扩散模型权重克隆为trainable copy(可训练副本)和locked copy(锁定副本)，锁定副本保留从数十亿图像中学习的能力，而可训练副本在特定任务的数据集上训练，以学习条件控制。可训练和锁定的模块与zero convolution连接，其中卷积权重以学习的方式从零逐渐增长到优化的参数。由于保留了production-ready weights，因此训练在不同规模的数据集上是稳健的。由于零卷积不会向深层特征添加新的噪声，因此与从头开始训练新图层相比，训练和微调扩散模型一样快。我们用不同条件的各种数据集训练控制王，小数据集（50k，甚至1k）效果也不错，在rtx3090ti上也可以训练。

2.related work

2.1 hypernetwork and neural network structure

hypernetwork用于训练一个小的递归网络来影响一个较大的神经网络的权重。controlnet使用一个特殊的卷积，zero convolution，在扩散模型中缩放几个卷积层的初始权重以改善训练的方法。

2.2 diffusion probabilistic model

扩散模型对训练和采样方法进行优化，采样方式包括DDPM/DDIM/score-based diffusion。本质上使用u-net作为架构，为了降低训练扩散模型所需的计算能力，提出LDM（潜在扩散模型）。

2.3 text-to-image diffusion

扩散模型可以用于文本到图像生成，通过使用clip将文本输入编码成潜在向量实现。

2.4 personalization，customization，and control of pretrained diffusion model

因为图像扩散模型是文本到图像的方法主导的，所以增强对扩散的控制最直接的方式是文本引导，这种类型的控制也可以通过操作剪辑特征实现。

2.5 image-to-image translation

尽管controlnet和图像到图像的翻译可能有一些重叠的应用，但是他们的动机本质是不同的，图像到图像的翻译旨在学习不同领域中的图像之间的映射，而控制网络旨在控制具有特定任务条件的扩散模型。

3.method

3.1 controlnet

如上图所示，我们锁定中的所有参数将其克隆到可训练副本中，复制的副本用外部条件c训练，在本文中，我们将原始参数和新参数成为锁定副本和可训练副本，制作这种副本而不是直接训练原始权重的动机是为了避免数据集较小时的过拟合，并保持从数十亿张图像中学习的大型模型的production-ready quality。神经网络块通过zero convolution的卷积层来连接，其权重和偏差都用零初始化。在一开始训练时，神经网络块中可训练和锁定副本中所有输入和输出都与不存在控制网络时情况一致。换句话说，当控制网络被应用在一些神经网络块时，在任何优化之前，它不会对深层神经网络的特征造成任何影响，任何神经网络块的能力、功能和结果质量都被保留，且任何进一步的优化将变得与微调一样快。

上述公式是零卷积的梯度计算，虽然对输入I的梯度初始为0，但是权重和偏差都不受影响，只要输入I不为0，权重将在第一次梯度下降中被优化为非0矩阵。

w※是一次梯度下降之后的，对输入I求导，获得非0梯度。以这种方式，零卷积成为一种独特类型的连接层，从零逐渐增长到优化的参数。

3.2 controlnet in image diffusion model

stable diffusion是在数十亿张图像上训练的大型文本到图像扩散模型。如上所示，本质上是一个u-net，有编码器、中间模块和解码器，中间进行跳跃连接，编码器和解码器都有12个，包括中间模块一共有25个模块，这些模块中，8个是上下采样的卷积层，17个主要的模块，每个包括4个resnet层和2个vision transformer，每个vit包括几个cross-attention或者self-attention。文本采用openai clip编码，扩散时间步长采用位置编码。

stable diffusion使用和vq-gan相似的预处理方法，将512x512图像转成64x64的潜在图像，controlnet将image-based condition（就是从图像中获取线框图）转成64x64，我们使用4个4x4核和2x2strides的卷积层（后接relu，通常数分别是16,32,64,128,Guassian weights）将image-space condition转成特征图。该网络将512x512转成64x64。

如上图所示，使用controlnet来控制u-net的每一层，锁定权重是不计算梯度的，使用controlnet训练大概只增加23%的内存和34%的一次迭代时间。具体来说，使用controlnet来创建stable diffusion的12个编码块和1个中间层的可训练副本，4个快采用4中分辨率，每个块有三个。

作者的安排十分有意思。笔者在做相关实验时会联想到学术界已经形成的一些共识来设计实验：比如由去年八月份论文prompt to prompt提出后，文生图里图片布局几何关系很大程度上由cross-attn时文本对不同位置的像素点的激活程度所决定。所以笔者初始时会思考是否可以直接将text embedding添加融合模块与sketch info(或其余模态的信息)交互，微调整个模型使其学会兼顾新的模态信息。笔者也会思考是否直接像GLIGEN的方式直接在attn层附近添加融合模块会取得好的效果。但论文作者没有如此安排。论文作者的思路更加类似于《Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation》这篇论文的思路。即对于一张模型生成的图片，其UNet的decoder一定已经包含了其生成的一些空间信息，语义信息等。直接抽取decoder相关的特征，添加到当前的生成能够影响当前生成的布局语义等。这是笔者觉得非常有意思的一点。

3.3 training

在训练过程中，我们随机将50%文本提示词替换为空字符串，这有助于controlnet从输入条件图中识别语义内容的能力，如涂鸦和边缘图，这主要是因为当提示对stable diffusion不可见时，编码器倾向于从输入控制映射中学习更多的语义作为提示词的替代。

3.4 implement

文本-条件图-图像对。

有关Adding Conditional Control to Text-to-Image Diffusion Models的更多相关文章

ruby-on-rails - rails : save file from URL and save it to Amazon S3 - 2
从给定URL下载文件并立即将其上传到AmazonS3的更直接的方法是什么(+将有关文件的一些信息保存到数据库中，例如名称、大小等)？现在，我既不使用Paperclip，也不使用Carrierwave。谢谢最佳答案简单明了:require'open-uri'require's3'amazon=S3::Service.new(access_key_id:'KEY',secret_access_key:'KEY')bucket=amazon.buckets.find('image_storage')url='http://www.ex
ruby - 续集在添加关联时访问many_to_many连接表 - 2
我正在使用Sequel构建一个愿望list系统。我有一个wishlists和itemstable和一个items_wishlists连接表(该名称是续集选择的名称)。items_wishlists表还有一个用于facebookid的额外列(因此我可以存储opengraph操作)，这是一个NOTNULL列。我还有Wishlist和Item具有续集many_to_many关联的模型已建立。Wishlist类也有:selectmany_to_many关联的选项设置为select:[:items.*,:items_wishlists__facebook_action_id].有没有一种方法可以
ruby-on-rails - rails : How to make a form post to another controller action - 2
我知道您通常应该在Rails中使用新建/创建和编辑/更新之间的链接，但我有一个情况需要其他东西。无论如何我可以实现同样的连接吗？我有一个模型表单，我希望它发布数据(类似于新View如何发布到创建操作)。这是我的表格prohibitedthisjobfrombeingsaved: 最佳答案使用:url选项。=form_for@job,:url=>company_path,:html=>{:method=>:post/:put} 关于ruby-on-rails-rails:Howtomak
ruby-on-rails - link_to 不显示任何 rails - 2
我试图在索引页中创建一个超链接，但它没有显示，也没有给出任何错误。这是我的index.html.erb代码。ListingarticlesTitleTextssss我检查了我的路线，我认为它们也没有问题。PrefixVerbURIPatternController#Actionwelcome_indexGET/welcome/index(.:format)welcome#indexarticlesGET/articles(.:format)articles#indexPOST/articles(.:format)articles#createnew_articleGET/article
ruby - 无法覆盖 irb 中的 to_s - 2
我在pry中定义了一个函数:to_s，但我无法调用它。这个方法去哪里了，怎么调用？pry(main)>defto_spry(main)*'hello'pry(main)*endpry(main)>to_s=>"main"我的ruby版本是2.1.2看了一些答案和搜索后，我认为我得到了正确的答案:这个方法用在什么地方？在irb或pry中定义方法时，会转到Object.instance_methods[1]pry(main)>defto_s[1]pry(main)*'hello'[1]pry(main)*end=>:to_s[2]pry(main)>defhello[2]pry(main)
ruby-on-rails - 错误 : Error installing pg: ERROR: Failed to build gem native extension - 2
我克隆了一个rails仓库，我现在正尝试捆绑安装背景:OSXElCapitanruby2.2.3p173(2015-08-18修订版51636)[x86_64-darwin15]rails-v在您的Gemfile中列出的或native可用的任何gem源中找不到gem'pg(>=0)ruby'。运行bundleinstall以安装缺少的gem。bundleinstallFetchinggemmetadatafromhttps://rubygems.org/............Fetchingversionmetadatafromhttps://rubygems.org/...Fe
ruby-on-rails - Prawn PDF : I need to generate nested tables - 2
我需要一个表，其中行实际上是2行表，一个嵌套表是..我怎样才能在Prawn中做到这一点？也许我需要延期..但哪一个？最佳答案现在支持子表:Prawn::Document.generate("subtable.pdf")do|pdf|subtable=pdf.make_table([["sub"],["table"]])pdf.table([[subtable,"original"]])end 关于ruby-on-rails-PrawnPDF:Ineedtogeneratenested
ruby - rails 3 redirect_to 将参数传递给命名路由 - 2
我没有找到太多关于如何执行此操作的信息，尽管有很多关于如何使用像这样的redirect_to将参数传递给重定向的建议:action=>'something',:controller=>'something'在我的应用程序中，我在路由文件中有以下内容match'profile'=>'User#show'我的表演Action是这样的defshow@user=User.find(params[:user])@title=@user.first_nameend重定向发生在同一个用户Controller中，就像这样defregister@title="Registration"@user=Use
ruby - 怎么来的(a_method || :other) returns :other only when assigning to a var called a_method? - 2
给定以下方法:defsome_method:valueend以下语句按我的预期工作:some_method||:other#=>:valuex=some_method||:other#=>:value但是下面语句的行为让我感到困惑:some_method=some_method||:other#=>:other它按预期创建了一个名为some_method的局部变量，随后对some_method的调用返回该局部变量的值。但为什么它分配:other而不是:value呢？我知道这可能不是一件明智的事情，并且可以看出它可能有多么模棱两可，但我认为应该在考虑作业之前评估作业的右侧...我已经在R
ruby - RVM "ERROR: Unable to checkout branch ."单用户 - 2
我在新的Debian6VirtualBoxVM上安装RVM时遇到问题。我已经安装了所有需要的包并使用下载了安装脚本(curl-shttps://rvm.beginrescueend.com/install/rvm)>rvm，但以单个用户身份运行时bashrvm我收到以下错误消息:ERROR:Unabletocheckoutbranch.安装在这里停止，并且(据我所知)没有安装RVM的任何文件。如果我以root身份运行脚本(对于多用户安装)，我会收到另一条消息:Successfullycheckedoutbranch''安装程序继续并指示成功，但未添加.rvm目录，甚至在修改我的.bas

Adding Conditional Control to Text-to-Image Diffusion Models

有关Adding Conditional Control to Text-to-Image Diffusion Models的更多相关文章

随机推荐