【深度学习】pix2pix GAN理论及代码实现与理解

求求你来BUG行不行 2023-05-07 原文

灵感：最近也是在看关于GAN方面的代码，也是看到了很多篇博客，都写的挺好的，让我醍醐灌顶，理解了GAN的原理以及代码实现。所以写一下来记载一下，最后有其他好文章的链接。

灵感来源：pix2pixGAN理论以及代码实现

1.什么是pix2pix GAN

1.什么是pix2pix GAN

它实际上就是一个CGAN，条件GAN，不过是改变了一般GAN的辨别器的输出。其他的都是输出一个概率，而pix2pixGAN或者也可以是patchgan，它的最终输出是一个矩阵，每一个块代表一个patch的概率而已。关于patch这一块的知识可以去其他地方补一下，文末也有入口。

图片x作为此cGAN的条件，需要输入到G和D中。G的输入是x(x是需要转换的图片)，输出是生成的图片G(x)。D则需要分辨出（x，G(x)）和(x，y）

pix2pixGAN主要用于图像之间的转换，又称图像翻译。

2.pix2pixGAN生成器的设计

对于图像翻译任务来说，输入和输出之间会共享很多信息。比如轮廓信息是共享的。如何解决共享问题？需要我们从损失函数的设计当中去思考。

如果使用普通的卷积神经网络，那么会导致每一层都承载保存着所有的信息。这样神经网络很容易出错（容易丢失一些信息）

所以，我们使用UNet模型作为生成器

3.pix2pixGAN判别器的设计

D要输入成对的图像。这类似于cGAN,如果G(x)和x是对应的，对于生成器来说希望判别为1；

如果G（x）和x不是对应的，对于生成器来说希望判别器判别为0

pix2pixGAN中的D被论文中被实现为patch_D.所谓patch,是指无论生成的图片有多大，将其切分为多个固定大小的patch输入进D去判断。如上图所示。

这样设计的好处是：D的输入变小，计算量小，训练速度快

4.损失函数

D网络损失函数：输入真实的成对图像希望判定为1；输入生成图像与原图希望判定为0

G网络损失函数：输入生成图像与原图像希望判定为1

对于图像翻译任务而言，G的输入和输出之间其实共享了很多信息。因而为了保证输入图像和输出图像之间的相似度，还加入了L1loss,公式如下所示：

5.代码实现

代码实现的话有官方以及别人的实现，但是我有点不懂。然后看到这个链接的代码才懂。

全部代码在这：pix2pixGAN理论以及代码实现

我作为笔记记录，写一下我觉得关键的代码理解。

for step,(annos,imgs) in enumerate(dataloader):
        imgs = imgs.to(device)   #imgs 输入的图像
        annos = annos.to(device) #标签，真实的应该生成的图片
        #定义判别器的损失计算以及优化的过程
        d_optimizer.zero_grad() 
        disc_real_output = dis(annos,imgs)      #输入真实成对图片
        d_real_loss = loss_fn(disc_real_output,torch.ones_like(disc_real_output,
                                                             device=device)) 
        #上面是为了将我们输入的真实图像对都标为1，希望他接近1，因为真实嘛
        d_real_loss.backward()   #求梯度
         
        gen_output = gen(annos)  #通过输入图像生成图片
        disc_gen_output = dis(annos,gen_output.detach()) #将我们输入的和生成的图片输入辨别器
        d_fack_loss = loss_fn(disc_gen_output,torch.zeros_like(disc_gen_output,
                                                              device=device))  #辨别器希望生成的和我们输入的图像最终的判断为0，也就是假的嘛
        d_fack_loss.backward()
        
        disc_loss = d_real_loss+d_fack_loss#判别器的损失计算，由两个之和
        d_optimizer.step() #梯度更新
        
        #定义生成器的损失计算以及优化的过程
        g_optimizer.zero_grad()
        disc_gen_out = dis(annos,gen_output) #辨别器辨别输入图像和生成图像的匹配度
        gen_loss_crossentropyloss = loss_fn(disc_gen_out,
                                            torch.ones_like(disc_gen_out,
                                                              device=device)) #生成器和辨别器相反，他希望生成的图像和输入的图像匹配为真实，也就是造假嘛
        gen_l1_loss = torch.mean(torch.abs(gen_output-imgs))  #L1损失
        gen_loss = gen_loss_crossentropyloss +LAMBDA*gen_l1_loss
        gen_loss.backward() #反向传播
        g_optimizer.step() #优化
        
        #累计每一个批次的loss
        with torch.no_grad():
            D_epoch_loss +=disc_loss.item()
            G_epoch_loss +=gen_loss.item()

上面用到的loss_fn是BCE损失。因为我们的辨别器输出值为概率嘛，0到1，所以算得上是二分类，可以使用BCE。

6.参考文献

GAN系列之 pix2pixGAN 网络原理介绍以及论文解读https://blog.csdn.net/m0_62128864/article/details/124026977

一文看懂PatchGAN_明月几时有.的博客-CSDN博客_patchgan最近看到PatchGAN很是好奇原理是什么，发现网上很多介绍的并不清楚．故墙外墙内来回几次，大概是清楚了．PatchGAN其实指的是GAN的判别器，将判别器换成了全卷积网络．这么说并不严谨，PatchGAN和普通GAN判别器是有区别的，普通的GAN判别器是将输入映射成一个实数，即输入样本为真样本的概率．PatchGAN将输入映射为NxN的patch(矩阵)Ｘ，XijX_{ij}Xij的值代表...https://blog.csdn.net/weixin_35576881/article/details/88058040

pix2pix算法笔记_AI之路的博客-CSDN博客_pix2pix算法论文：Image-to-Image Translation with Conditional Adversarial Networks论文链接：https://arxiv.org/abs/1611.07004代码链接：https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix这篇论文发表在CVPR2017，简称pix2pix，是将GAN应用...https://blog.csdn.net/u014380165/article/details/98453672

Pix2Pix-基于GAN的图像翻译_张雨石的博客-CSDN博客_pix2pix算法语言翻译是大家都知道的应用。但图像作为一种交流媒介，也有很多种表达方式，比如灰度图、彩色图、梯度图甚至人的各种标记等。在这些图像之间的转换称之为图像翻译，是一个图像生成任务。多年来，这些任务都需要用不同的模型去生成。在GAN出现之后，这些任务一下子都可以用同一种框架来解决。这个算法的名称叫做Pix2Pix，基于对抗神经网络实现。https://blog.csdn.net/stdcoutzyx/article/details/78820728

论及 pix xff xff0c xff0 生成对抗网络人工智能神经网络

有关【深度学习】pix2pix GAN理论及代码实现与理解的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源
7个大一C语言必学的程序 / C语言经典代码大全 - 2
嗨~大家好，这里是可莉！今天给大家带来的是7个C语言的经典基础代码~那一起往下看下去把【程序一】打印100到200之间的素数#includeintmain(){ inti; for(i=100;i 【程序二】输出乘法口诀表#includeintmain(){inti;for(i=1;i 【程序三】判断1000年---2000年之间的闰年#includeintmain(){intyear;for(year=1000;year 【程序四】给定两个整形变量的值，将两个值的内容进行交换。这里提供两种方法来进行交换，第一种为创建临时变量来进行交换，第二种是不创建临时变量而直接进行交换。1.创建临时变量来
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总

【深度学习】pix2pix GAN理论及代码实现与理解

1.什么是pix2pix GAN

2.pix2pixGAN生成器的设计

3.pix2pixGAN判别器的设计

4.损失函数

5.代码实现

6.参考文献

有关【深度学习】pix2pix GAN理论及代码实现与理解的更多相关文章

随机推荐