用于高保真自然图像合成的大规模GAN训练:DeepMind 提出的BigGAN 利用Google TPU v3 Pod 的数百个核心的能力来大规模创建高分辨率图像。
相对论鉴别器:表征GAN中缺少的关键元素:作者建议通过引入改进的判别器来改进GAN的基本原理。
ESRGAN:增强型超分辨率生成对抗网络:2017 年超分辨率GAN(SRGAN)是将低分辨率图像映射到高分辨率图像的最佳网络之一。这项工作通过几个有趣的技巧改进了SRGAN。有人可能会说这只是一个渐进式的改进,但实施的想法确实很聪明!
1. 用于高保真自然图像合成的大规模GAN训练(Large Scale GAN Training for High Fidelity Natural Image Synthesis)
简述:本文于2018年9月18日提交。您可以使用Google Collab (https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_ Generation_with_tf_hub.ipynb) 轻松运行BigGAN。
主要内容:
图像从ImageNet 数据集生成的图像及其类似图像。左上角的汉堡是人工生成的。
尽管GAN 领域取得了令人瞩目的进展,但使用深度神经网络生成图像仍然很困难。尽管人们对这个领域很感兴趣,但我相信在生成图像方面还有很多未开发的潜力。跟踪GAN 进度并衡量其质量的一种方法是初始分数(IS)。该指标考虑了生成图像的质量及其多样性。
在ImageNet 上以128x128 分辨率进行训练时,当前的最佳结果仍然只能达到52.5 的IS,而真实数据的IS 为233。本文提出的模型BigGAN 可以达到166.3 的Inception Score (IS)。
作者表明,GAN 可以从训练规模中显着受益,并且使用大量参数和八倍于之前最佳结果的批量大小时,训练速度仍然快2 到4 倍。作者对生成架构进行了两个简单的更改以提高可扩展性,并修改了正则化方案以改进调节,这可以说提高了性能。这将创建无与伦比的高分辨率图像(512x512)。
方法:
与我评估的其他论文相比,这项研究的重要性并不来自于对GAN 框架的任何重大修改。在这里,主要的贡献来自于使用大量可用的计算能力(由谷歌提供)来使训练更加强大。这涉及使用更大的模型(相对于最先进的技术,网络参数增加了4 倍)和更大的批次(几乎增加了一个数量级)。事实证明这是非常有益的:
使用大批次(2048 个图像的批次)允许每批次覆盖更多模式。这样,鉴别器和生成器就可以从更好的梯度中受益。
将每层的宽度(通道数)加倍可以增加模型的容量,这有助于提高性能。有趣的是,增加深度会对性能产生负面影响。
类嵌入的额外使用可以加快训练过程。使用类嵌入意味着在数据集的类标签上调整生成器的输出。
最后,该方法还受益于分层潜在空间- 注入噪声向量,分为多个层,而不仅仅是在初始层中。这不仅提高了网络性能,还加快了训练过程。 z
结果:
大规模训练可以生成高质量的图像。然而,它也带来了自身的挑战,例如不稳定。作者表明,尽管可以通过正则化方法(尤其是判别器)来增强稳定性,但网络的质量必然会受到影响。我们可以在崩溃后立即停止训练并报告之前保存的检查点的结果。
图像类和潜在空间中良好的插值能力证实了该模型并不是简单地记忆数据。它能够想出自己令人难以置信的发明
尽管挑选最佳结果可能很诱人,但该论文的作者也对失败案例进行了评论。虽然简单的类(例如a)允许无缝图像生成,但困难的类b)对于生成器来说很难重现。影响这种现象的因素有很多,例如数据集中类别的表示程度以及我们的眼睛对特定对象的敏感程度。虽然风景图像中的小缺陷不太可能引起我们的注意,但我们对“奇怪”的面孔或姿势非常警惕。
2. 相对论鉴别器:表征GAN中缺少的关键元素简述:本文于2018年6月2日提交。这项研究令人印象深刻的原因之一是,整个工作似乎是由一个人完成的。作者考虑了一切
写一篇关于她的发明的简短博客文章(https://ajolicoeur.wordpress.com/relativisticgan/),
发布记录良好的源代码(https://github.com/AlexiaJM/RelativisticGAN),
并在reddit上发表了相关有趣的讨论(https://www.reddit.com/r/MachineLearning/comments/8vr9am/r_the_relativistic_discriminator_a_key_element/)。
主要内容:在标准生成对抗网络(SGAN)中,判别器D 用于估计输入数据是真实样本的概率,而生成器G 用于增加数据是假的概率。在标准的GAN 框架中,生成器试图让假图像看起来更真实,但并没有生成的图像实际上可以比真实图像“更真实”的概念。作者声称这些是缺失的部分,应该首先将它们纳入标准GAN 框架中。由于这些限制,建议训练生成器不仅应该增加假数据真实的概率,而且还应该降低实际数据真实的概率。这一观察结果也是由基于IPM 的GAN 驱动的,它实际上受益于相对论判别器的存在。
方法:为了从标准GAN 转换为“相对论”GAN,我们需要修改判别器。相对论GAN (RGAN) 的一个非常简单的示例可以通过以下方式概念化:
在标准方程中,判别器可以是一个函数
在相对论GAN 中,判别器估计真实数据比随机采样的假数据更真实的概率,
X 是图像(真图像或假图像),C(x) 是为输入图像分配分数的函数(评估x 的真实程度), 将分数转换为0 到1 之间的概率。如果判别器接收到看起来很假的图像,它会分配一个非常低的分数,因此概率也很低,相反,真实的输入给我们一个高分数和高概率。
为了使相对论鉴别器在全局范围内工作并避免采样对时的随机性,作者构建了这个概念来创建相对论平均鉴别器(RaD)。
这意味着每当鉴别器收到真实图像时,它都会评估该图像在本次迭代中与批次的平均假图像相比的真实程度。类似地,接收假图像并将其与批次中所有真实图像的平均值进行比较。相对论鉴别器的这种表述使我们能够间接比较真实数据和虚假数据的所有可能组合,而无需强制算法的二次时间复杂度。
结果:
图像该图显示了标准GAN 中判别器输出的示例
图像人工创建的猫(128x128 分辨率),从RaLSGAN 输出。标准LSGAN 不仅产生不太真实的图像,而且也更不稳定。
我的印象是,这篇论文可能会开启一个新趋势——在不同的GAN 问题中使用相对论判别器。实验表明,该方法可以帮助解决稳定性或图像质量差等许多问题。它还可以加快网络的训练速度。我真的很喜欢作者对GAN 架构的一个非常基本的元素提出质疑。令人兴奋的是,已经有最先进的出版物引用了相对论判别器(尽管这篇论文是在六月发表的)。
ESRGAN:增强的超分辨率生成对抗网络(
ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks)
简述
本文件于2018年9月18日提交。该代码已在github (https://github.com/xinntao/ESRGAN) 上公开提供。有趣的事实:有些人使用ESRGAN 来改善一些旧游戏中的纹理,例如
晨风(https://www.youtube.com/watch?v=PupePmY9OA8t=184s)
毁灭战士2(https://www.youtube.com/watch?v=u9S8lnGqKkgt=64s)
德军总部城堡(https://www.youtube.com/watch?v=uyRfptKJutU)。
主要内容:
image SRGAN的输出和ESRGAN的输出,生成的HR图像是LR输入的四倍。 ESRGAN 在清晰度和细节方面优于其前身。
SRGAN是2017年超分辨率(SR)算法领域最先进的技术。它的任务是拍摄低分辨率(LR)图像并输出其高分辨率(HR)表示。网络的第一个优化目标是最小化恢复的HR 图像与地面实况之间的均方误差(MSE)。这相当于最大化峰值信噪比(PSNR),这是用于评估SR 算法的常用指标。然而,这对于过于光滑的纹理很有用。这就是为什么网络的第二个目标是最小化感知损失。这有助于捕获纹理细节和高频内容。结果,网络学会了在这两个相互冲突的目标之间找到最佳平衡点。通过强制GAN 跟踪目标,网络可以生成LR 输入的高质量HR 表示。一年后,SRGAN 方法(由Twitter 的科学家创建)被中国和新加坡的研究人员完善。新网络可以创建更真实的纹理。这是通过一些巧妙的技巧来实现的。
imageSRGAN 基于ResNet 架构。虽然ESRGAN有类似的设计,但它引入了对基本块的一些改变——从残差块到残差块(RRDB)中的残差块的转换——以获得更好的性能。
方法:
ESRGAN 采用SRGAN 并使用一些巧妙的技巧来提高生成图像的质量。这四项改进是:
对生成器架构进行了更改(从Residual Blocks 切换到RRDB,删除了批量归一化)。
用相对论判别器替换普通判别器(如前面讨论的论文中所述)。
关于感知损失,特征图在激活之前而不是之后使用。
该网络经过预训练,首先优化PSNR,然后使用GAN 进行微调。
首先,我们从网络中删除批量归一化。其次,我们引入结合了多级残差网络和密集连接的RRDB。这为网络提供了更高的捕获信息的能力。
网络架构中引入了重大变化- 虽然原始SRGAN 中的生成器使用残差块,但ESRGAN 也受益于密集连接(如DenseNet 作者提出的)。这不仅增加了网络的深度,而且可以实现更复杂的结构。这样,网络就可以了解更精细的细节。此外,ESRGAN 不使用批量归一化。学习如何规范层之间的数据分布是许多深度神经网络中的常见做法。然而,对于SR 算法(尤其是使用GAN 的算法),它往往会引入令人不快的伪影并限制泛化能力。删除批量归一化可以提高稳定性并降低计算成本(更少的学习参数)。
用相对论判别器代替普通判别器——真正有趣的是,论文发表后不久,社区就已经采用了相对论判别器的概念。使用相对论平均判别器,网络不仅从生成的数据接收梯度,还从真实数据接收梯度。这提高了边缘和纹理的质量。
重新审视感知损失- 感知损失尝试比较重建图像G 和地面实况图像之间的感知相似性。通过预先训练的VGG 网络运行两个输入,在第j 个卷积和激活之后,我们以特征图的形式收到它们的表示。 SRGAN 的任务之一是最小化这些表示之间的差异。 ESRGAN 的情况仍然如此。
随着我们深入,激活层往往会为我们提供更少的信息。这导致监督薄弱和绩效不佳。因此,使用预激活的特征图更有利。
此外,与GT 图像相比,激活后特征图也会导致重建亮度不一致。
网络插值- 正如我之前提到的,该算法试图实现两个目标。这不仅是生成图像与真实图像之间的感知相似度,也是尽可能低的PSNR。这就是为什么最初训练网络以最小化PSNR(使用L1 损失)。然后使用预训练的网络来初始化生成器。这不仅可以避免生成器出现不需要的局部最小值,而且从一开始就为鉴别器提供了非常好的超分辨率图像。作者指出,通过初始网络(PSNR 优化后)和最终网络(GAN 训练后)的权重之间的插值可以获得最佳结果。这允许控制PSNR 与感知相似性的权衡。
结果:
实验与SRGAN 上进行的实验类似。目标是将LR 图像缩放4 倍并获得尺寸为128x128 的高质量SR 图像。
目前,ESRGAN 是最先进的超分辨率技术。
图像插入有两个相互冲突的目标:最小化PSNR 或最大化感知相似性
作者在PIRM-SR 挑战中测试了他们的网络,ESRGAN 以最佳感知指数获得第一名。
这些是我最喜欢的六篇结合GAN 和计算机视觉的研究论文。如果您想在此列表中添加或更改某些内容,我很想听听您的候选人!大家都有一个美好的2019年!
【2018年最具影响力的生成对抗网络(GAN)研究回顾】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
想看看这篇文章里的哪些新的 GAN 方法比较厉害!
有14位网友表示赞同!
去年那篇关于 GAN 的综述文章还记得,这次的新篇章肯定更有料。
有12位网友表示赞同!
对 GAN 领域一直比较感兴趣,今年有哪些新突破点?
有16位网友表示赞同!
看题目就知道这篇文章一定和 AI 生成内容有关系,很想去看看!
有7位网友表示赞同!
去年那篇 GAN 论文的应用场景我还没深入研究,期待这篇续篇能给我更多启发。
有18位网友表示赞同!
最近很多 AI 艺术作品都感觉像是用 GAN 生成,不知道这篇文章会讲不讲到...
有17位网友表示赞同!
我的 GAN 知识有限,希望这篇文章能解释得通俗易懂,更容易理解。
有18位网友表示赞同!
期待看看这些论文里提到的新模型在实际应用上的效果如何。
有6位网友表示赞同!
对 GAN 的发展趋势很关心,这篇文章一定很有参考价值。
有20位网友表示赞同!
感觉去年那篇已经讲得很深入,这续篇会是哪些更高级的技术?
有7位网友表示赞同!
想了解一下 2018 年 GAN 的热点研究方向有哪些,这篇文章应该能解答我疑问!
有17位网友表示赞同!
我对 GAN 应用在图像生成、语音合成等方面的进展很感兴趣。
有19位网友表示赞同!
希望这篇续篇能涵盖更多领域,比如 GAN 在自然语言处理中的应用。
有7位网友表示赞同!
学习 GAN 的过程中遇到很多问题,不知道这篇文章会否解答我的疑惑?
有8位网友表示赞同!
期待看到一些新的思考和观点,推动 GAN 的发展!
有15位网友表示赞同!
去年那篇论文的阅读深度还不够,希望这篇续篇能给我更全面的了解。
有11位网友表示赞同!
GAN 的前景很广阔,这篇文章应该会有很多有益的见解。
有11位网友表示赞同!
最近在学习 GAN,希望能从这篇续篇中获得更多知识和灵感!
有6位网友表示赞同!
我很期待看看 2018 年最棒的 GAN 应用案例。
有17位网友表示赞同!
希望这篇续篇能帮我更好地掌握最新的 GAN 研究进展!
有16位网友表示赞同!