【变狗为猫】伯克利图像迁移cycleGAN，猫狗互换效果感人

更新时间：2022-09-29 13:15:22

GAN（生成对抗网络）为图像变换任务带来了很多的惊喜，受到很多研究者的关注。例如前阵子很火的“画猫”项目（edges2cats）：勾勒出物体的边缘，神经网络能够自动补全图像信息，生成对应的图片（图1）。也有人脑洞大开，用DCGAN、WGAN等4种GAN来生成“猫图”（图2）。最近，日本NTT Data的itok_msi小哥用其中比较新的cycleGAN网络，做了一个“将狗的图像变成猫”的模型，并且生成的猫的姿势和毛色与作为输入的狗的图像保持一致。

图1：edges2cats 画猫

【变狗为猫】伯克利图像迁移cycleGAN，猫狗互换效果感人

图2：WGAN 生成的猫咪图像

cycleGAN

cycleGAN是加州大学伯克利分校 Jun-Yan Zhu等人提出的一种图像风格转换技术。它的想法是在没有成对的训练数据的情况下，实现图像风格转换。cycleGAN效果令人印象深刻，它可以让不同画家风格的画作还原成照片，将夏天变成冬天，将马变成斑马，橘子变成苹果，等等（图3）。

【变狗为猫】伯克利图像迁移cycleGAN，猫狗互换效果感人

图3：cycleGAN 的图像转换效果

cycleGAN 的具体方法和实现细节请参看论文，论文地址：https://arxiv.org/abs/1703.10593

cycleGAN猫狗转换的难点

实际上，cycleGAN的原论文（Zhu, Jun-Yan, et al., 2017）中也提出了将狗的图像变成猫的想法，但论文中的实验结果是失败的（图4）。

【变狗为猫】伯克利图像迁移cycleGAN，猫狗互换效果感人

图4：cycleGAN将狗转变成猫的是失败例子

这是由于猫和狗的毛色、质感不同，尤其是脸型差异非常大。原论文中也指出这是往后需要研究的一个课题。

尤其是，Gdog→cat（将狗转变成猫）出来的图像几乎与原图一模一样。原因是什么呢？作者提出了2个可能的原因：

1. cycle consistency loss的效果太强

要将猫和狗进行变换，就不得不牺牲输入图像的一部分信息。这就需要使cycle consistency loss增大。一方面，假如输入图像和输出的图像完全一样，也就是cycle consistency loss需要最小。我们想要将狗变成猫，那么完全一样是不行的，也就是cycleGAN的损失需要大一点。但是，这里的问题出在狗和猫有一些局部特征是非常相似的。

2. 狗和猫的局部特征非常相似

cycleGAN的判别器（DA，DB）采用patchGAN（参考文献[1][2]）的机制学习。在鉴别输入的图像是生成器生成的图像，还是源图像时，不使用整个图像，而是使用图像的局部（patch）进行判别。

判别器网络变小虽然有好处，但是猫和狗有些局部特征非常相似，使得学习相当困难（图5）。换句话说，就算Gdog→cat（将狗变换成猫）生成的结果与源图像完全一致，也可能欺骗判别器说变换的效果非常好。

【变狗为猫】伯克利图像迁移cycleGAN，猫狗互换效果感人