带你读论文:基于深度学习的图像分类中数据增强的有效性
摘要
本文旨在研究数据扩充的有效性。它将通过使用传统数据扩充技术(比如裁剪、旋转)或者现代意义上讲的GAN(CycleGAN)。
导言
在这一部分,作者指出神经网络可以从数据中获益。他还举了一个例子,用来说明谷歌语料库的发布如何基于文本的模型受益。作者并以此提出了一个有趣的观点,大量的非结构化数据出现的任务就是寻找一个模式。当然,我们可以采取另一种方法,就是我们对一组小的结构化数据进行数据扩充。最后,作者介绍了他们将要进行的实验数据集。如MNIST、和小图象网数据。
相关工作
在这一节中,作者回顾了一些常用的防止过度拟合的方法。介绍了增加正则化项、退出、批量归一化和迁移学习等方法。此外,作者给出了数据增强技术的简单描述,如几何或色彩增强。(主要是仿射变换)。以及如何训练GAN的基本描述。
方法
这是它非常有趣的地方,作者将采取两种不同的方法。
a)在训练分类器之前进行数据扩充(使用GAN或仿射变换)
b)在分类器网络中使用预先的神经网络来实时扩充数据。
作者将使用传统的扩充技术或CycleGAN(样式传输)来执行数据扩充。(见下文)
最后,对于增强网络的需求,他们创建了一个小型的5 CNN网络,n并使用各种损失函数来训练网络。1,内容损失2,风格缺失3 ,无损失。
数据集与特征
作者对三个数据集进行了实验研究。(其中两个数据集来自小图像网络,第三个数据集来自MNIST数据集。)第一个数据集由狗/猫的图像组成,第二个数据集由狗/金鱼的图像组成。
实验
本实验使用了两种网络,分别是分类网络(SmallNet)和增强网络(Augmentation Network)。这两个网络的网络架构如下所示。
增强网络是通过是在同一个类连接两个图像(在它们的通道维度中)来创建额外的图像。(这是数据增强部分)。增强网络只在训练期间使用,而不是在测试期间使用,整个过程如下所示。
最后要考虑的是损失函数,在图像增强后,作者引入了三种损失函数。(实际上是两个,因为最后的损失函数根本不是损失函数。)
第一个损失是增强图像和目标图像之间的损失,其项D为增强图像和目标图像的长度。
第二个损失是格拉姆矩阵在增强图像和目标图像之间的损失。如上所述,第三个损失函数是无损失函数的。
结果
对于所有的数据集,他们执行不同类型的增强,并得到以下结果。
我们可以假设在神经增强的情况下无损失函数,(控制方法是将相同的图像输入到增强网络中。)可以得到从增强网络生成的一些图像。
作者指出,增强网络似乎从两幅图像中提取了一些关键特征,同时优化了背景像素。
结论与发展潜力
作者指出,使用更复杂的网络进行分类和增强是值得的。并指出与传统的图像增强方法相比,GAN或神经增强具有较好的增强效果,且耗时较短。