IEEE论文提出径向变换实现图像增强
近日,一篇题为《Training Neural Networks with Very Little Data-A Draft》IEEE 论文提出了一种使用少量数据训练神经网络的新方法,即通过极坐标空间中的径向变换(radial transform) 实现图像增强。它并未改变数据的信息内容,而是改进了数据的多样性,并最终提升了神经网络的泛化表现。
论文地址:https://arxiv.org/pdf/1708.04347.pdf
摘要:深度神经网络是由许多节点层组成的复杂架构,结果导致大量需要在训练中评估的参数,包括权重、偏差等。相比于简单的架构,更大、更复杂的神经网络需要更多的训练数据满足适当的收敛。然而,可用于训练网络的数据要么有限、要么不均衡。我们提出在极坐标空间中的径向变换(radial transform) 进行图像增强,从而帮助数据较少的神经网络进行训练。每像素的坐标变换提供了原始图像与增强后的数据在极坐标系统中的表征,且又能增加表征较弱的图像类别的多样性。使用我们提出的方法,在 MNIST 上,以及使用 AlxNet、GoogLeNet 神经网络模型的一系列多模型医疗图像上的试验表现出了极高的分类准确率。
图 1:径向变换采样。a)使用径向变换从笛卡尔坐标系统(左)中把样本映射到极坐标系统(右)。b)极坐标系统中的径向变换。c)使用径向变换筛选 256 × 256 图像(2D 平面)中的离散样本。任意选定的极点在像素(170,50)处。d)把 c)中筛选的样本从极坐标系统映射到笛卡尔坐标系统。红色样本表明了样本从 c)到 d)的映射方向。
图 2 :来自 MNIST 数据集的样本和使用极坐标系中的径向变换 RT(·)的相应表征。
图 3:多模态医疗数据集的样本,以及在极坐标系统中使用径向变换的相应表征。
表 4:使用 MNIST 和医疗多模态数据集中的原始和径向变换图像训练的 AlexNet 和 GoogLeNet 模型的收敛行为。术语「RT」是指径向变换图像,术语「Original」是指用很少的原始图像训练的模型。x 轴表示训练迭代,左 y 轴表示训练时的模型损失,右 y 轴表示使用验证数据集训练时的模型准确度。
表 1:通过原始和径向变换的多模态医疗图像训练的 AlexNet 和 GoogLeNet 的准确度(「Acc.」in %)和置信度(「Conf.」in %)值。「Abd」是指腹部 MRI,「Std」是标准偏差。黑体部分是最佳结果。
表 2 :通过原始和径向变换的 MNIST 图像训练的 AlexNet 和 GoogLeNet 的准确度(「Acc.」in %)和置信度(「Conf.」in %)值。「Std」是标准偏差。黑体部分是最佳结果。