人工智能借助迁移学习利用自然图像提取的特征提高插图分类精度

人工智能借助迁移学习利用自然图像提取的特征提高插图分类精度(特约点评:人工智能利用迁移学习利用自然图像提取的特征提高插图分类精度对于对深度学习的领域提供了新的空间,这个创新点趣说人工智能必须推荐。来自网友小星的推荐!)

人工智能借助迁移学习利用自然图像提取的特征提高插图分类精度简介:人类识别和识别物体和纹理的能力是不容置疑的。在实践中,无论光照,视角,风格甚至图形中的抽象层次如何,人类都能够识别照片或图片中的几乎任何物体。但是,计算机并不像以前那样发达,直到最近,自然图像中对象的分类精度还没有达到人类的水平。 2012年深度学习技术的出现是计算机视觉领域的一次重大革命,特别是图像分类,准确率达到95%以上。这些技术虽然对自然图像非常有吸引力,但几乎不能探索我们对图像水平的认知的另一个层面。

人工智能借助迁移学习利用自然图像提取的特征提高插图分类精度

这些网络成功的关键之一是可以获得数十万注释自然图像和策划数据集,从而可以学习非常复杂和非线性的像素统计,关系和模式。但是,在时间和资源方面,培训这些网络是一项非常昂贵的任务。因此,从头开始训练深度神经网络需要大量的注释数据和强大的计算能力。为了克服这个问题,传输学习技术的目标是使用现有的预先训练的体系结构,并通过用更少的数据对它们进行再训练或使用更简单的机器学习算法对其高层进行分类来使它们对新数据集有用。

人工智能借助迁移学习利用自然图像提取的特征提高插图分类精度贡献:在这项工作中,我们想要探索图像领域,特别是插图图片,用于图像分类任务。我们依赖的直觉是,在地方一级,插图描绘的笔画,边缘或纹理统计数据与自然图像中的数据截然不同。然而,在更高的层次上,构成物体形状的基本部分与其形状保持完全一样。我们开始使用公开可用的深度神经网络VGG-19 [SZ14],它在包含超过120万张图像的自然图像数据集ImaNet [RDS * 15]上进行了训练。首先,我们用我们的由内容标记的插图图像的新颖数据集来评估这种网络。注意到糟糕的性能,我们提出了一种自适应的基于层的优化策略,该策略只修改网络的几个层,使其更好地捕获新内容。因此,我们建议重新开始并训练捕捉图像低级特征的图层,因为这些图层与自然图像有所不同,同时保持与高层图层相似。

本文的贡献如下:- 我们提供一个由内容标记的插图图像的新数据集。- 我们用我们的新数据集评估现有体系结构[SZ14]的性能。- 我们提出了两种基于转移学习技术的新型模型 - 为我们的数据进行了优化。第一种模式利用传统的机器学习技术,并需要少量的新数据用于培训。第二种优化模型需要较大的训练数据集,但要利用原始网络中已有的信息,因此如果我们从头开始训练网络,则需要的数据量要少得多。- 我们展示了一小组自然图像,尽管体系结构发生了变化,但新网络仍能够准确分类自然图像。

人工智能借助迁移学习利用自然图像提取的特征提高插图分类精度

人工智能利用迁移学习利用自然图像提取的特征提高插图分类精度方法:我们的目标是找到一个能够正确预测插图和剪贴画数据的类标签的模型。有许多标准数据集包含真实物体的标记图像,例如含有超过120万张图像的ImageNet数据集[RDS * 15]。然而,我们打算分析这种类似卡通形式的风格并没有一个合适的数据集。因此,我们首先创建了一个由内容标记的插图图像数据集(第4节)。该数据集由两组将用于不同任务的数据组成。嘈杂的数据集,超过180K的图像分为826个类和策划数据集,超过4K图像和23个类。将策划和噪音数据集都分成一组固定的培训,评估和测试数据。

我们首先评估现有的VGG19 [SZ14]深层神经网络,该网络已被证明可以在自然图像中执行非常好的预测类别。在第5节中,我们提供了这个架构的总结,并在数据中显示了它的性能。由于获得的精度很低,我们将其视为基线(基线VGG19),并提出了两种受转移学习技术启发的新模型[RASC14,LLZ * 11,OBLS14]。在第6.1节中解释的第一个模型(基线VGG19 + SVM)中,我们使用SVM对从深度网络VGG19提取的特征进行分类。性能相对于以前的架构有所提高,但仍然较低。因此,我们提出了第二个模型(优化VGG19+ SVM),在第7节中描述,它基于两个步骤:首先,我们使用我们的噪声执行自适应的基于层的优化数据集;然后,如前所述,我们提取优化网络的特征并使用我们的策划数据集训练SVM。该模型在精度排名前1的准确率为86.61%,排名前5的准确率为97.21%。精度分别提高了20%和10%的精度前1和前5。

人工智能利用迁移学习利用自然图像提取的特征提高插图分类精度提出的模型:正如我们所示,与自然图像相比,我们插图数据集中深网VGG19获得的准确性急剧下降。主要原因是我们数据集中图像的统计数据与原始图像不同。提高数据性能的一个想法是创建一个新的控制网络并从头开始进行培训。但是,这不是一个好主意,原因有二:首先,我们缺乏用于培训VGG19的数据量,其次,我们将失去模型已经学到的所有信息。为了解决这个问题,我们从之前的转移学习[RASC14,LLZ * 11,DJV * 13]中获得了灵感,并评估了两个新模型。在我们的第一个模型(第6.1节)中,我们提取了CNN的高级特征,并将它们用作图像描述符来训练支持向量机(SVM)。在我们的第二个模型(第7节)中,我们另外重置了VGG19网络的低层图层,并使用我们的数据集对其进行了优化。高层次,理论上是为了捕捉形状和对象,几乎保持不变。

基线VGG19 + SVM:支持向量机(SVM)是用于分类和回归的有监督算法。 SVM试图找到最优超平面,该类用不同类别的样本之间的最大边界对类别进行分类。一种SVM使用非线性内核将数据映射到更高维空间,然后才找到最优超平面。在我们的工作中,我们使用非线性支持向量机是因为它们在特征非常大时的有效性以及它们的鲁棒性,因为它们可以最大化不同数据样本之间的边界。此外,它不需要像深层网络那么多的数据,因此可以使用我们的策划数据集进行训练。

培训和评估我们将策划的数据集分为以下几类:16%的数据作为验证,64%作为培训,20%作为测试数据。对于每个图像,我们通过获取网络VGG19的第二个完全连接层来获得特征向量。通过使用三重交叉验证,我们发现最佳性能是由使用欧氏距离平方的径向基函数核(RBF)给出的,松弛变量C = 1允许在训练过程中出现一些错误,分类器更具灵活性和稳定性,γ= 0.0001,即训练过程中每个样品的重量。训练SVM的决策函数是一对一休止(OVR),它为每个类训练一个分类器,找到最优超平面,将该类的样本放置在最优超平面的一侧,而其余的一侧放置在另一侧不同类别的最接近样本之间的最大余量。训练结束后,前1名和前5名精度分别提高到62.04%和85.64%。由于RBF函数和SVM分类的强大的非线性映射,从VGG19获得的图像描述符能够获得更好的结果。尽管如此,该网络仍然无法识别插图图像的低级特征,这告诉我们如果网络使用插图图像统计进行了优化,仍有改进的空间。

人工智能借助迁移学习利用自然图像提取的特征提高插图分类精度

相关推荐