数据太少怎么办？试试自监督学习，CV训练新利器

TensorFlowNews

2020-01-20

关注关注

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

数据少，又没有预训练模型，怎么破？

给你个秘密武器——自监督学习。

数据科学家 Jeremy Howard 发布一条Twitter：

在医学图像领域，我们经常需要靠一点点的数据来做很多工作。
在这个问题上，有一种被低估的方法，正是自监督学习，简直太神奇！

还附上了与之相关的最新fast.ai教程。

△地址：https://www.fast.ai/2020/01/13/self_supervised/

这一推文立即引起了大量网友的关注，可谓是好评如潮。

这是篇了不起的文章，太酷了！
这是一种简单且强大的技术。

接下来，让我们一起看下，自监督学习到底有多厉害。

自监督学习简介

在多数情况下，训练神经网络都应该从一个预训练(pre-trained)模型开始，然后再对它进行微调。

通过预训练模型，可以比从头开始训练，节省1000倍的数据。

那么试想一下，你所在的领域中，要是没有预训练模型，该怎么办？

例如在医学图像领域，就很少有预先训练过的模型。

而最近有一篇比较有意思的论文，就对这方面问题做了研究。

△论文地址：https://arxiv.org/pdf/1902.07208.pdf

研究发现，即便使用ImageNet模型(预训练过的)中的前几层(early layers)，也可以提高医学成像模型的训练速度和最终准确性。

所以说，即便某个通用预训练模型，不在你的研究领域范围内，也可以尝试使用它。

然而，这项研究也指出了一个问题：

其改进程度并不大。

那有没有不需要大量数据，还能取得较好效果的技术呢？

自监督学习就是一个秘密武器。

它可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

举个例子，ULMFiT(一种NLP训练方法)的关键就是自监督学习，极大的提高了NLP领域的技术水平。

△论文地址：https://arxiv.org/abs/1801.06146

在基于自监督学习的方法，首先训练了一个语言模型，可以预测某句话的下一个单词。

而当把这个预训练好的模型，用在另一个任务中时(例如情绪分析)，就可以用少量的数据，得到最新的结果。

计算机视觉中的自监督学习

在自监督学习中，用于预训练的任务被称为pretext task(前置/代理任务)。

然后用于微调的任务被称为downstream task(下游任务)。

尽管目前在NLP领域中，自监督学习的应用还算普遍，但是在计算机视觉领域中，它却很少使用。

也许是因为诸如ImageNet这样的预训练模型比较成功，所以像医学成像领域中的研究人员，可能不太熟悉自监督学习的必要性。

接下来的内容便展示了CV领域中应用自监督学习的论文例子。

希望越来越多的人可以重视这一关键技术。

图像着色(Colorization)

Colorful Image Colorization

△论文地址：https://arxiv.org/abs/1603.08511

Learning Representations for Automatic Colorization

△论文地址：https://arxiv.org/pdf/1603.06668

Tracking Emerges by Colorizing Videos

△https://arxiv.org/pdf/1806.09594

效果展示

将图像patch放在正确位置

Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

△论文地址：https://arxiv.org/pdf/1603.09246

Unsupervised Visual Representation Learning by Context Prediction

△论文地址：https://arxiv.org/pdf/1505.05192

效果展示

按照正确的顺序放置帧

Unsupervised Representation Learning by Sorting Sequences

△论文地址：https://arxiv.org/pdf/1708.01246

Shuffle and Learn: Unsupervised Learning using Temporal Order Verification

△论文地址：https://arxiv.org/pdf/1603.08561

效果展示

图像修复(Inpainting)

Context Encoders: Feature Learning by Inpainting

△论文地址：https://arxiv.org/pdf/1604.07379

效果展示

分类损坏的图像

Self-Supervised Feature Learning by Learning to Spot Artifacts

△论文地址：https://zpascal.net/cvpr2018/Jenni_Self-Supervised_Feature_Learning_CVPR_2018_paper.pdf

效果展示

选择一个pretext task

为了在计算机视觉中使用自监督学习，需要回答一个非常重要的问题：

应该使用哪种pretext task？

很多人选择将“自动编码器”作为pretext task。

自动编码器将输入图像转换为一种简化的形式，然后将其再转换回尽可能接近原始图像的内容。

然而，我们不仅需要再生原始图像内容，还需要再生原始图像中的所有噪声。

因此，如果要在下游任务中生成更高质量的图像，那么这将是一个不好的选择。

此外，还需要确保pretext task是人类可以做的事情。

例如，预测视频的下一帧，如果预测时间点过于遥远，那也是不太可行的。

为下游任务进行微调

一旦用pretext task预训练了模型，就可以继续进行微调。

在这一点上，应该把这个问题视为一种迁移学习，不要太多的改变预训练模型的权重。

总体而言，Jeremy Howard不建议浪费太多时间来创建“完美”的pretext模型，而要构建尽可能快速且容易的模型。

然后，需要确保这个pretext模型是否可以满足下游任务。

并且，事实证明，通常不需要非常复杂的pretext 任务，就可以在下游任务中取得较好的结果。

Yann LeCun更好的方法建议

Jeremy Howard在发出这条Twitter之后，深度学习三巨头之一的Yann LeCun对其回复。

Yann LeCun提出了更好的建议：

现在，学习视觉特征最佳SSL方法是使用孪生神经网络(Siamese network)来学习嵌入。

△论文地址：https://arxiv.org/pdf/1912.01991

Jeremy Howard对LeCun回复道：

将PiRL添加到任意pretext task中是非常好的一件事情。

Jeremy Howard

△Jeremy Howard

监督学习机器学习 js

TensorFlowNews

0 关注 0 粉丝 0 动态

关注关注

谈谈机器学习的趋势 - 新三大学习范式

机器学习/深度学习是一个广阔的研究领域，说来并不年轻，但又朝气蓬勃，似乎每天都在涌现大量的新方法和新技术。一般来说，传统的机器学习可以分为三个基本学习范式，即监督学习、无监督学习以及强化学习。在每个范式中都包含一种学习方式和理念，它为拓展当前机器学习的能力

chenyuping 2020-10-30

深度学习未来发展的三种学习范式：混合学习，成分学习和简化学习

本文转自雷锋网，如需转载请至雷锋网官网申请授权。深度学习是一个很大的领域，其核心是一个神经网络的算法，神经网络的尺寸由数百万甚至数十亿个不断改变的参数决定。似乎每隔几天就有大量的新方法提出。然而，一般来说，现在的深度学习算法可以分为三个基础的学习范式。每一

qijiqiguai 2020-10-09

当支持向量机遇上神经网络：SVM、GAN距离之间的关系

SVM 是机器学习领域的经典算法之一。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM 训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM 模型将实例表示为空间中的点，这样映射就使得单独类别的

绝望的乐园 2020-09-02

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。实现AI的方法之一是机器学习。机器学习可以简单地描述为“向系统提供数据并通过数据自动

hhycsdn 2020-08-16

监督学习、非监督学习、强化学习都是什么？终于有人讲明白了

本节概述机器学习及其三个分类。首先，与机器学习相关的术语有人工智能、机器学习、强化学习、深度学习等，这里对这些术语进行简单的整理。AI意味着人工智能，其定义因研究人员而异。从广义上讲，它指“像人类一样具有智能的系统和配备这种系统的机器人”。实现AI的方法之

LuqiangShi 2020-08-14

一行命令跑评测，港中文MMLab开源自监督表征学习代码库OpenSelfSup

自监督表征学习发展迅速，但也存在诸多问题。近日，香港中文大学多媒体实验室和南洋理工大学的研究者开源了一套统一的自监督学习代码库 OpenSelfSup。近几个月来自监督表征学习领域获得了显著突破，特别是随着 Rotation Prediction、Deep

优化算法 2020-06-19

分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

数据与算法之美 2020-06-10

11分类与监督学习

简述分类与聚类的联系与区别。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。最可能是哪个疾病？上传手工演算过程。分类和聚类都有相似点，他们都想在数据集中寻找离目标点最近的d点。无监督学习是没有先验数据，在没有被标记的数据中发现规律。

Hannah 2020-06-09

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。聚类则没有事先预定的类别，类别数不确定。

baike 2020-06-08

机器学习11- 分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。最可能是哪个疾病？上传手工演算过程。

燕哥带你学算法 2020-05-12

10.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。上传手工演算过程。

RememberMePlease 2020-05-12

机器学习10 11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。在分类中，已知存在哪些类，即对于目标数据库中存在哪些类是知道的，要做的就是将每一条记录分别属于哪一类标记出来。根据这种已知的关系，训练得到一个最优的模型。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

清溪算法君老号 2020-05-11

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。最可能是哪个疾病？上传手工演算过程。

rein0 2020-05-11

11.分类与监督学习，朴素贝叶斯分类算法

分类的目的是为了确定一个点的类别，具体有哪些类别是已知的，而聚类的目的是将一系列的点分成若干类，事先是没有类别的。样本数据类别未知，需要根据样本间的相似性对样本集进行分类，试图使类内差距最小化，类间差距最大化。利用关于心脏病患者的临床历史数据集，建立朴素

yuanran0 2020-05-10

第十次 11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。分类的目的是为确定一个点的类别，具体有哪些类别是已知的，常用算法是KNN，是一种有监督学习。两种的实现都包含这样一个过程：对于想要分析的目标点，都会在数据集中寻找离他最近的点，即两者都用到了NN算法。利用关于心脏病患者的临床历史

seekerhit 2020-05-10

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。　　　分类简单来说，就是根据文本的特征或属性，划分到已有的类别中。聚类不需要对数据进行训练和学习。有监督学习即人工给定一组数据，每个数据的属性值也给出，对于数据集中的每个样本，我们想要算法预测并给出正确答案：回归问题，分类问题

horizonheart 2020-05-09

11.分类与监督学习，朴素贝叶斯分类算法

　　　　　　聚类是将一系列点分成若干类，事先是没有类别的，常用算法是K-Means算法，是一种无监督学习。　　② 无监督学习：缺乏足够的先验知识；在数据中发现一些规律；任务是聚类和降维。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

wonner 2020-05-09

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。分类就是按照数据的属性给对象贴上标签，再根据标签来分类，属于无监督学习，聚类就是指事先定义好类别，然后通过某种度量将他们分类。利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。利用关于

SystemArchitect 2020-05-07

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。　　无监督学习：缺乏足够的先验知识，输入x在没有标记的数据中发现一些规律。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

earthhouge 2020-05-07

分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。最可能是哪个疾病？上传手工演算过程。

Broadview 2020-05-07

数据太少怎么办？试试自监督学习，CV训练新利器

△地址：https://www.fast.ai/2020/01/13/self_supervised/

自监督学习简介

△论文地址：https://arxiv.org/pdf/1902.07208.pdf

△论文地址：https://arxiv.org/abs/1801.06146

计算机视觉中的自监督学习

图像着色(Colorization)

△论文地址：https://arxiv.org/abs/1603.08511

△论文地址：https://arxiv.org/pdf/1603.06668

△https://arxiv.org/pdf/1806.09594

将图像patch放在正确位置

△论文地址：https://arxiv.org/pdf/1603.09246

△论文地址：https://arxiv.org/pdf/1505.05192

按照正确的顺序放置帧

△论文地址：https://arxiv.org/pdf/1708.01246

△论文地址：https://arxiv.org/pdf/1603.08561

图像修复(Inpainting)

△论文地址：https://arxiv.org/pdf/1604.07379

分类损坏的图像

△论文地址：https://zpascal.net/cvpr2018/Jenni_Self-Supervised_Feature_Learning_CVPR_2018_paper.pdf

选择一个pretext task

为下游任务进行微调

Yann LeCun更好的方法建议

△论文地址：https://arxiv.org/pdf/1912.01991

Jeremy Howard

△Jeremy Howard

相关推荐