另一种（深度）学习：自我监督学习会是下一个重点导向吗？

智能多媒体

2018-12-04

点击上方关注，All in AI中国

自我监督学习的介绍

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

深度学习确实在一定程度上改变了机器学习，特别是在图像识别任务中。2012年，Alex-net发起了一项（仍然远未结束）的竞赛，以解决或至少显著改善了计算机视觉任务。虽然主要思想非常稳定（对所有事物都使用深度神经网络），但研究人员采取了截然不同的方式：自我监督学习的介绍

深度学习确实在一定程度上改变了机器学习，特别是在图像识别任务中。2012年，Alex-net发起了一项（仍然远未结束）的竞赛，以解决或至少显著改善了计算机视觉任务。虽然主要思想非常稳定（对所有事物都使用深度神经网络），但研究人员采取了截然不同的方式：

尝试优化模型架构。
尝试优化训练计划，例如优化程序。
尝试优化数据，例如顺序、大小、多样性等。

这些研究路径中的每一个都提高了训练质量（速度、准确性，有时是一般化），但似乎做同样的事情可能会导致逐步改进，但不会取得重大突破。

另一方面，在深度学习中不断增长的工作表明当前方法存在重大缺陷，特别是在泛化方面，例如最近的一个：当对象旋转时的泛化失败：

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

所以似乎需要进行更具侵略性的改进。或者可能将研究范围扩展到可能风险更大的领域。

除了上述方法之外，还有一些方向试图改变。

N类别单样本学习
半监督学习
域适应
自我监督学习

这些方法采用了一些不同的训练范式，尝试更具创造性，或模仿一些类似人类的模式。虽然我们尚未从上述方法（和其他方法）中获得证据来取得重大突破，但它们确实达到了一些非常重要的结果，并且还教会了我们很多关于训练过程的知识。

在这篇文章中，我将尝试讨论一些最有趣的方法：其中一些是做事，并称之为“不同种类（深度）学习”。我绝不会试图预测深度学习的未来发展，而只是呈现给大家一些最近有趣的作品，这可能不会成为人们关注的焦点。只可能会为读者提供一些目的：

您可能有兴趣了解您不知道的作品。
您可能会为自己的工作获得新的想法。
您可以了解您不了解的深度学习中的逻辑部分和任务之间的关系。

本系列的第一部分将讲述自我监督（self supervised learning）学习，这是我编写本系列的主要动力之一。

自我监督学习

想象一下，你有一个代理人，它可以搜索网络，并从它遇到的每一个图像中无缝地学习。这个概念非常有趣，因为如果能够实现，那么深度学习的最大障碍，即注释数据将被（部分）删除。

但是怎么做呢？最初它是在文本中提出的，文本由人类很好地构建，因此有许多概念可以从中学习而没有任何注释。预测下一个/上一个单词是一个突出的例子，就像在单词嵌入和语言模型任务中所做的那样。

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

在视觉中，这样的技巧稍微有点复杂，因为视觉数据（图像和视频）不是人类明确创造的（当然，有些摄影师可能会在他的摄影中加入一定的思考）但不是每一个视频，并且绝对不是每一个图像都具有某种可以从中提取信号的逻辑结构。

这难道不是另一种无监督学习的形式吗？确实如此，但它有一个特殊的微妙之处：由于任务受到监督（例如分类），但没有发生有效的注释。这个主题是我的最爱，并且迅速成为本文的主题。我不能保证这个会给深度学习带来最好的成就，但它肯定已经带来了一些伟大的创意。

这些任务称为自我监督学习。与“弱注释”不同，“弱注释”意味着具有不同标签、标题或标题的图像，自我监督的任务不考虑注释而是图像本身。如果您想知道可以从没有注释的图像中学到什么，请继续关注。

不用多说，让我们来看看自我监督领域的一些想法：

彩色化

也许图像中最直观的信号就是它的颜色。当大多数计算机化颜色表示有3个通道时，1或2可以无缝地用作注释。

由于着色旧图像是一项有趣的任务，因此有许多工作可以解决它。但是，如果我们考虑全自动着色（它符合自我监督的标准），那么数字会减少相当多。

在这种情况下的着色任务形成为“交叉信道编码器”，这意味着图像中的一个（或一些）信道用于编码其他信道。这个概念将在后面的文章中进一步讨论。

最引人注目的着色纸是由Richard Zhang和Alexei Efros设计的。

寻址着色任务的常用方法不是使用标准RGB编码，而是使用Lab颜色空间。在Lab色彩空间中，L代表亮度（B＆W强度），用于预测ab通道（a - 绿色到红色，b - 蓝色到黄色）。

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

实验室编码着色

正如我们将在我们讨论的所有任务中看到的那样，自我监督学习并不像我们在深度学习中习惯的那样简单。有些工件会中断模型实现其设计目标。此外，有时如果不仔细检查训练，模型会制作“捷径”，这将阻碍其推广到其他任务。

以下是着色任务的一些挑战：

1.着色中的固有歧义：很明显，对于某些图像，存在多于一种合理的着色。此问题在训练和评估中会导致多个问题：

在下面的唐纳德特朗普图像中，窗帘的颜色可以是红色或蓝色（以及许多其他）。唐纳德的领带可以匹配（或不匹配）。给定数据集中关系和窗帘的不同示例，模型将倾向于对它们进行平均，将这些项目着色为灰色。

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

解决方案：在张的文章中，研究人员将着色视为分类问题，而不是回归。除了使用特殊的损失函数，他们的模型预测概率分布层而不是图像的实际颜色，然后将这些概率转换为颜色- 在Lab空间中的313种可用颜色中：

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

2.偏见：实验室不是一个均匀分布的空间。由于云层、路面等的高频率，大多数解决方案都趋向于较低的数值。

解决方案：发生损失函数的重新加权以解决此问题。

3.评估问题：现在模型可以预测正确的不同答案，例如，如果基础事实为蓝色且模型将选择红色，则在标准评估中将被视为错误。

解决方案：使用不同的评估方法，其中包括：人类后期分类- “着色图灵测试”，人们被要求在真实图像和机器着色图像之间进行分析。另外，将图像馈送到图像分类器中，将结果与真实图像进行比较。

该模型在Colorization Turing测试中得分为35％，这不是那么糟糕。

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

在这张图片中，机器着色的狗看起来比原来的更真实

在最近的另一篇论文中，Larson等人同时与Zhang和Efros合作（两篇论文互相提及），并使用空间局部化的多层切片（超列）和回归损失。他们试图通过预测颜色直方图并从中抽样来克服模糊性问题：

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

除了使用LAB空间之外，这项工作还尝试预测Hue / Chroma属性，这与“HSV”颜色空间有关。

上下文

除了颜色预测之外，下一个最明显（但也很有创意）的任务是学习图像结构。更确切地说，试图预测图像作物的某些内容。

这个任务的灵感直接来自word2vec，也许我们可以把它称为图像的“skip gram”。

但是，在文本中，单词的数量仅限于词汇量的大小，并且可能不会超过100万。虽然一个一个的像素完成图像补丁时，它存在于更大的空间中。您可能会说GAN确实如此，但是：

实际上确实存在大量正确的解决方案，因此很难进行推广。
我们将在接下来的部分会讨论GAN。

在这种范式中，实际任务并不是自然而然地出现的：研究人员必须为模型想出“游戏”才能解决。比如通过一些突出的例子：

拼接上下文

填补后的补丁似乎并不能很好地概括，因此研究转向了类似拼图的任务。第一个是Doersch和Efros的作品：补丁是从图像中裁剪出来的，并且训练模型来对它们的关系进行了分类。用一个例子来简单的解释它：

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

就像着色一样，任务并不简单。具体来说，模型正在寻找一个“快捷方式”：它并没有实际学习高级特征及其关系，而是可能学习某些低级特征，例如边缘和光照关系。这往往暗示了图像部分。

为了解决这个问题，研究人员在贴片上应用了一些抖动（如图所示）

研究人员遭受的另一个问题是模型通过一些照明伪像-色差来模拟预测斑点的位置。这意味着在某些相机中，颜色的分布在图像的不同部分中变化。解决方案：这部分由一些颜色转换处理，特别是将绿色和洋红色转成灰色。

下一个突出的结果是Noroozi和Favaro的这篇论文，一路走来，使用了一个更难的问题，解决了完整的9部分拼图，但得到了更好的结果：

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

研究人员应用了对补丁进行良好改组的验证，并对每张图像进行了多次洗牌。

上下文编码器

如上所述，文本中的word2vec填写了缺失的单词。在愿景中是否有这样的尝试？事实上，有。在本文中，Pathak等人（当然还有Efros）尝试了一些自动编码器模型来填充图像上的裁剪空间。

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

结果表明它实际上是可能的，特别是增加了对抗性损失，成功地避免了处理多种模式（如前所述），从而防止了模糊的“平均”结果。

旋转

在我们跳到下一级的东西之前，我想提一下这个花絮：旋转预测。本文接着采用了预测图像旋转的创新方法。

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

旋转预测除了具有创造性之外，相对较快，并且不需要像我们之前看到的其他任务那样进行任何预先考虑，以克服对琐碎特征的学习。

论文还探讨了一些“注意地图”，这些图显示了他们的网络侧重于图像的重要部分：头部、眼睛等。

虽然报告了关于迁移学习到ImageNet分类的最新技术成果（大多数其他工作与pascal相关），但是评论者在论文中发现了一些缺陷，因此必须采取一些措施。

泛化

那么我们做了这么多工作之后，我们从中获得了什么？当然，给黑白图像上色很好，而解决拼图可能是一个有趣的演示应用程序，但更大的目标是在主要任务中实现更好的结果- 尤其是分类、检测和分割。

最常见的基准是VOC Pascal数据集，当使用imagenet预训练时，其技术现状是：

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

目前的结果是：

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

检测结果

好吧，似乎我们还没有达到那一步。虽然自我监督的数据实际上是无限的，但尚未开展挑战“经典”的基于Imagenet的迁移学习结果的工作。我们将在后面的帖子中讨论具体任务的一些不错的结果。

除了对上述任务的标准概括之外，研究人员利用这组任务的特定功能来尝试和推广其他一些任务，例如图像聚类（最近邻、可视化数据挖掘等）

总结

下一个重要步骤将来自自我监督学习吗？也许是，或许不是，但我相信，探索这些不同的方法可以显著改善深度学习领域，并可能间接地积极影响真正的突破。在下一篇文章中，我们将学习更多的想法和方法，从而产生一些有趣和新颖的结果。

另一种（深度）学习：自我监督学习会是下一个重点导向吗？

机器学习监督学习

智能多媒体

0 关注 0 粉丝 0 动态

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 2020-11-10

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 2020-11-09

智能多媒体

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号