小白福音:带你读懂无监督学习!
点击上方关注,All in AI中国
作者:Cassie Kozyrkov
无监督学习实际上是一种从数据中挖掘"灵感"的模式查找技术。它可能听起来像表达"让孩子们自己学会不要接触烤箱"这样一种奇特的事情。其实无监督学习与无人监督的机器无关,而是一种可以形成自己对事物的看法的模式。让我们一起来揭开无监督学习的神秘面纱!
本文对初学者来说简单易懂,如果下面的概念你感到很熟悉,那么无监督机器学习可能成为你的新朋友:
- 机器学习就是用实例来标记事物。(https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c)
- 如果你通过输入你正在寻找的问题的答案来训练你的系统,那么你正在进行监督式学习。(https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f)
- 要开始监督学习,你需要知道自己想要给你的输入数据贴上什么样的标签。(无监督学习不需要。)(https://hackernoon.com/imagine-a-drunk-island-advice-for-finding-ai-use-cases-8d47495d4c3f)
- 标准术语,其中包括实例、特性、标签、模型和算法。(https://towardsdatascience.com/explaining-supervised-learning-to-a-kid-c2236f423e0f)
什么是无监督学习?
将上面六个图像按你喜欢的方式分成两组。看着这六张图像,是不是觉得缺少了点什么?这些照片没有任何的分类标签。不用担心,你的大脑非常擅长无监督学习。我们来试试吧,你会如何将这些照片进行分组呢?没有真正准确的答案哦。
聚类数据
在现场课堂上,Google员工给出了一些如"坐着或站立"、"可以看到木地板或不能"、"猫在自拍或不是猫自拍"等答案。让我们来看看第一个答案。
(将图像分成两组的一种方法:坐着或站立。)
无监督学习的秘密标签
如果你选择根据猫是否站立来进行聚类,那么你的系统输出的标签是什么?毕竟,机器学习就是标记事物。
如果你认为"坐着或站立"是标签的话,其中"坐或站立"就是你用于创建聚类的方法(模型)。相比之下,无监督学习中的标签更加无趣:类似于"第1组和第2组"或"A或B"或"0或1"。它们只是简单的表明群体成员身份,而没有其他可解释的(或诗意的)含义。
无监督学习的标签只是简单的表示聚类的成员。它们不像人们起名字一样包含着某种期望,给人的只能有失望。
这里发生的一切都是借助算法按相似性对事物来进行分组的。相似性的度量是由算法的选择来指定的。但为什么不尝试尽可能多的相似度度量呢?毕竟,你不知道你在寻找什么。你可以将无监督学习看作是数学版本的"物以类聚,人以群分"。
就像罗夏墨迹测验一样,结果可以帮助你实现梦想。不要太认真地对待你看到的任何东西。(https://en.m.wikipedia.org/wiki/Rorschach_test)
再来一次!
作为这两只猫的主人,我很难过的是,在我的将近50多次教学中,只有一个人注意到图像应该被分类为:"猫1和猫2"。相反,大多数时候,答案都是"坐着或站立" 或"可以看到木地板或不能",有时甚至会被分类为"丑陋的猫或漂亮的猫。"
这些是我的两只猫的照片!也许你已经注意到了,但大多数人都没有...除非我给他们标签(监督他们的学习)。如果我一开始就使用名称标签显示数据,然后要求你对下一张照片进行分类,我打赌你会发现这个任务很简单。
经验感悟
想象一下,假如我是一名新手数据科学家,刚开始进行无监督学习,并且对我自己的两只猫感兴趣。当我查看这些数据时,我不会对它视若无睹。因为我的cuddlebugs对我来说非常有意义,所以我希望我的无监督机器学习系统能够得出我所感兴趣的答案。
在这十年之前,没有人指望计算机与世界上最好的模式查找器——人脑来竞争这类型的任务。这对人们来说很容易!那么为什么成千上万的Google员工看到这些未标记照片的却没有得出"猫 1 与猫2"的答案呢?
我们可以将无监督学习看作是一种数学版本的"物以类聚,人以群分"。但是我对一种东西感兴趣并不意味着我的模式查找器就会找到它。即使模式查找器很棒,如果我不告诉它正确答案是什么,那么得到什么样的答案才是使我不会感到沮丧的?我所能做的只是查看系统为我计算的聚类,看看我是否觉得它们很有启发性。如果我不喜欢他们,我会一遍又一遍地运行另一种不同的无监督算法,直到对答案感到满意。
你无法保证在这个过程中,你所得出的结果都是有意义的。但尝试并没有什么坏处。毕竟,探索未知世界是值得的。
以后,你可以尝试着简化标签,不用太严肃的对待它,更不要把它当作人类部分情感的寄托。它们只是为你提供一些想法,让你知道你下一步可能会做什么。
总结
无监督学习通过将类似的事物分在一组而帮助你获得灵感。有许多不同的方法来定可以义相似性,所以在没有遇到最适合你的模式之前,你要继续尝试更多的算法和设置。