万丈高楼平地起——机器学习的基础你打好了吗?

点击上方关注,All in AI中国

作者——Kimberly Cook

机器学习是我们现在任何地方都能听到的术语。当我在2016年4月正式开始我的ML之旅前,我就像一个彻头彻尾的菜鸟,不知道以我对ML的认识是否正确,是不是意味着机器在学习呢?如果我的认识正确的话,那么机器如何才能自己学习呢?当我开始这段旅程的时候,所有这些愚蠢的问题都出现在我的脑海里。我们曾听到人们谈论机器学习,但对这意味着什么只有一个模糊的概念。

万丈高楼平地起——机器学习的基础你打好了吗?

对于那些愿意了解ML的人来说,而这篇文章就是一种指南。这里我们将有不同的模块,但每个模块都契合ML主题。

目标受众:初学者和/或机器学习领域的新鲜血液。

路线图:

模块-1 ML简介

1.什么是机器学习?

2.使用ML的真实场景是什么?

3.ML算法的类型?

4.监督学习与无监督学习的区别?

5.机器学习的步骤?

6.常用机器学习算法列表

"未来世界上的大部分知识都将被机器提取出来"脸书人工智能研究总监杨立昆说到。

从第一个问题开始 什么是ML?

机器学习的重点是开发可以访问数据并进行自我学习的计算机程序。然后在没有明确编程的情况下根据经验进行改进。其主要目的是让计算机自动学习,无需人工干预或协助,并相应地进行自我调整。

那么学习的过程是如何开始的呢?

学习的过程从输入数据开始,通过指导,以便在数据中寻找模式/观察,然后在未来对我们提供的新例子/数据做出更好的决定。

机器真正"学习"是通过使用旧的/过去的数据来获得关于最有可能发生的事情的信息。如果旧数据与新数据非常相似,那么旧数据的内容可能与新数据相关。

机器学习算法在真实场景中的应用

1.零售:机器学习算法可能是一些在线零售商的幕后推手,比如亚马逊(Amazon)等公司利用这种技术提供了一种高度个性化的服务:在线推荐。机器学习允许零售商根据你以前的购买或活动向你提供个性化建议。

2.语音识别系统:如Siri和Cortana,使用机器学习来模拟人类的交互。

3.谷歌地图:通过从智能手机上获取大多数人的位置数据,这使得谷歌能够更快的规划出路线来减少出行时间。

4.Google搜索引擎:基于先前用户搜索内容提出建议

5.垃圾邮件检测:在收件箱中识别那些垃圾邮件和非垃圾邮件。有了这个问题的模型,程序可以将非垃圾邮件放在收件箱中,并将垃圾邮件移动到垃圾邮件文件夹中。

ML算法的类型?

机器学习算法基本上可以分为三种:

监督学习(任务驱动)

无监督学习(数据驱动)

强化学习(从环境学习)

万丈高楼平地起——机器学习的基础你打好了吗?

假设我们有一个数据集,其中X是输入变量,Y是输出变量。监督学习是输入变量(X)和输出变量(Y)的映射函数。

y=f(X)

当你有新的输入数据(X)时,我们就可以预测该数据的输出变量(Y)。它被称为监督学习,因为算法从训练数据集中学习的过程可以看作是教师监督学习过程。我们知道正确的答案,该算法迭代地对训练数据进行预测,并由教师进行修正。当算法达到可接受的性能水平时,学习就停止了。

监督学习示例:

假设你有一个篮子,里面装满了新鲜的水果,你的任务是在另一个地方"购买"相同类型的水果。假设水果是苹果、香蕉、樱桃、葡萄。因为从你以前的工作中你已经知道每个水果的形状,所以在其他一个地方很容易"买上"相同类型的水果。而你先前的准备工作叫训练数据。训练的目的是告诉你,如果水果有这样的特征,那么它就是葡萄。而这一切都是建立在训练数据上的。这种学习被称为监督学习。也就是说只有你已经学到了东西,你才能自信地做好自己的工作。

无监督学习不像上面的监督学习,它没有正确的答案,也没有老师。无监督学习需要由他们自己发现和呈现数据中有趣的结构。假设你有一个篮子,里面装满了一些新鲜水果,你的任务是在其他地方购买相同类型的水果。这一次你对这些水果一无所知,你是第一次看到这些水果,所以你将如何购买相同类型的水果。你要做的首先是选择一物理性质对水果做出不同的/具体的区分。假设你采取了颜色。然后你会根据颜色排列它们,然后分组会是这样的。

红色组:苹果和樱桃。

绿色组:香蕉和葡萄。

如果你把大小作为区分的依据,那么它们将有新的排列组合。在这里你对任何东西都没有确切的解释,即意味着你没有训练数据和自变量、应变量。这种学习被称为无监督学习。

监督学习与无监督学习的区别?

监督学习:你给机器一张答题纸,机器在它自己的计算之后得出答案,如果答案是正确的,它将对特定范围的输入(相同类型的题)做同样的事情。以学生为例进行教师教学。

无监督学习:没有答题纸,什么都要它自己做,它们会设法控制自己进行自学(没有老师)。

机器学习中涉及的常见步骤?

有5个基本步骤用于执行机器学习任务:

万丈高楼平地起——机器学习的基础你打好了吗?

1.收集数据

2.准备数据

3.训练模型:这一步骤涉及选择适当的算法并以模型的形式表示数据。"清洗"后的数据分为两部分:训练和测试(取决于前提条件);第一部分(训练数据)用于模型的开发。第二部分(测试数据),作为参考。

4.评估模型

5.改善性能

常见的机器学习算法列表

1.线性回归

2.逻辑回归

3.决策树

4.支持向量机

5.朴素贝叶斯

6.KNN

7.随机森林

8.降维算法

9.梯度提升算法和Ada boost算法

10.时间序列建模

相关推荐