Python入门5大机器学习算法（附代码），你知道哪几个？

yimixgg

2018-03-12

Python语法简单，功能多样，是开发人员最喜爱的AI开发编程语言之一。对于开发人员来说，Python在机器学习上的应用非常令人高兴，因为它比C ++和Java等语言要简单。 Python也是一种非常便携的语言，因为它可以在Linux，Windows，Mac OS和UNIX平台上使用。 Python也很受开发人员的欢迎，因为它允许开发人员创建交互式，可解释式性，模块化，动态，可移植和高级的代码，这使得它比Java语言更独特。下面我们看下Python的5个机器学习算法（附代码）

1、线性回归

线性回归通常用于根据连续变量估计实际数值（房价、呼叫次数、总销售额等）。我们通过拟合最佳直线来建立自变量和因变量的关系。这条最佳直线叫做回归线，并且用 Y= a *X + b 这条线性等式来表示。

理解线性回归的最好办法是回顾一下童年。假设在不问对方体重的情况下，让一个五年级的孩子按体重从轻到重的顺序对班上的同学排序，你觉得这个孩子会怎么做？他（她）很可能会目测人们的身高和体型，综合这些可见的参数来排列他们。这是现实生活中使用线性回归的例子。实际上，这个孩子发现了身高和体型与体重有一定的关系，这个关系看起来很像上面的等式。

在这个等式中：

Y：因变量
a：斜率
x：自变量
b ：截距

系数 a 和 b 可以通过最小二乘法获得。

参见下例。我们找出最佳拟合直线 y=0.2811x+13.9。已知人的身高，我们可以通过这条等式求出体重。

Python入门5大机器学习算法（附代码），你知道哪几个？

线性回归的两种主要类型是一元线性回归和多元线性回归。一元线性回归的特点是只有一个自变量。多元线性回归的特点正如其名，存在多个自变量。找最佳拟合直线的时候，你可以拟合到多项或者曲线回归。这些就被叫做多项或曲线回归。

Python入门5大机器学习算法（附代码），你知道哪几个？

2、逻辑回归

别被它的名字迷惑了！这是一个分类算法而不是一个回归算法。该算法可根据已知的一系列因变量估计离散数值（比方说二进制数值 0 或 1 ，是或否，真或假）。简单来说，它通过将数据拟合进一个逻辑函数来预估一个事件出现的概率。因此，它也被叫做逻辑回归。因为它预估的是概率，所以它的输出值大小在 0 和 1 之间（正如所预计的一样）。

Python入门5大机器学习算法（附代码），你知道哪几个？

让我们再次通过一个简单的例子来理解这个算法。

假设你的朋友让你解开一个谜题。这只会有两个结果：你解开了或是你没有解开。想象你要解答很多道题来找出你所擅长的主题。这个研究的结果就会像是这样：假设题目是一道十年级的三角函数题，你有 70%的可能会解开这道题。然而，若题目是个五年级的历史题，你只有30%的可能性回答正确。这就是逻辑回归能提供给你的信息。

从数学上看，在结果中，几率的对数使用的是预测变量的线性组合模型。

Python入门5大机器学习算法（附代码），你知道哪几个？

在上面的式子里，p 是我们感兴趣的特征出现的概率。它选用使观察样本值的可能性最大化的值作为参数，而不是通过计算误差平方和的最小值（就如一般的回归分析用到的一样）。

现在你也许要问了，为什么我们要求出对数呢？简而言之，这种方法是复制一个阶梯函数的最佳方法之一。我本可以更详细地讲述，但那就违背本篇指南的主旨了。

请点击此处输入图

Python入门5大机器学习算法（附代码），你知道哪几个？

片描述

Python入门5大机器学习算法（附代码），你知道哪几个？

3、支持向量机

这是一种分类方法。在这个算法中，我们将每个数据在N维空间中用点标出（N是你所有的特征总数），每个特征的值是一个坐标的值。

Python入门5大机器学习算法（附代码），你知道哪几个？

举个例子，如果我们只有身高和头发长度两个特征，我们会在二维空间中标出这两个变量，每个点有两个坐标（这些坐标叫做支持向量）。

Python入门5大机器学习算法（附代码），你知道哪几个？

上面示例中的黑线将数据分类优化成两个小组，两组中距离最近的点（图中A、B点）到达黑线的距离满足最优条件。这条直线就是我们的分割线。接下来，测试数据落到直线的哪一边，我们就将它分到哪一类去。

更多请见：支持向量机的简化

将这个算法想作是在一个 N 维空间玩 JezzBall。需要对游戏做一些小变动：

比起之前只能在水平方向或者竖直方向画直线，现在你可以在任意角度画线或平面。
游戏的目的变成把不同颜色的球分割在不同的空间里。
球的位置不会改变。

Python代码

Python入门5大机器学习算法（附代码），你知道哪几个？

4、Gradient Boosting 和 AdaBoost 算法

当我们要处理很多数据来做一个有高预测能力的预测时，我们会用到 GBM 和 AdaBoost 这两种 boosting 算法。

boosting 算法是一种集成学习算法。它结合了建立在多个基础估计值基础上的预测结果，来增进单个估计值的可靠程度。这些 boosting 算法通常在数据科学比赛如 Kaggl、AV Hackathon、CrowdAnalytix 中很有效。

Python入门5大机器学习算法（附代码），你知道哪几个？

GradientBoostingClassifier 和随机森林是两种不同的 boosting 树分类器。人们常常问起这两个算法之间的区别。

5、决策树

这是我最喜爱也是最频繁使用的算法之一。这个监督式学习算法通常被用于分类问题。令人惊奇的是，它同时适用于分类变量和连续因变量。在这个算法中，我们将总体分成两个或更多的同类群。这是根据最重要的属性或者自变量来分成尽可能不同的组别。想要知道更多，可以阅读：简化决策树。

Python入门5大机器学习算法（附代码），你知道哪几个？

在上图中你可以看到，根据多种属性，人群被分成了不同的四个小组，来判断 “他们会不会去玩”。为了把总体分成不同组别，需要用到许多技术，比如说 Gini、Information Gain、Chi-square、entropy。

理解决策树工作机制的最好方式是玩Jezzball，一个微软的经典游戏（见下图）。这个游戏的最终目的，是在一个可以移动墙壁的房间里，通过造墙来分割出没有小球的、尽量大的空间。

Python入门5大机器学习算法（附代码），你知道哪几个？

因此，每一次你用墙壁来分隔房间时，都是在尝试着在同一间房里创建两个不同的总体。相似地，决策树也在把总体尽量分割到不同的组里去。

Python是一种多范式编程语言，支持面向对象，面向过程和函数式编程风格。由于它拥有简单的函数库和理想的结构，Python很适合神经网络和自然语言处理(NLP)解决方案的开发。Python具有丰富多样的库和工具。2.在不必实施的情况下进行算法测试。3.Python的面向对象设计提高了开发人员的工作效率。4.与Java和C ++相比，Python在开发中运行速度更快。

Python入门5大机器学习算法（附代码），你知道哪几个？

好了，今天就知识就分享到这里，获取更多资源，欢迎在评论区留言讨论。

机器学习 python python机器学习 python算法线性回归算法

安科网

Python入门5大机器学习算法（附代码），你知道哪几个？

yimixgg

yimixgg

相关推荐

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

关于机器学习管道需要了解什么?

这里有你需要的5个机器学习必备技能

在云端你需要的5个机器学习技能

用Python构建和可视化决策树

关于机器学习算法的16个技巧

选择困难终结者：不同问题之下的机器学习算法

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

yimixgg