为什么Python机器学习啥就一下子火了呢？

wuzhiwuweisun

2018-11-25

为什么用Python做机器学习

Python很适合用于机器学习。首先，它很简单。如果你完全不熟悉Python但是有一些其他的编程经验（C或者其他编程语言），要上手是很快的。其次，Python的社区很强大。这使得Python的文档不仅条理性好，而且容易读。你还可以在StackOverFlow上找到关于很多问题详细解答（学习基石）。再次，一个强大的社区带来的副产品就是大量有用程序库（Python内部自带的和第三方软件），基本上可以解决你所有的问题（包括机器学习）。

为什么Python机器学习啥就一下子火了呢？

但我听说Python很慢

Python是很慢。它不是执行最快的语言，拥有那么多好用的抽象是要付出代价的。

顺应技术趋势，学习Python人工智能拿高薪。

但这是个可以解决的问题：程序库可以把计算量繁重的部分外包给其他更高效（但更难使用）的语言，例如C和C++。比如NumPy这个提供数值运算的程序库，就是用C写的，运行速度超快。在实际运用中，几乎所有程序库都会使用NumPy去完成计算繁重的部分。如果你看到Numpy，你应该想到它很快。

所以你是可以让程序的运行速度跟它的低层语言实现的运行速度相比拟的。你没有必要担心程序的运行速度。

值得知道的Python程序库。

为什么Python机器学习啥就一下子火了呢？

Scikit-learn

你刚开始学机器学习吗？如果你需要一个涵盖了特征工程，模型训练和模型测试所有功能的程序库，scikit-learn是你的最佳选择！这个优秀的免费软件提供了机器学习和数据挖掘所需要的所有工具。它是目前Python机器学习的标准库。要使用任何成熟的机器学习算法都推荐使用这个库。

这个程序库支持分类和回归，实现了基本所有的经典算法（支持向量机，随机森林，朴素贝叶斯等等）。程序库的设计让迁移算法十分容易，使用不同的算法做实验非常轻松。这些经典算法可用性很强，能用于大量不同的情况。

但这并不是Scikit-learn的全部功能，它同样可以用来做降维，聚类等等任何你所能想到的。由于它构建在Numpy和Scipy之上（所有的数值计算都是由C语言来完成的），它的运行速度也超快。

这些例子可以告诉你这个库的功能，如果你想学习如何使用它，可以阅读教程。

NLTK

NLTK不算是一个机器学习的程序库，但它是做自然语言处理（NLP）必须的一个库。除了用于文字处理的功能，例如聚类，分词，词干提取，标记，解析等，它还包含了大量的数据集和其他关于词法的资源（可用于模型训练）。

把所有这些打包在一起的好处就不用再多说了。如果你对NLP感兴趣，可以看看这些教程!

Theano

Theano被广泛应用于工业界和学术界，它是所有深度学习架构的鼻祖。Theano是用Python，结合Numpy实现的。你可以用它来构建用多维数组实现神经网络。Theano会处理所有数学计算，你不需要知道底层的数学公式实现。

早在支持使用GPU进行计算不像今天这样普及的时候，Theano就已经提供了对GPU计算的支持。这个程序库目前已经非常成熟，能够支持很多不同类型的操作。这使得Theano可以在和其他库比较的时候胜出。

目前关于Theano最大的问题是API不是很好用，对于新手来说上手困难。不过市面上已经有了解决这个问题的封装包，比如Keras, Blocks 和 Lasagne，都可以简化Theano的使用。

TensorFlow

谷歌大脑团队为了内部使用创造了TensorFlow，2015年将其开源化。设计初衷是取代他们已有的封闭机器学习框架DistBelief，据说该构架太过于依赖Google的整体构架，也不够灵活，在分享代码的时候非常不方便。

于是就有了TensorFlow。谷歌从以前的错误中吸取了教训。许多人认为TensorFlow是Theano的改进版，它提供了更灵活和好用的API。可以用于科研和工业界，同时支持使用大量的GPU进行模型训练。TensorFlow支持的操作没有Theano多，但是它的计算可视化比Theano好。

TensorFlow目前非常流行。如果今天这篇文章里面提到的名字你只听说了一个，那很有可能是这个。每天都有新的提到TensorFlow的博文或学术文章发表。这个流行度提供了大量的用户和教程，新人很容易上手。

Keras

Keras是一个提供更高层神经网络API的库，它可以基于Theano或者TensorFlow。它拥有这两个库强大的功能却又同时大大地简化了使用难度。它将用户的体验放在首要地位，提供简单的API和很有用的错误信息。

同时Keras的设计基于模块，这就使得你能自由组合不同的模型（神经层，成本函数等等），而且模型的可扩展性很好，因为你只需要简单的将新模块跟已有的连起来即可。

有人觉得Keras太好用了，简直就是在作弊。如果你开始用深度学习，可以看看例子和文档，对于你可以用它做什么有个数。如果你要学习使用它，可以从这个教程开始。

两个类似的库有Lasagne 和 Blocks, 但它们只支持Theano。如果你试过了Keras但是你不喜欢它你可以试试这些其他的库，也许它们更适合你。

PyTorch

还有一个有名的深度学习架构是Torch，它是用Lua实现的。Facebook用Python实现了Torch，叫做PyTorch，并将它开源了。用这个库你可以使用Torch使用的低层的库，但是你可以使用Python而不是Lua。

PyTorch对查错的支持很好，这是因为Theano和TensorFlow使用符号计算而PyTorch则不是。使用符号计算就表明在一行代码被解释的时候，一个操作（x+y）并不会被执行，在那之前，它必须先被编译（解释成CUDA或者C语言）。这就让用Theano和TensorFlow的时候很难查错，因为很难把报错跟当前的代码联系起来。这样做有它的好处，不过查错简单不在其中。

如果你想开始学PyTorch，官方文档适合初学者也会包含有难度的内容。

为什么Python机器学习啥就一下子火了呢？

机器学习的第一步？

你讲了这么多机器学习的包，我应该用哪一个？我怎样比较它们？我从哪里开始？

你可以试用我们面向初学者的平台Ape Advice™，就不用烦细节的问题了。如果你完全没有接触过机器学习，从scikit-learn开始。你可以了解标记，训练和测试是怎样工作的，以及一个模型是如何被建立的。

如果你想试试深度学习，从 Keras开始，毕竟这是大家公认的最简单的框架。你可以先试试，找找感觉。当你有点经验之后，你可以开始考虑你最需要的是什么：速度，不同的API，或者别的什么，之后你就能更好地决定了。

目前有海量的文章比较Theano，Torch和TensorFlow。没有人能说哪个最好。你要记住的是所有包都支持很多东西，而且也在不断改进，想相互比较它们也越来越难。六个月前的标准有可能已经过时了，一年前的评价说框架X没有Y功能也不一定还有效。

最后，如果你想用NLP，可以试试MonkeyLearn!我们的这个平台所提供的用户界面让建造模型，训练模型和改进NLP模型都非常容易试下。你可以用事先训练好的模型处理常见问题（意见挖掘，话题探测或者提取关键字），也可以为你特有的问题设计一个新的算法。你不需要担心底层实现或者发布你的模型，我们可扩展的云系统会帮你完成这些。你可以免费注册，马上开始试用我们超棒的API。

想知道更多？

关于机器学习的网络资源很多！下面列举一些：

如果你想看看代码，这里有一个机器学习详细范例的Jupyter Notebook

如果你想知道更多机器学习的概念，可以看我们的机器学习入门指南

如果你要认真学机器学习，你可以从Andrew Ng’s Stanford CS229 on Coursera开始；如果你要找关于深度学习的网络课程，可以看看。

机器学习 python python机器学习 python数据挖掘 python算法编程语言 theano

wuzhiwuweisun

0 关注 0 粉丝 0 动态

相关推荐

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

如果不能用Python执行机器学习，那该用什么呢？

长期学习数据科学的人一定知道如何用Python、R和Julia这些语言执行机器学习任务。然而，如果速度很关键，但硬件很有限，或者所在公司仅使用SQL进行预测分析，又该怎么办呢?答案就是——数据库内的机器学习。下面将使用Oracle机器学习在著名的Iris数

mori 2020-11-06

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 2020-11-17

这里有你需要的5个机器学习必备技能

机器学习，听起来很酷。这名字不禁令人以为是一排机器人坐着学习知识的样子，但其实是让机器人拥有像人一样的学习能力的高端技术，这样就能高效快捷地从数据中找出有用的东西。云计算服务支持构建和部署AI及机器学习应用程序的种种功能。除了专业外，作为IT团队成员一定要

jaybeat 2020-11-02

在云端你需要的5个机器学习技能

机器学习和AI继续深入IT服务中，并补充软件工程师开发的应用程序。如果IT团队想跟上这种步伐，必须提高他们的机器学习技能。云计算服务支持构建和部署AI及机器学习应用程序的各种功能。在很多方面，AI系统的管理与IT专业人员在云端熟悉的其他软件非常相似。但是，

changyuanchn 2020-11-01

用Python构建和可视化决策树

决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。在这种情况下，树将进行拆分，使每个组的均方误差最小。决策树的

赶路人儿 2020-11-02

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 2020-11-11

wuzhiwuweisun

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号