Python基础机器学习库Scikit-Learn简明教程

Evan

2018-09-04

关注关注

Scikit-Learn构建于NumPy，SciPy和matplotlib之上。它包含大量即用型机器学习算法。所有算法都有详细记录，易于使用，适用于所有经验级别。

Scikit-Learn机器学习库包含许多强大的算法，每个算法都有自己的对象，具有一定的参数和方法。

安装

打开命令行并输入

pip install scikit-learn

我鼓励所有用户下载 Anaconda的Python发行版，这些软件已经安装了所有数学和科学库。

介绍

scikitlearn被分成了几个主题:分类、回归、聚类、降维、模型选择和预处理。

前三个主题(分类、回归和聚类)都是各种类型的算法。虽然后三个（维度减少、模型选择和预处理）是修改和分析数据的主题，但是当它被输入到一个算法时，它会更好地工作。本文主要关注前三个主题。

监督学习

分类和回归算法都属于称为“监督学习”的机器学习部分。这意味着这两种类型的算法有一些共同之处：输入算法的数据具有观测数据和目标（或结果或“答案”）。

一个标准的例子是房屋数据及其销售价格。观察数据是每个访问的特征。目标是房屋在市场上的价格。

然后，只要我们有关于它的特征，我们就可以使用监督学习来预测任何房屋的价格。

分类数据意味着目标值是离散的（例如将房屋标记为昂贵或便宜）

回归意味着结果是连续的（房屋的实际价格以美元计算，可以是任何正数）。

无监督学习

聚类部分也称为“无监督学习”。这意味着我们有观测数据，但没有目标。相反，我们希望使用一种算法来查找观察数据中的组并创建标签。一个常见的例子是销售或流量数据中的用户细分。

创建模型

首先，您需要检查数据是否适合分类，回归或聚类方案。然后转到Scikit-Learn的相应部分并选择算法。如前所述，每个算法都是它自己的对象。

我们将从一个非常简单的示例开始，以便了解库：线性回归。

我们将使用Scikit-Learn的内置数据集之一作为使用此模型创建，拟合和预测的演练。

注意：这不是对线性回归的深入分析，只是一个简单的例子。

Python代码如下：

from sklearn import datasets

import pandas as pd

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

# Load the data (as NumPy arrays)

observations, target = datasets.load_diabetes(return_X_y=True)

# Initialize the algorithm object

regression_model = LinearRegression()

通常，您将使用所需的参数初始化算法对象。很多人都有默认设置，就像我们在这里看到的那样。但是，我建议研究每个参数的含义，以确保您做出了正确的选择。

我们将把数据放入一个pandas DataFrame中，以便将数据分成训练和测试集，Python代码如下：

# Make pandas DataFrames

observational_data = pd.DataFrame(data=observations)

target_data = pd.DataFrame(data=target)

# Separate out training and testing sets of data

test_index = 400

train_X = observational_data.iloc[:test_index]

test_X = observational_data.iloc[test_index:]

train_Y = target_data.iloc[:test_index]

test_Y = target_data.iloc[test_index:]

现在我们准备好拟合这个模型。

.fit方法

我将使用.fit方法获取训练数据并将其放入线性回归算法中。该方法将计算最适合数据的基础线性方程。

regression_model.fit(train_X, train_Y)

.predict方法

为了评估我们的算法能够仅基于观测数据进行预测的程度，我们使用.predict方法。我们将使用观测数据的测试集来进行预测。

predictions = regression_model.predict(test_X)

然后通过查看R2和MSE指标，了解这些预测与实际目标的对比情况。

print "R2 is", r2_score(test_Y, predictions)

>>> R2 is 0.69857490094

print "Mean Square Error is", mean_squared_error(test_Y, predictions)

>>> Mean Square Error is 1668.74966759

我们将跳过检查残差图，并查看这些指标。指标告诉我们这个模型没问题。我们能够用我们的模型解释目标中约70％的变化。如果我们在观察数据中使用不同的列组合运行此模型，则均方误差度量将帮助我们比较模型。

应用

你已经看到这个库有算法对象，每个都有一个fit方法。如果您使用的算法是回归或分类算法，它还将具有预测方法。

让我们将我们刚才所做的演练应用到现实生活中的比特币场景中。我们将获得有关比特币的数据，并为比特币价格跌至30天平均水平以下的价格创造了一个信号。

假设我们是一个谨慎的投资者，因此观察30天滚动平均值并不是一个足够好的分析。有没有更好的方法来检查市场行为？

我曾经遇到过一个利用聚类来帮助交易者可视化类似市场行为的金融产品。我认为这很有趣，因为使用监督学习建立准确的模型通常需要数据超出普通人的范围。聚类允许任何人找到他们可用的模式。

那么让我们看看我们是否可以利用Clustering来发现比特币价格的模式。我从Quandl获得一个小比特币数据集（你需要一个帐户）。该数据集包含约3个月的比特币价格。我选择了这个数据集，因为它有市场开盘价和收盘价。

让我们看看市场开盘时是否存在基于比特币价格的市场高点和低点组合。

以下是我们需要的库：

import quandl

import pandas as pd

import matplotlib.pyplot as plt

from sklearn.cluster import DBSCAN

这是我设置数据的Python代码：

# Set up the Quandl connection

api_key = 'GETYOURAPIKEY'

quandl.ApiConfig.api_key = api_key

quandl_code = "BCHARTS/BITFLYERUSD"

# Get the bitcoin data

bitcoin_data = quandl.get(quandl_code, returns="numpy", end_date="2018-08-23")

# Put bitcoin data into pandas DataFrame

columns = ['Date','Open','High','Low','Close','Volume (BTC)','Volume (Currency)','Weighted Price']

bitcoin = pd.DataFrame(data=bitcoin_data, columns=columns)

bitcoin = bitcoin.dropna() # drop blanks!

这是一个用于制作检查数据所需的可视化的函数，Python代码如下：

def make_jpg(color, filename, y_column_name):

# make figure

fig = plt.figure(figsize=(8,5), dpi=100)

# add axes at specific position

position = [0.1, 0.1, 0.8, 0.8]

axes = fig.add_axes(position)

# scatter plot

x_column_name = "Open"

X = bitcoin[x_column_name]

Y = bitcoin[y_column_name]

axes.scatter(X, Y, color=color)

axes.set_xlabel(x_column_name)

axes.set_ylabel(y_column_name)

axes.set_title("{0} vs {1}".format(x_column_name, y_column_name))

axes.grid(b=True)

fig.savefig(filename)

以下是我们的数据：

Python基础机器学习库Scikit-Learn简明教程

现在这是一个线性关系，使用这些数据构建超精确回归模型需要相当多的其他数据点，所以让我们坚持使用聚类算法告诉我们的内容。

Scikit-Learn有许多可用的聚类算法。我们将使用DBSCAN，因为我们不知道应该有多少clusters，我们希望关注具有数据点集中的区域。您可以根据您希望如何构建策略来使用其他聚类算法。

这是为Open和High以及Open vs Low数据构建聚类算法的Python代码：

def learn(y_column_name):

# make visualization before learning process

filename1 = "Bitcoin Open v {0}.jpg".format(y_column_name)

make_jpg("blue", filename1, y_column_name)

# ML algorithm

dbscan = DBSCAN(eps=150)

dbscan.fit(bitcoin.loc[:, ["Open", y_column_name]])

# take out the lables

labels = dbscan.labels_

# make visualizations

if y_column_name == 'High':

color_map = {-1: "k", 0: "r", 1: "orange", 2: "y"}

else:

color_map = {-1: "k", 0: "g", 1: "b", 2: "purple", 3: "cyan"}

colors = [color_map[l] for l in labels]

# store the labels colors

bitcoin['vs {0} Labels'.format(y_column_name)] = colors

filename2 = "Bitcoin Open v {0} Learn.jpg".format(y_column_name)

make_jpg(colors, filename2, y_column_name)

return dbscan

high_dbscan = learn("High")

low_dbscan = learn("Low")

Epsilon：两个数据点之间的最大距离是多少，以便它们仍然在同一个聚类中。我为这个价值选了150美元。

那我们发现了什么？

Python基础机器学习库Scikit-Learn简明教程

我们的clusters是具有类似的市场行为。黑点是不属于cluster的异常值。

让我们看看每个cluster，找出High/Low price 和Open price之间的平均偏差。

bitcoin["Open vs High Diff"] = bitcoin['High'] - bitcoin['Open']

print bitcoin.groupby('vs High Labels')["Open vs High Diff"].mean()

>>> vs High Labels

black 312.500000

orange 139.954200

red 82.933571

yellow 48.316000

bitcoin["Open vs Low Diff"] = bitcoin['Open'] - bitcoin['Low']

print bitcoin.groupby('vs Low Labels')["Open vs Low Diff"].mean()

>>> vs Low Labels

black 359.137222

blue 104.825000

cyan 107.212857

green 124.174286

purple 113.181282

上面的结果告诉我们，如果有一天市场开盘的比特币价格在6,500美元左右，类似的数据点看到平均高价+ 139美元和低价 - 当天开盘价113美元。

那么现在怎么办？下一步是可以将我们学到的东西放入一个自动测试和执行交易策略的系统中。

机器学习 python scikit-learn python机器学习库 python算法 dataframe

Evan

0 关注 0 粉丝 0 动态

关注关注

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

如果不能用Python执行机器学习，那该用什么呢？

长期学习数据科学的人一定知道如何用Python、R和Julia这些语言执行机器学习任务。然而，如果速度很关键，但硬件很有限，或者所在公司仅使用SQL进行预测分析，又该怎么办呢?答案就是——数据库内的机器学习。下面将使用Oracle机器学习在著名的Iris数

mori 2020-11-06

用Python构建和可视化决策树

决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。在这种情况下，树将进行拆分，使每个组的均方误差最小。决策树的

赶路人儿 2020-11-02

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 5评论 2020-11-19

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 5评论 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 8评论 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 12评论 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 12评论 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 6评论 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 8评论 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 12评论 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 5评论 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 8评论 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

安科网

Python基础机器学习库Scikit-Learn简明教程

Evan

安装

介绍

创建模型

应用

Evan

相关推荐

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

用Python构建和可视化决策树

机器学习新风暴：如何用ML模型预测房价？

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

Evan