如何在Apache Pyspark中运行Scikit-learn模型

89377069

2019-12-30

在本文中，我们将了解如何在Apache Pyspark中运行Scikit-learn模型，并讨论有关每个步骤的细节。如果您已经准备好了机器学习模型，则可以直接跳到“ pyspark wrapper”部分，也可以通过以下步骤创建一个简单的scikit learn机器学习模型。

scikit learn机器学习模型：

我们使用Python创建一个简单的机器学习模型：

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LogisticRegressionfrom sklearn import datasets# 导入数据iris = datasets.load_iris()# 我们只选择两个特征X = iris.data[:, :2]  Y = iris.targetlogreg = LogisticRegression(C=1e5)# 创建一个逻辑回归分类器实例并对数据进行拟合logreg.fit(X, Y)#进行预测predict(X[0:1])

如何在Apache Pyspark中运行Scikit-learn模型

将机器学习模型保存到磁盘

import picklepickle.dump(logreg, open( &#34;model save path&#34;, &#34;wb&#34; ) )

如何在Apache Pyspark中运行Scikit-learn模型

pyspark wrapper

让我们考虑一下pyspark dataframe (df)中提供的运行预测所需的特征

如何在Apache Pyspark中运行Scikit-learn模型

创建一个python函数，该函数接受这四个特性作为参数，并将预测的分数作为输出进行返回

def predictor(s_l, s_w, p_l, p_w):    #open picked model    serialized_model = open(&#34;model save path&#34;, &#34;rb&#34;)    model = pickle.load(serialized_model)    serialized_model.close()    #call predict method for model    return model.predict([s_l, s_w, p_l, p_w])

如何在Apache Pyspark中运行Scikit-learn模型

将python函数转换为pyspark UDF。这里有两种方式：

1、简单地将python函数注册为pyspark的UDF

from pyspark.sql.functions import udffrom pyspark.sql.types import FloatTypeudf_predictor = udf(predictor, FloatType())#apply the udf to dataframedf_prediction = df.withColumn(&#34;prediction&#34;,                                udf_predictor(df.sepal_length                                                  ,df.sepal_width                                              , df.petal_length                                              , df.petal_width))

如何在Apache Pyspark中运行Scikit-learn模型

这是最简单的选项，但是每行的每个pyspark执行程序都将调用python函数（预测变量），如果你有一个像我们这样的非常小的机器学习模型是可以的，但是如果你有一个大的序列化机器学习模型(> 100mb)，从磁盘一次又一次地打开和读取模型是非常低效的。

2、将模型广播给spark执行者并进行预测

为了消除1中的低效率，此技术允许从磁盘读取一次模型并将模型发送到所有spark执行程序。

#open picked modelserialized_model = open(&#34;model save path&#34;, &#34;rb&#34;)model = pickle.load(serialized_model)serialized_model.close()#broadcast model to spark executors using spark context(sc)sc.broadcast(model)#update prediction methoddef predictor(s_l, s_w, p_l, p_w):    #call predict method for model    return model.predict([s_l, s_w, p_l, p_w])#register python method as spark UDF and call over dataframefrom pyspark.sql.functions import udffrom pyspark.sql.types import FloatTypeudf_predictor = udf(predictor, FloatType())#apply the udf to dataframedf_prediction = df.withColumn(&#34;prediction&#34;,                                udf_predictor(df.sepal_length                                                  ,df.sepal_width                                              , df.petal_length                                              , df.petal_width))

如何在Apache Pyspark中运行Scikit-learn模型

机器学习 scikit-learn pyspark apache

安科网

如何在Apache Pyspark中运行Scikit-learn模型

89377069

scikit learn机器学习模型：

将机器学习模型保存到磁盘

pyspark wrapper

89377069

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

89377069