机器学习实践：如何将Spark与Python结合？

snaillup

2018-06-23

Apache Spark是处理和使用大数据最广泛的框架之一，Python是数据分析、机器学习等领域最广泛使用的编程语言之一。如果想要获得更棒的机器学习能力，为什么不将Spark和Python一起使用呢?

在国外，Apache Spark开发人员的平均年薪为110,000美元。毫无疑问，Spark在这个行业中被广泛使用。由于其丰富的库集，Python也被大多数数据科学家和分析专家使用。二者集成也并没有那么困难，Spark用Scala语言开发，这种语言与Java非常相似。它将程序代码编译为用于Spark大数据处理的JVM字节码。为了集成Spark和Python，Apache Spark社区发布了PySpark。

Apache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。Spark提供了一个接口，用于编程具有隐式数据并行和容错功能的整个集群。

下面是Apache Spark的一些特性，它比其他框架更具优势：

机器学习实践：如何将Spark与Python结合？

速度：比传统的大型数据处理框架快100倍。
强大的缓存：简单的编程层提供强大的缓存和磁盘持久性功能。
部署：可以通过Mesos、Yarn或Spark自己的集群管理器进行部署。
实时：内存计算，实时计算且低延迟。
Polyglot：这是该框架最重要的特性之一，因为它可以在Scala，Java，Python和R中编程。

虽然Spark是在Scala中设计的，但它的速度比Python快10倍，但只有当使用的内核数量少时，Scala才会体现出速度优势。由于现在大多数分析和处理都需要大量内核，因此Scala的性能优势并不大。

对于程序员来说，由于其语法和标准库丰富，Python相对来说更容易学习。而且，它是一种动态类型语言，这意味着RDD可以保存多种类型的对象。

尽管Scala拥有SparkMLlib，但它没有足够的库和工具来实现机器学习和NLP。此外，Scala 缺乏数据可视化。

机器学习实践：如何将Spark与Python结合？

使用Python设置Spark(PySpark)

首先要下载Spark并安装，一旦你解压缩了spark文件，安装并将其添加到 .bashrc文件路径中，你需要输入source .bashrc

机器学习实践：如何将Spark与Python结合？

要打开PySpark shell，需要输入命令./bin/pyspark

PySpark SparkContext和数据流

用Python来连接Spark，可以使用RD4s并通过库Py4j来实现。PySpark Shell将Python API链接到Spark Core并初始化Spark Context。SparkContext是Spark应用程序的核心。

Spark Context设置内部服务并建立到Spark执行环境的连接。
驱动程序中的Spark Context对象协调所有分布式进程并允许进行资源分配。
集群管理器执行程序，它们是具有逻辑的JVM进程。
Spark Context对象将应用程序发送给执行者。
Spark Context在每个执行器中执行任务。

PySpark KDD用例

现在让我们来看一个用例：数据来源为KDD'99 Cup(国际知识发现和数据挖掘工具竞赛，国内也有类似的竞赛开放数据集，比如知乎)。这里我们将取数据集的一部分，因为原始数据集太大。

机器学习实践：如何将Spark与Python结合？

创建RDD：

现在我们可以使用这个文件来创建我们的RDD。

机器学习实践：如何将Spark与Python结合？

过滤

假设我们要计算我们在数据集中有多少正常的相互作用。，可以按如下过滤我们的raw_data RDD。

机器学习实践：如何将Spark与Python结合？

计数：

现在我们可以计算出新RDD中有多少元素。

机器学习实践：如何将Spark与Python结合？

输出：

机器学习实践：如何将Spark与Python结合？

制图：

在这种情况下，我们想要将数据文件作为CSV格式文件读取。我们可以通过对RDD中的每个元素应用lambda函数。如下所示，这里我们将使用map()和take()转换。

机器学习实践：如何将Spark与Python结合？

输出:

机器学习实践：如何将Spark与Python结合？

拆分：

现在，我们希望将RDD中的每个元素都用作键值对，其中键是标记(例如正常值)，值是表示CSV格式文件中行的整个元素列表。我们可以按如下进行，这里我们使用line.split()和map()。

机器学习实践：如何将Spark与Python结合？

输出:

机器学习实践：如何将Spark与Python结合？

收集：

使用collect()动作，将RDD所有元素存入内存。因此，使用大型RDD时必须小心使用。

机器学习实践：如何将Spark与Python结合？

输出:

机器学习实践：如何将Spark与Python结合？

当然，这比我们之前的任何操作花费的时间都要长。每个具有RDD片段的Spark工作节点都必须进行协调，以便检索其各部分内容，然后将所有内容集合到一起。

编程语言 python spark apache 数据处理

snaillup

0 关注 0 粉丝 0 动态

相关推荐

致命错误！Python开发者的7个崩溃瞬间

本文转载自公众号“读芯术”。毫无疑问，Python是当今使用最为广泛的编程语言。但无论你经验多丰富，或是已使用过多少种语言，切换到Python时都不能保证非常顺利。具有面向对象编程背景的开发人员容易忽略Python的惯用特性，很可能会滥用编程结构，从而产生

huavhuahua 5评论 2020-11-20

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

11 月 12 日，微软将 Jupyter Notebook 支持从 Python 扩展中独立出来，发布新的 Jupyter 扩展，支持智能感知，调试等功能的交互式编程和计算。Jupyter 扩展通过新的“ Native Notebooks Experi

weiiron 14评论 2020-11-16

学习Python：脑筋急转弯和其他有趣技巧

而咨询和研讨会提供商353Solutions的首席执行官Miki Tebeka却不是这样，当疫情开始后，他开始编写Python练习书。Tebeka说他已经使用Python多年，目前正在教授有关编程语言的讲习班。Tebeka表示，参与Twitter很容易，有

cakecc00 5评论 2020-11-15

使用开源可视化工具来理解你的Python代码

VizTracer 工具可以可视化并跟踪 Python 代码，让你可以更深入地了解其工作原理。随着 Python 项目变得越来越大、越复杂，理解起它来就变得充满挑战性。即使是你自己独自编写了整个项目，也不可能完全知道项目是如何工作的。为了能更好的理解你的代

千锋 12评论 2020-11-15

Python之父Guido Van Rossum宣布加入微软

在从 Dropbox 退休一年后，64 岁的 Python 之父吉多 · 范罗苏姆宣布复出并加盟微软。然而，今天看来他的退休之旅已经结束。van Rossum 表示，他加入微软后，将致力于「使用户更好地使用 Python」。微软发言人表示欢迎 van R

JakobHu 12评论 2020-11-14

Python之父，现在成为微软打工人

Python之父，现在成了微软的打工人。没错，全世界程序员们最喜欢的编程语言的创造者，自述耐不住退休生活的寂寞，重返岗位发光发热。又为什么选择微软？几个小时前，Guido Van Rossum本人发推宣布了这个消息，他说：「退休生活太无聊了，我决定加入微软

guangcheng 11评论 2020-11-13

2020年11月编程语言排行：C、Python、Java

2020年11月编程语言排行：C、Python、Java，9-20名也有不同程度的变化：R语言、Perl 和 Go 语言名次都有大幅提升，分别为9名、12名和13名;Swift、Ruby、Delphl/Object Pascal 和 Objective-

xirongxudlut 5评论 2020-11-10

GitHub 上适合新手的开源项目（Python 篇）

随着 Python 语言的流行，越来越多的人加入到了 Python 的大家庭中。为什么这么多人学 Python ？我要喊出那句话了：“人生苦短，我用 Python！”，正是因为语法简单、容易学习，所以 Python 深受大家喜爱。Python 初学者在迈过

solarLan 15评论 2020-11-09

TIOBE 11月编程语言榜单出炉，Python势不可挡，超越Java！

TIOBE索引自开始以来到今天已有将近20年前之久，是首次出现Java和C语言不再占据前两名的位置。C语言仍然是第一，但现在是Python占据了第二的位置。有人说，Python最近的流行度激增是因为数据挖掘、AI和数值计算等领域的蓬勃发展。我认为，Pyth

pythonxuexi 15评论 2020-11-08

属于新十年的开发语言：Go语言可能很快会取代Python

30年前，Python首次亮相，它花了20年才得到开发者的赞赏。如今，它已经成为开发者第二喜爱的语言。尤其是在过去五年里，Python用户激增，成为机器学习和数据科学开发者的首选语言。在未来几年里，Python在这些领域的主导地位必然是很难被动摇的。但与较

文山羊 15评论 2020-11-07

Python曾是程序员的“瑞士军刀”，而如今正被慢慢取代

上世纪90年代初，Python面世了。近30年来，关于它的“炒作”一直没有少过。当然，编程界花了至少20年的时间才认识到它，但自那以后，它的流行程度远远超过了C、C#、Java甚至Javascript。尽管Python目前在数据科学和机器学习领域，以及某些

susmote 5评论 2020-11-07

编程语言排行榜：Python 排名第二，首次领先于 Java

Tiobe 这么多年以来发布的指数中，29 岁的 Python 首次超过了 25 岁 Java，成为第二受欢迎的编程语言。在最新的 Tiobe 指数中，数据科学和机器学习项目的首选语言 Python，现在排名仅次于 C 语言，排在第二位，将 Java

wuShiJingZuo 4评论 2020-11-05

TIOBE 11月榜单：Python挤掉了Java！

根据Tiobe之最新编程语言排名。Java语言的流行度在本月持续下降，而Python语言正式登上世界第二大语言的宝座。若Python真的超越了Java，那将是Tiobe编程排行榜在创立以来最大的变化，在知道该排名从2001年开始，Java一直占据前两名未变

Pythonjeff远 15评论 2020-11-06

Python在下个十年依然重要吗？

愚者多怨，仁者不言，生活中就是会有很多爱唱反调的人，但不管怎么说Python 在接下来十年仍然会很重要。“人红是非多”，Python是一门很棒的编程语言，虽然有许许多多的批评，依旧挡不住它红火的势头。一个东西之所以能流行必然有它的过人之处，那这些批评是对的

jacktangj 12评论 2020-11-04

TIOBE 11 月榜单：Python 挤掉 Java，成功跃至第二

TIOBE 公布了 2020 年 11 月的编程语言排行榜。Python 已成功跃居榜单第二名，本月排名率为 12.12%; Java 被挤到第三位，排名率降至 11.68%。自有 TIOBE 榜单以来，C 和 Java 之前一直占据着前两名的位置。然而

lousir 5评论 2020-11-04

为什么Java仍将是未来的主流语言？

Java是一种通用编程语言，1995年由Sun Micro-systems公司开发。尽管已经有25年的历史，但它仍然统治着整个世界。根据Stack-overflow的开发者调查，它在2019年最受欢迎的语言中排名第5。超过41%的调查用户将Java标记为

minerd 11评论 2020-10-28

PHP常量DIRECTORY_SEPARATOR原理及用法解析

在 Windows 中，斜线(/)和反斜线(\)都可以用作目录分隔符，在linux上路径的分隔符是"/"。在程序本地运行很正常，上传到服务器后，发现图片没有显示出来，图片链接是绝对路径 var/，而且当中带有 \ 但是我记得这个路径已经

Noneyes 5评论 2020-11-10

世界上很好玩的6种表情符号编程语言

谁能想到我们最喜欢的表情符号可以用来设计新的编程语言?聪明有才华的人已经想象并开发出了成熟的编程语言，我们可以用它来编写表情符号和表情符号。这些基于表情符号的语言大多是深奥的编程语言，称为esolang。然而，这些语言相对来说比其他语言更容易理解。Esol

ailxxiaoli 5评论 2020-11-16

编程语言TOP10！该如何选择适合自己的？

编程领域大约有700种代码语言。理解编程语言的重要性以及其如何影响需要执行的具体任务至关重要。一篇文章穷尽700 种语言不现实，也没有意义。因此，笔者挑选出了时下最热门的原因，在本文中一一分析其特征、优缺点和发展方向，并确定其是否有学习价值。根据设计，C

chensen 12评论 2020-11-14

JetBrains 发布 Kotlin 桌面 UI 框架，共享 Android UI 代码

日前，软件开发厂商 JetBrains 发布了 Kotlin 桌面 UI 框架 Jetpack Compose for Desktop，可应用在 Windows、macOS、Linux/x86，目前处于 Alpha 版本。Jetpack Compose

Nostalgiachild 12评论 2020-11-13

snaillup

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号