适合小白入门Spark的全面教程

问题导读

1.spark有哪些使用场景?

2.spark有包含哪些组件?

3.spark在哪些厂商已经应用?

4.spark如何实现地震检测?

适合小白入门Spark的全面教程

Apache Spark是一个用于实时处理的开源集群计算框架。 它是Apache软件基金会中最成功的项目。 Spark已成为大数据处理市场的领导者。 今天,Spark被亚马逊,eBay和雅虎等主要厂商采用。 许多组织在具有数千个节点的集群上运行Spark。 这篇文章所讲内容包括Spark Streaming,Spark Interview Questions,Spark MLlib等。

在实时数据分析方面,Spark在所有其他解决方案中脱颖而出。 通过这篇文章将向大家介绍使用Spark进行地震检测。

以下是此Spark教程中涵盖的主题:

  • 实时分析
  • 有了Hadoop,为什么使用spark
  • 什么是spark
  • Apache Spark的功能
  • spark实践及概念、组件介绍
  • 使用基于Hadoop的Spark
  • Spark 组件
  • 使用案例:使用Spark进行地震检测

1.实时分析

在我们开始之前,让我们来看看美国社交媒体比较有名的企业每分钟产生的数据量。

适合小白入门Spark的全面教程

图:每分钟生成的数据量

我们可以看到,互联网世界需要在几秒钟内处理大量数据。 正如我们所看到的,网络有大量的数据需要在几秒钟内处理。我们将通过处理企业中的大数据的阶段,发现需要一个实时处理框架,那就是Apache Skar的实时处理框架,解决了此问题。

首先,首先,让向大家介绍当今世界使用实时分析的几个大领域。

适合小白入门Spark的全面教程

我们可以看到,大数据的实时处理已经深入我们生活的方方面面。从银行的欺诈检测到政府的实时监控系统、医疗自动化设备在股市中的实时预测系统,我们周围的一切都围绕着实时处理大数据。

我们来看看实时分析的一些用法:

医疗保健:医疗保健领域使用实时分析来持续检查关键患者的医疗状况。寻找血液和器官移植的医院需要在紧急情况下保持实时联系。及时就医是患者生死攸关的问题。

政府:政府机构主要在国家安全领域进行实时分析。各国需要不断跟踪警察和安全机构对于威胁的更新。

电信:以电话,视频聊天和流媒体实时分析等形式围绕服务的公司,以减少客户流失并保持领先竞争优势。他们还提取移动网络的测量结果。

银行业务:银行业务几乎涉及全球所有资金。确保整个系统的容错事务变得非常重要。通过银行业务的实时分析,可以实现欺诈检测。

股票市场:股票经纪人使用实时分析来预测股票投资组合的变动。公司通过使用实时分析来推销其品牌的市场需求,从而重新思考其业务模式。

spark思想及实现

2.有了Hadoop,为什么使用spark

每个人都问过Spark的第一个问题,“当我们已经拥有Hadoop时,为什么选择Spark?”。

要回答这个问题,我们必须考虑批处理和实时处理的概念。 Hadoop基于批处理的概念。 Hadoop MapReduce是批量处理数据的最佳框架。

这一直持续到2014年,直到Spark超越Hadoop。 在批量处理大型数据集时,USP for Spark比Hadoop MapReduce快100%。

下图详细说明了Spark和Hadoop之间的区别。

适合小白入门Spark的全面教程

在这里,我们可以得出Hadoop和Spark之间的一个关键区别。 Hadoop基于大数据的批处理。 这意味着数据会在一段时间内存储,然后使用Hadoop进行处理。 在Spark中,处理可以实时进行。 Spark中的这种实时处理能力帮助我们解决了上一节中的实时分析问题。 除此之外,Spark还能够比Hadoop MapReduce( Hadoop处理框架)快100倍地进行批处理。 因此,Apache Spark是业界大数据处理的首选工具。

3.什么是spark

Apache Spark是一个用于实时处理的开源集群计算框架。 它拥有蓬勃发展的开源社区,是目前最活跃的Apache项目。 Spark提供了完整编程的接口,具有数据并行性和容错性。

适合小白入门Spark的全面教程

图:Spark教程 - Apache Spark中的实时处理

它建立在Hadoop MapReduce之上,它扩展了MapReduce模型以使用更多类型的计算。

4.Apache Spark的功能

spark有以下功能

适合小白入门Spark的全面教程

图:Spark教程 - Spark功能

详细内容如下:

支持多种语言

Spark提供Java,Scala,Python和R中的高级API .Spark代码可以用任何这些语言编写。 它在Scala和Python中提供了一个shell。 可以通过./bin/spark-shell和Python shell通过./bin/pyspark从已安装的目录访问Scala shell。

适合小白入门Spark的全面教程

相关资料推荐

使用Java编写并运行Spark应用程序

http://www.aboutyun.com/forum.php?mod=viewthread&tid=10791

Spark开发语言Scala语言

http://www.aboutyun.com/forum.php?mod=viewthread&tid=6771

Spark python 开发者 ---Spark流式数据处理

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18866

速度

Spark的运行速度比Hadoop MapReduce快100倍,适用于大规模数据处理。 Spark能够通过分区实现此速度。 它使用分区管理数据,这些分区有助于以最小的网络流量并行化处理分布式数据。

适合小白入门Spark的全面教程

多种格式

Spark支持多种数据源,如Parquet,JSON,Hive和Cassandra,CSV和RDBMS表,还包括通常的格式,如文本文件、CSV和RDBMS表。 Data Source API提供了一种可插拔的机制,用于通过Spark SQL获取结构化数据。

适合小白入门Spark的全面教程

延后计算

Apache Spark延迟是绝对必要的。 这是影响其速度的关键因素之一。对于转换(transformations),Spark将它们添加到DAG(有向无环图)的计算中,并且只有当驱动程序请求一些数据时,这个DAG才会实际执行。

适合小白入门Spark的全面教程

实时计算

Spark的计算是实时的,并且由于其内存计算具有低延迟。 Spark专为大规模可扩展性设计,Spark团队已经记录了运行具有数千个节点的生产集群的用户,并支持多种计算模型。

适合小白入门Spark的全面教程

整合Hadoop

Apache Spark提供与Hadoop的平滑兼容性。 这对所有从事Hadoop大数据工程师来说都是一个福音。 Spark是Hadoop的MapReduce的潜在替代品,而Spark能够使用YARN在现有的Hadoop集群上运行资源调度。

适合小白入门Spark的全面教程

资料推荐

如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

http://www.aboutyun.com/forum.php?mod=viewthread&tid=23252

机器学习

Spark的MLlib是机器学习组件,在大数据处理方面很方便。 它消除了使用多种工具的需求,一种用于处理,一种用于机器学习。 Spark为数据工程师和数据科学家提供了一个功能强大,统一的引擎,既快速又易于使用。

适合小白入门Spark的全面教程

其它资料推荐:

SPARK MLLIB机器学习

http://www.aboutyun.com/forum.php?mod=viewthread&tid=24700

5.spark实践及概念、组件介绍

开始使用Spark的第一步是安装。 让我们在Linux系统上安装Apache Spark 2.1.0(我使用的是Ubuntu)。

安装

1.安装Spark的先决条件是安装Java和Scala。

2.如果未使用以下命令安装Java,请下载Java。

sudo

apt-get

install

python-software-properties

sudo

apt-add-repository ppa:webupd8team

/java

sudo

apt-get update

sudo

apt-get

install

oracle-java8-installer

3.从Scala Lang官方(http://www.scala-lang.org/)页面下载最新的Scala版本。 安装完成后,在〜/ .bashrc文件中设置scala路径,如下所示。

[Bash shell] 纯文本查看 复制代码

export

SCALA_HOME=Path_Where_Scala_File_Is_Located

export

PATH=$SCALA_HOME

/bin

:PATH

4.从Apache Spark下载页面(http://spark.apache.org/downloads.html)下载Spark 2.1.0。 您也可以选择下载以前的版本。

5.使用以下命令提取Spark tar。

[Bash shell] 纯文本查看 复制代码

tar

-xvf spark-2.1.0-bin-hadoop2.7.tgz

6.在〜/ .bashrc文件中设置Spark_Path。

export

SPARK_HOME=Path_Where_Spark_Is_Installed

export

PATH=$PATH:$SPARK_HOME

/bin

在我们下一步之前,在我们的系统上启动Apache Spark,并熟悉Spark的主要概念,如Spark Session,数据源,RDD,DataFrame和其他库。

Spark Shell:

Spark的shell提供了一种学习API的简单方法,以及一种以交互方式分析数据的强大工具。

Spark Session:

在早期版本的Spark中,Spark Context是Spark的入口点。 对于每个其他API,我们需要使用不同的上下文。 对于流式传输,我们需要StreamingContext,SQL sqlContext和hive HiveContext。 为了解决这个问题,SparkSession进入了这个问题。 它本质上是SQLContext,HiveContext和未来StreamingContext的组合。

数据源:

Data Source API提供了一种可插拔的机制,用于通过Spark SQL访问结构化数据。 Data Source API用于将结构化和半结构化数据读取并存储到Spark SQL中。 数据源不仅仅是简单的管道,可以转换数据并将其拉入Spark。

RDD:

弹性分布式数据集(RDD)是Spark的基本数据结构。 它是一个不可变的分布式对象集合。 RDD中的每个数据集被划分为逻辑分区,其可以在集群的不同节点上计算。 RDD可以包含任何类型的Python,Java或Scala对象,包括用户定义的类。

Dataset:

Dataset是分布式数据集合。 数据集可以从JVM对象构造,然后使用功能转换(map,flatMap,filter等)进行操作。 数据集API在Scala和Java中可用。

DataFrames:

DataFrame是命名列组织成数据集。 它在概念上等同于关系数据库中的表或R / Python中的数据框,但在引擎盖下具有更丰富的优化。 DataFrame可以从多种来源构建,例如:结构化数据文件,Hive中的表,外部数据库或现有RDD。

其中RDD是比较好理解的,dataset和dataframe可能弄不清他们之间的区别和联系推荐参考:

一图看懂Spark RDD Dataframe DataSet

http://www.aboutyun.com/forum.php?mod=viewthread&tid=24893

6.使用基于Hadoop的Spark

Spark与Hadoop兼容性的。 因此,这是一种非常强大的技术组合。 下面我们介绍spark与Hadoop整合的好处

适合小白入门Spark的全面教程

图:Spark功能

Hadoop组件可以通过以下方式与Spark一起使用:

  • HDFS:Spark可以在HDFS之上运行,以利用分布式存储。
  • MapReduce:Spark可以与MapReduce一起用于同一个Hadoop集群,也可以单独作为处理框架使用。
  • YARN:可以使Spark应用程序在YARN(Hadoop NextGen)上运行。
  • 批处理和实时处理:MapReduce和Spark一起使用,其中MapReduce用于批处理,Spark用于实时处理。

7.Spark 组件

Spark组件使Apache Spark快速可靠。 构建了很多这些Spark组件来解决使用Hadoop MapReduce时出现的问题。 Apache Spark具有以下组件:

  • Spark Core
  • Spark Streaming
  • Spark SQL
  • GraphX
  • MLlib (Machine Learning)

Spark Core

Spark Core是大规模并行和分布式数据处理的基础引擎。 核心是分布式执行引擎,Java,Scala和Python API为分布式ETL应用程序开发提供了一个平台。 此外,在核心上构建的其他库允许用于流式传输,SQL和机器学习的各种工作负载。 它负责:

  • 内存管理和故障恢复
  • 在群集上调度,分发和监视作业
  • 与存储系统交互

Spark Streaming

Spark Streaming是Spark的组件,用于处理实时流数据。 因此,它是核心Spark API的补充。 它支持实时数据流的高吞吐量和容错流处理。 基本流单元是DStream,它基本上是一系列用于处理实时数据的RDD(弹性分布式数据集)。

适合小白入门Spark的全面教程

图:spark streaming

Spark SQL

Spark SQL是Spark中的一个新模块,它使用Spark编程API实现集成关系处理。 它支持通过SQL或Hive查询查询数据。 对于那些熟悉RDBMS的人来说,Spark SQL将很容易从之前的工具过渡到可以扩展传统关系数据处理的边界。

Spark SQL通过函数编程API集成关系处理。 此外,它为各种数据源提供支持,并且使用代码转换编织SQL查询,从而产生一个非常强大的工具。

以下是Spark SQL的四个库。

  • Data Source API
  • DataFrame API
  • Interpreter & Optimizer
  • SQL Service

适合小白入门Spark的全面教程

GraphX

GraphX是用于图形和图形并行计算的Spark API。 因此,它使用弹性分布式属性图扩展了Spark RDD。

属性图是一个有向多图,它可以有多个平行边。 每个边和顶点都有与之关联的用户定义属性。 这里,平行边缘允许相同顶点之间的多个关系。 在高层次上,GraphX通过引入弹性分布式属性图来扩展Spark RDD抽象:一个定向多图,其属性附加到每个顶点和边。

为了支持图形计算,GraphX公开了一组基本运算符(例如,subgraph,joinVertices和mapReduceTriplets)以及Pregel API的优化变体。 此外,GraphX包含越来越多的图算法和构建器,以简化图形分析任务。

MlLib (Machine Learning)

MLlib代表机器学习库。 Spark MLlib用于在Apache Spark中执行机器学习。

适合小白入门Spark的全面教程

8.使用案例:使用Spark进行地震检测

现在我们已经理解了Spark的核心概念,让我们使用Apache Spark解决现实问题。 这将有助于我们有信心在未来处理任何Spark项目。

问题描述:设计实时地震检测模型以发送救生警报,这应该改善其机器学习,以提供接近实时的计算结果。

用例 - 要求:

  • 实时处理数据
  • 处理来自多个来源的输入
  • 易于使用的系统
  • 批量传输警报

我们将使用Apache Spark,它是满足我们要求的工具。

适合小白入门Spark的全面教程

数据下载:

链接: https://pan.baidu.com/s/1sb5S42oKLdIBzaoJ11dGDA 密码: rx85

在继续前进之前,我们必须了解一个概念,即我们将在地震检测系统中使用它,它被称为接收器操作特性(ROC)。 ROC曲线是图解说明二元分类器系统的性能的图表,因为其辨别阈值是变化的。 我们将使用数据集在Apache Spark中使用机器学习获取ROC值。

用例 - 流程图:

下图清楚地解释了我们的地震检测系统涉及的所有步骤。

适合小白入门Spark的全面教程

用例 - Spark实现:

继续,现在让我们使用Eclipse IDE for Spark实现我们的项目。

找到下面的伪代码:

//Importing the necessary classes

import

org.apache.spark.

//Creating an Object earthquake

object

earthquake {

def

main(args

:

Array[String]) {

//Creating a Spark Configuration and Spark Context

val

sparkConf

=

new

SparkConf().setAppName(

"earthquake"

).setMaster(

"local[2]"

)

val

sc

=

new

SparkContext(sparkConf)

//Loading the Earthquake ROC Dataset file as a LibSVM file

val

data

=

MLUtils.loadLibSVMFile(sc, *Path to the Earthquake File* )

//Training the data for Machine Learning

val

splits

=

data.randomSplit( *Splitting

60

%

to

40

%

* , seed

=

11

L)

val

training

=

splits(

).cache()

val

test

=

splits(

1

)

//Creating a model of the trained data

val

numIterations

=

100

val

model

=

*Creating SVM Model

with

SGD* ( *Training Data* , *Number of Iterations* )

//Using map transformation of model RDD

val

scoreAndLabels

=

*Map the model to predict features*

//Using Binary Classification Metrics on scoreAndLabels

val

metrics

=

* Use Binary Classification Metrics on scoreAndLabels *(scoreAndLabels)

val

auROC

=

metrics. *Get the area under the ROC Curve*()

//Displaying the area under Receiver Operating Characteristic

println(

"Area under ROC = "

+ auROC)

}

}

从我们的Spark程序中,我们获得的ROC值为0.088137。 我们将转换此值以获得ROC曲线下的区域。

用例 - 可视化结果:

我们将绘制ROC曲线并将其与特定地震点进行比较。 如果地震点超过ROC曲线,这些点将被视为主要地震。 根据我们计算ROC曲线下面积的算法,我们可以假设这些主要地震在里氏震级上超过6.0级。

适合小白入门Spark的全面教程

上图显示了橙色的地震线。 蓝色区域是我们从Spark程序中获得的ROC曲线。 让我们放大曲线以获得更好的画面。

适合小白入门Spark的全面教程

我们已经根据ROC曲线绘制了地震曲线。 在橙色曲线高于蓝色区域的点处,我们已经预测地震是主要的,即幅度大于6.0。 因此,我们可以使用Spark SQL并查询现有的Hive表来检索电子邮件地址并向人们发送个性化的警告电子邮件。 因此,我们再次使用技术来拯救人类生活中的麻烦。

相关推荐