Centos7安装Spark2.4

yanqianglifei

2019-12-20

准备

1、hadoop已部署（若没有可以参考：Centos7安装Hadoop2.7），集群情况如下（IP地址与之前文章有变动）：

hostname	IP地址	部署规划
node1	172.20.0.2	NameNode、DataNode
node2	172.20.0.3	DataNode
node3	172.20.0.4	DataNode

2、官网下载安装包：spark-2.4.4-bin-hadoop2.7.tgz（推荐去清华大学或中科大的开源镜像站）。

3、spark将部署在三台都已存在的路径/mydata，配置环境变量：

export SPARK_HOME=/mydata/spark-2.4.4
export PATH=${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH

本地模式

在机器node1解压spark-2.4.4-bin-hadoop2.7.tgz到/mydata，并重命名文件夹为/mydata/spark-2.4.4。

跟hadoop文章保持一致，下面执行一个spark版的wordcount任务（Python版本）：

shell> vim 1.txt　　# 创建一个文件，写入一些内容　　hadoop hadoop　　hbase hbase hbase　　spark spark spark sparkshell> spark-submit $SPARK_HOME/examples/src/main/python/wordcount.py 1.txt　　# 向spark提交wordcount任务，统计1.txt中的单词及其数量，结果如下　　spark: 4　　hbase: 3　　hadoop: 2

spark是一个计算引擎，查看文件wordcount.py可以看到实现同样的功能，其代码量远小于mapreduce，大大降低了大数据的开发难度。

Standalone模式

可以翻译成独立模式，由spark自带的集群来完成除了存储以外的工作；下面先在node1上进行配置：

spark的配置文件位于 $SPARK_HOME/conf：

从 spark-env.sh.template 拷贝一个 spark-env.sh

从 slaves.template 拷贝一个slaves

# 文件名 spark-env.sh
SPARK_MASTER_HOST=node1
SPARK_LOCAL_DIRS=/mydata/data/spark/scratch
SPARK_WORKER_DIR=/mydata/data/spark/work
SPARK_PID_DIR=/mydata/data/pid
SPARK_LOG_DIR=/mydata/logs/spark# 文件名 slavesnode1node2node3

由于 $SPARK_HOME/sbin 下的start-all.sh和stop-all.sh与hadoop冲突，建议进行重命名：

shell> mv start-all.sh spark-start-all.sh
shell> mv stop-all.sh spark-stop-all.sh

配置完成后将spark程序文件拷贝到其他两台：

shell> scp -qr /mydata/spark-2.4.4/ :/mydata/
shell> scp -qr /mydata/spark-2.4.4/ :/mydata/

然后在node1启动集群：

shell> spark-start-all.sh

node1上用jps命令验证进程	Master、Worker
node2上用jps命令验证进程	Worker
node3上用jps命令验证进程	Worker

可以通过浏览器访问 http://node1:8080/ ：

Centos7安装Spark2.4

下面把上一节的文件1.txt多复制一份为2.txt，然后都放到hdfs上，最后通过spark集群执行wordcount任务：

shell> cp 1.txt 2.txtshell> hdfs dfs -mkdir /tmp/wc/shell> hdfs dfs -put 1.txt 2.txt /tmp/wc/shell> spark-submit --master spark://node1:7077 $SPARK_HOME/examples/src/main/python/wordcount.py hdfs://node1:9000/tmp/wc/*shell> spark-submit --master spark://node1:7077 $SPARK_HOME/examples/src/main/python/pi.py 9　　# 顺带测试一个计算圆周率的任务，最后的数字9表示分片（partitions）数量，输出结果类似这样：Pi is roughly 3.137564

在 http://node1:8080/ 上可以看到执行的任务：

Centos7安装Spark2.4

Yarn模式

实际使用中，通常是让spark运行于已存在的集群，比如利用hadoop自带的yarn来进行资源调度。

spark on yarn不需要spark的集群，所以停掉它：

shell> spark-stop-all.sh

配置很简单，只需要有这个环境变量即可：

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

不过，为了方便查看历史记录和日志，这里要配置 spark history server ，并且与hadoop的jobhistory联系起来：

进入目录 $SPARK_HOME/conf，从spark-defaults.conf.template拷贝一个spark-defaults.conf：

# 文件名 spark-defaults.conf
spark.eventLog.enabled           　　　　　　true
spark.eventLog.dir               　　　　　　hdfs://node1:9000/spark/history
spark.history.fs.logDirectory    　　　　　　hdfs://node1:9000/spark/history
spark.yarn.historyServer.allowTracking  　　true
spark.yarn.historyServer.address　　　　　　 node1:18080

进入目录 $HADOOP_HOME/etc/hadoop，在 yarn-site.xml 中添加一下内容：

# 文件名 yarn-site.xml
<property>
    <name>yarn.log.server.url</name>
    <value>http://node1:19888/jobhistory/logs/</value>
</property>

在hdfs创建必要的路径：

shell> hdfs dfs -mkdir -p /spark/history

将hadoop和spark的配置同步更新到其他所有节点（勿忘）。

下面在node1重启yarn，并且启动spark history server：

shell> stop-yarn.sh
shell> start-yarn.sh
shell> start-history-server.sh　　# 启动后通过jps可以看到多出一个HistoryServer

执行下面的命令，通过yarn及cluster模式执行wordcount任务：

shell> spark-submit --master yarn --deploy-mode cluster $SPARK_HOME/examples/src/main/python/wordcount.py hdfs://node1:9000/tmp/wc/*

浏览器访问 http://node1:18080/ 可以看到spark的history：

Centos7安装Spark2.4

点击 App ID 进入，然后定位到 Executors ，找到 Executor ID 为driver的，查看它的stdout或stderr：

Centos7安装Spark2.4

即可看到日志和计算结果：

Centos7安装Spark2.4

同样，可以通过yarn命令访问日志：

shell> yarn logs -applicationId [application id]

over

spark hadoop

yanqianglifei

0 关注 0 粉丝 0 动态

关注关注

入门大数据---Spark开发环境搭建

Local 模式是最简单的一种运行方式，它采用单节点多线程方式运行，不用部署，开箱即用，适合日常测试开发。进入 spark-shell 后，程序已经自动创建好了上下文 SparkContext，等效于执行了下面的 Scala 代码：。安装完成后可以先做一个

Hhanwen 2020-06-25

Apache Spark

Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spa

xclxcl 2020-05-31

来看看基于Kubernetes的Spark部署完全指南

本文是在Kubernets上搭建Spark集群的操作指南，同时提供了Spark测试任务及相关的测试数据，通过阅读本文，你可以实践从制作Spark镜像、搭建Spark容器集群，到在集群上运行测试任务的完整流程。由于Spark的运行依赖于数据，我们将配置Spa

BornZhu 2020-05-20

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

Spark SQL(6) OptimizedPlan

在这一步spark sql主要应用一些规则，优化生成的Resolved Plan，这一步涉及到的有Optimizer。之前介绍在sparksession实例化的是会实例化sessionState，进而确定QueryExecution、Analyzer，Op

Hhanwen 2020-07-26

spark 广播变量累加器

你还可以使用 destroy 方法彻底销毁广播变量，调用该方法后，如果计算任务中又用到广播变量，则会抛出异常。　　广播变量在一定数据量范围内可以有效地使作业避免 Shuffle，使计算尽可能本地运行，Spark 的 Map 端连接操作就是用广播变量实现的。

zhixingheyitian 2020-07-19

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作，包括：创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkContext中创建DAGScheduler的代码如下所示：

yanqianglifei 2020-07-07

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 2020-07-05

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 2020-07-05

Notebook Docker 安装spark环境

zhixingheyitian 2020-07-04

Spark Streaming读取Kafka数据两种方式

Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那些数据。在提交Spark Streaming任务后，Spark集群会划出指定的Receivers来专门、持续不

rongwenbin 2020-06-15

Apache Spark有哪些局限性

Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题，并且如今非常流行。但工业正在转移朝向apache flink。Apache Spark是为快速计算而设计的开源，闪电般快速的集群计算框架。Apac

sxyhetao 2020-06-12

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能。经 EMRFS S3 优化的提交程序是一款新的输出提交程序，可用于Amazon EMR5.19.0 及更高版本的Apache Spar

hovermenu 2020-06-10

spark考试

零，第0章-课程介绍。大数据的基本概念、关键技术和代表性软件。介绍Scala语言基础语法。Spark简介、运行架构、RDD的设计与运行原理、部署模式。Spark的基本安装方法，如何在spark-shell中运行代码以及如何开发Spark独立应用程序。RDD

Oeljeklaus 2020-06-10

今天的收获

直接用jar包方便许多。编程似乎在不断完善，没有人知道未来是啥。因为map和reduce不够用。scala编写代码比java精简。sbt相对于scala来说就相当于 maven对java差不多。

zhixingheyitian 2020-06-08

Mr与spark的shuffle过程详解及对比

大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主要介绍mapReducehe和Spark两者的shuffle过程。Map

Johnson0 2020-06-08

spark的编译

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -Phive -Phive-thriftserver -Pyarn -DskipTests clean package. 我们可以使用Spark源

zhixingheyitian 2020-06-01

Spark分区

在Spark中，RDD是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。图一中，RDD1包含了5个Partition，RDD2包含了3个Partition，这

Hhanwen 2020-05-29

Spark GraphX企业运用

Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可以图的形式来表示。边的表示用 RDD[E

zhixingheyitian 2020-05-29

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 2020-05-29

安科网

Centos7安装Spark2.4

yanqianglifei

准备

本地模式

Standalone模式

Yarn模式

yanqianglifei

相关推荐

入门大数据---Spark开发环境搭建

Apache Spark

来看看基于Kubernetes的Spark部署完全指南

spark系列之基本概念

Spark SQL(6) OptimizedPlan

spark 广播变量累加器

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

Spark DAG 依赖关系 Stage

Spark RDD

Notebook Docker 安装spark环境

Spark Streaming读取Kafka数据两种方式

Apache Spark有哪些局限性

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

spark考试

今天的收获

Mr与spark的shuffle过程详解及对比

spark的编译

Spark分区

Spark GraphX企业运用

spark企业运用

yanqianglifei