Apache Spark1.1.0部署与开发环境搭建

datouniao

2016-01-25

Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与MapReduce不同，Spark并不局限于编写map和reduce两个方法，其提供了更为强大的内存计算(in-memory computing)模型，使得用户可以通过编程将数据读取到集群的内存当中，并且可以方便用户快速地重复查询，非常适合用于实现机器学习算法。本文将介绍Apache Spark1.1.0部署与开发环境搭建。

更多Spark相关教程见以下内容：

0. 准备

出于学习目的，本文将Spark部署在虚拟机中，虚拟机选择VMware WorkStation。在虚拟机中，需要安装以下软件：

Spark的开发环境，本文选择Windows7平台，IDE选择IntelliJ IDEA。在Windows中，需要安装以下软件：

IntelliJ IDEA 13.1.4 Community Edition
apache-maven-3.2.3-bin.zip(安装过程比较简单，请读者自行安装)

1. 安装JDK

解压jdk安装包到/usr/lib目录：

1 sudo cp jdk-7u67-linux-x64.gz /usr/lib
2 cd /usr/lib
3 sudo tar -xvzf jdk-7u67-linux-x64.gz
4 sudo gedit /etc/profile

在/etc/profile文件的末尾添加环境变量：

1 export JAVA_HOME=/usr/lib/jdk1.7.0_67
2 export JRE_HOME=/usr/lib/jdk1.7.0_67/jre
3 export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
4 export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

保存并更新/etc/profile：

1 source /etc/profile

测试jdk是否安装成功：

1 java -version

Apache Spark1.1.0部署与开发环境搭建

2. 安装及配置SSH

1 sudo apt-get update
2 sudo apt-get install openssh-server
3 sudo /etc/init.d/ssh start

生成并添加密钥：

1 ssh-keygen -t rsa -P ""  
2 cd /home/hduser/.ssh 
3 cat id_rsa.pub >> authorized_keys

ssh登录：

1 ssh localhost

Apache Spark1.1.0部署与开发环境搭建

3. 安装hadoop2.4.0

采用伪分布模式安装hadoop2.4.0。解压hadoop2.4.0到/usr/local目录：

1 sudo cp hadoop-2.4.0.tar.gz /usr/local/
2 sudo tar -xzvf hadoop-2.4.0.tar.gz

在/etc/profile文件的末尾添加环境变量：

1 export HADOOP_HOME=/usr/local/hadoop-2.4.0
2 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
3 
4 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
5 export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

保存并更新/etc/profile：

1 source /etc/profile

在位于/usr/local/hadoop-2.4.0/etc/hadoop的hadoop-env.sh和yarn-env.sh文件中修改jdk路径：

1 cd /usr/local/hadoop-2.4.0/etc/hadoop
2 sudo gedit hadoop-env.sh
3 sudo gedit yarn-evn.sh

hadoop-env.sh：

Apache Spark1.1.0部署与开发环境搭建

yarn-env.sh：

Apache Spark1.1.0部署与开发环境搭建

修改core-site.xml：

1 sudo gedit core-site.xml

在<configuration></configuration>之间添加：

1 <property>
2   <name>fs.default.name</name>
3   <value>hdfs://localhost:9000</value>
4 </property>
5 
6 <property>
7   <name>hadoop.tmp.dir</name>
8   <value>/app/hadoop/tmp</value>
9 </property>

修改hdfs-site.xml：

1 sudo gedit hdfs-site.xml

在<configuration></configuration>之间添加：

1 <property>
2 <name>dfs.namenode.name.dir</name>
3 <value>/app/hadoop/dfs/nn</value>
4 </property>
5
6 <property>
7 <name>dfs.namenode.data.dir</name>
8 <value>/app/hadoop/dfs/dn</value>
9 </property>
10
11 <property>
12 <name>dfs.replication</name>
13 <value>1</value>
14 </property>

修改yarn-site.xml：

1 sudo gedit yarn-site.xml

在<configuration></configuration>之间添加：

1 <property>
2   <name>mapreduce.framework.name</name>
3   <value>yarn</value>
4 </property>
5 
6 <property>
7   <name>yarn.nodemanager.aux-services</name>
8   <value>mapreduce_shuffle</value>
9 </property>

复制并重命名mapred-site.xml.template为mapred-site.xml：

1 sudo cp mapred-site.xml.template mapred-site.xml
2 sudo gedit mapred-site.xml

在<configuration></configuration>之间添加：

1 <property>
2   <name>mapreduce.jobtracker.address </name>
3   <value>hdfs://localhost:9001</value>
4 </property>

在启动hadoop之前，为防止可能出现无法写入log的问题，记得为/app目录设置权限：

1 sudo mkdir /app
2 sudo chmod -R hduser:hduser /app

格式化hadoop：

1 hadoop namenode -format

启动hdfs和yarn。在开发Spark时，仅需要启动hdfs：

1 sbin/start-dfs.sh  
2 sbin/start-yarn.sh

　　在浏览器中打开地址http://localhost:50070/可以查看hdfs状态信息：

Apache Spark1.1.0部署与开发环境搭建

4. 安装scala

1 sudo cp /home/hduser/Download/scala-2.9.3.tgz /usr/local
2 sudo tar -xvzf scala-2.9.3.tgz

在/etc/profile文件的末尾添加环境变量：

1 export SCALA_HOME=/usr/local/scala-2.9.3
2 export PATH=$SCALA_HOME/bin:$PATH

保存并更新/etc/profile：

1 source /etc/profile

测试scala是否安装成功：

1 scala -version

5. 安装Spark

1 sudo cp spark-1.1.0-bin-hadoop2.4.tgz /usr/local
2 sudo tar -xvzf spark-1.1.0-bin-hadoop2.4.tgz

在/etc/profile文件的末尾添加环境变量：

1 export SPARK_HOME=/usr/local/spark-1.1.0-bin-hadoop2.4
2 export PATH=$SPARK_HOME/bin:$PATH

保存并更新/etc/profile：

1 source /etc/profile

复制并重命名spark-env.sh.template为spark-env.sh：

1 sudo cp spark-env.sh.template spark-env.sh
2 sudo gedit spark-env.sh

在spark-env.sh中添加：

1 export SCALA_HOME=/usr/local/scala-2.9.3
2 export JAVA_HOME=/usr/lib/jdk1.7.0_67
3 export SPARK_MASTER_IP=localhost
4 export SPARK_WORKER_MEMORY=1000m

启动Spark：

1 cd /usr/local/spark-1.1.0-bin-hadoop2.4
2 sbin/start-all.sh

测试Spark是否安装成功：

1 cd /usr/local/spark-1.1.0-bin-hadoop2.4
2 bin/run-example SparkPi

Apache Spark1.1.0部署与开发环境搭建

6. 搭建Spark开发环境

本文开发Spark的IDE推荐IntelliJ IDEA，当然也可以选择Eclipse。在使用IntelliJ IDEA之前，需要安装scala的插件。点击Configure：

Apache Spark1.1.0部署与开发环境搭建

点击Plugins：

Apache Spark1.1.0部署与开发环境搭建

点击Browse repositories...：

Apache Spark1.1.0部署与开发环境搭建

在搜索框内输入scala，选择Scala插件进行安装。由于已经安装了这个插件，下图没有显示安装选项：

Apache Spark1.1.0部署与开发环境搭建

安装完成后，IntelliJ IDEA会要求重启。

apache lib

安科网

Apache Spark1.1.0部署与开发环境搭建

datouniao

datouniao

相关推荐

.NET Core下使用Kafka的方法步骤

解决PHPstudy Apache无法启动的问题【亲测有效】

Web安全：文件解析漏洞

终于有人把Nginx说清楚了，图文详解！

为什么Java仍将是未来的主流语言？

如何使用Apache Web服务器来安装和配置网站？

CentOS 8 Apache 安装后 SSL 重定向提示证书错误

如何使用 Apache Directory Studio 连接 JumpCloud

初学者和专业技术人员使用的十大机器学习软件

每个Java开发人员都应该知道的10大Github仓库

漫话：应用程序被拖慢？罪魁祸首竟然是Log4j！

JSP动态网页开发原理详解

centos8使用Apache httpd2.4.37安装web服务器的步骤详解

Tomcat启动springboot项目war包报错：启动子级时出错的问题

如何通过Apache在本地配置多个虚拟主机

Apache Shiro 反序列化(CVE-2016-4437)复现

Apache Shiro 反序列化(CVE-2016-4437)复现

Apache DolphinScheduler 诞生记

【Shiro】05 自定义Realm认证实现

Web容器Web服务器及常见的Web容器有哪些？

datouniao