Spark安装部署

 spark单节点local安装:

 1.解压包:

scala-2.10.4.tgz

scala-intellij-bin-0.38.437.zip

spark-0.9.1-bin-hadoop1.tgz

2.配置/etc/profile

3.直接输入scala如果进入scala界面表示安装成功

4.如果是集群就要配置/etc/hosts

5.到spark/conf下面配置spark-env.sh

export JAVA_HOME=/usr/java/jdk1.6.0_32

export SPARK_MASTER_IP=127.0.0.1(配置hosts中配置的主机名)

export SPARK_MASTER_PORT=8888

export SPARK_MASTER_MEMORY=128M

export SPARK_WORKER_CORES=1

6.到sbin目录启动./start-all.sh

spark分布式集群Standalone安装:

1.app/mkdir spark

2.解压3个文件

Zip:unzip  文件名

Tar:tar –xvf文件名

3.到spark下的conf目录

4.mv spark-env.sh.template spark-env.sh

5.vi spark-env.sh

export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4

export JAVA_HOME=/home/hadoop/java/jdk1.7.0_17

export SPARK_MASTER_IP=hbase01

export SPARK_WORKER_INSTANCES=3

export SPARK_MASTER_PORT=8070

export SPARK_MASTER_WEBUI_PORT=8090

export SPARK_WORKER_PORT=8092

export SPARK_WORKER_MEMORY=500m

6.vi slaves添加内容如下:
hbase01
hbase02
hbase03
7.vi /etc/profile ,添加内容如下:
export SPARK_HOME=/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1
export PATH=$SPARK_HOME/bin:$PATH
8.source /etc/profile
9.各个节点间复制:
sudo scp -r /home/hadoop/app/spark  [email protected]:/home/hadoop/app/
10.到spark/sbin/start-all.sh
11.启动web界面:
http://hbase01:8090/
12.配置scala环境变量
export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH 

 单词统计代码:

val textFile = sc.textFile("/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1/README.md")
textFile.count()
textFile.filter(line => line.contains("Spark")).count()

  

spark-streaming代码:

// 创建StreamingContext,1秒一个批次。
//第一个参数是指定Spark Streaming运行的集群地址
val ssc = new StreamingContext(“Spark://…”, Seconds(1));

// 获得一个DStream负责连接 监听端口:地址
val lines = ssc.socketTextStream(serverIP, serverPort);

// 对每一行数据执行Split操作
val words = lines.flatMap(_.split(" "));

// 统计word的数量 
val pairs = words.map(word => (word, 1)); 
val wordCounts = pairs.reduceByKey(_ + _);

 // 输出结果
 wordCounts.svaeastextfile;
ssc.start(); // 开始 
ssc.awaitTermination(); // 计算完毕退出

相关推荐