Spark安装部署
spark单节点local安装:
1.解压包:
scala-2.10.4.tgz
scala-intellij-bin-0.38.437.zip
spark-0.9.1-bin-hadoop1.tgz
2.配置/etc/profile
3.直接输入scala如果进入scala界面表示安装成功
4.如果是集群就要配置/etc/hosts
5.到spark/conf下面配置spark-env.sh
export JAVA_HOME=/usr/java/jdk1.6.0_32
export SPARK_MASTER_IP=127.0.0.1(配置hosts中配置的主机名)
export SPARK_MASTER_PORT=8888
export SPARK_MASTER_MEMORY=128M
export SPARK_WORKER_CORES=1
6.到sbin目录启动./start-all.sh
spark分布式集群Standalone安装:
1.app/mkdir spark
2.解压3个文件
Zip:unzip 文件名
Tar:tar –xvf文件名
3.到spark下的conf目录
4.mv spark-env.sh.template spark-env.sh
5.vi spark-env.sh
export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4
export JAVA_HOME=/home/hadoop/java/jdk1.7.0_17
export SPARK_MASTER_IP=hbase01
export SPARK_WORKER_INSTANCES=3
export SPARK_MASTER_PORT=8070
export SPARK_MASTER_WEBUI_PORT=8090
export SPARK_WORKER_PORT=8092
export SPARK_WORKER_MEMORY=500m
6.vi slaves添加内容如下:
hbase01
hbase02
hbase03
7.vi /etc/profile ,添加内容如下:
export SPARK_HOME=/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1
export PATH=$SPARK_HOME/bin:$PATH
8.source /etc/profile
9.各个节点间复制:
sudo scp -r /home/hadoop/app/spark [email protected]:/home/hadoop/app/
10.到spark/sbin/start-all.sh
11.启动web界面:
http://hbase01:8090/
12.配置scala环境变量
export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
单词统计代码:
val textFile = sc.textFile("/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1/README.md") textFile.count() textFile.filter(line => line.contains("Spark")).count()
spark-streaming代码:
// 创建StreamingContext,1秒一个批次。 //第一个参数是指定Spark Streaming运行的集群地址 val ssc = new StreamingContext(“Spark://…”, Seconds(1)); // 获得一个DStream负责连接 监听端口:地址 val lines = ssc.socketTextStream(serverIP, serverPort); // 对每一行数据执行Split操作 val words = lines.flatMap(_.split(" ")); // 统计word的数量 val pairs = words.map(word => (word, 1)); val wordCounts = pairs.reduceByKey(_ + _); // 输出结果 wordCounts.svaeastextfile; ssc.start(); // 开始 ssc.awaitTermination(); // 计算完毕退出