尚硅谷大数据Spark-2019版最新

第一章:

四.Local模式

仅仅本机运行

Local[k]代表有几个线程在跑

Local[*]代表跑满

五.spark使用

1.bin/spark-submit 参数,可以用来提交任务

参数如下

--master 指定Master的地址,默认为Local
--class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)
--deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)*
--conf: 任意的Spark配置属性, 格式key=value. 如果值包含空格,可以加引号“key=value” 
application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。 比如hdfs:// 共享存储系统, 如果是 file:// path, 那么所有的节点的path都包含同样的jar
application-arguments: 传给main()方法的参数
--executor-memory 1G 指定每个executor可用内存为1G
--total-executor-cores 2 指定每个executor使用的cup核数为2个

执行如下

bin/spark-submit --class org.apache.spark.examples.SparkPi --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.1.jar 100

2.bin/spark-shell,进入命令行环境,默认很多东西会创建好,比如sc变量

jsp命令查看java运行的程序

spark-shell提示的,网址,比如hadoop102:4040,是查看网页版的程序运行状态器,即Spark Jobs

yarn application -list,查看应用id

六.WordCount程序

1.load

2.flat

3.group

4.聚合

5.打印

相关推荐