Spark应用开发(上)

Spark架构:
关键名词:
master
worker
executor
task
driver
Spark集群启动之后,是主从式架构(master--worker),95%的大数据架构都是主从式
hadoop-yarn:
Yarn:
主节点:resourcemanager管理整个集群的资源
从节点:nodemanager 管理每个服务器的资源
sparkcontext就是sparkcore的程序入口
flatmap = map + flatten

Spark集群:
打包Spark程序:
Spark任务提交:
RDD的创建:Sparkcore:
transformation和action原理:
transformation:map flatmap 相当于是创建新的RDD
action:savaastextfile,count
所有transformation操作具有lazy特性,在遇到action操作之前都不会运行的

Spark等到action出现,再执行transformation其实是Spark自身在做一个最佳的调优,用最高效的顺序来执行所有的transformation(优化)

Spark模式