spark基础知识

GeorgeGuo

2018-07-25

关注关注

spark基础知识

ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架

官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍

Hadoop有两个核心模块，分布式存储模块HDFS和分布式计算模块Mapreduce

spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS

Hadoop的Mapreduce与spark都可以进行数据计算，而相比于Mapreduce，spark的速度更快并且提供的功能更加丰富

SparkCore：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和SparkCore之上的

SparkSQL：提供通过ApacheHive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个RDD，SparkSQL查询被转换为Spark操作。

SparkStreaming：对实时数据流进行处理和控制。SparkStreaming允许程序能够像普通RDD一样处理实时数据

MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。

GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDDAPI，包含控制图、创建子图、访问路径上所有顶点的操作

Spark运行特点：

每个Application获取专属的executor进程，该进程在Application期间一直驻留，并以多线程方式运行Task。这种Application隔离机制是有优势的，无论是从调度角度看（每个Driver调度他自己的任务），还是从运行角度看（来自不同Application的Task运行在不同JVM中），当然这样意味着SparkApplication不能跨应用程序共享数据，除非将数据写入外部存储系统

Spark与资源管理器无关，只要能够获取executor进程，并能保持相互通信就可以了

提交SparkContext的Client应该靠近Worker节点（运行Executor的节点），最好是在同一个Rack里，因为SparkApplication运行过程中SparkContext和Executor之间有大量的信息交换

Task采用了数据本地性和推测执行的优化机制

spark基础知识

https://blog.csdn.net/swing2008/article/details/60869183

支持多种编程语言接口：Java、Scala、Python，许多大公司如IBM等大力支持推广Spark的发展；

介绍了Spark的安装，Sparkshell、RDD、SparkSQL、SparkStreaming等的基本使用。

RDD

RDD记录是的数据的来源，和数据是通过什么方式由原数据转换得来（转换方法）,每一个转换的方式（转换方法）都有所记录下来，所以一个个RDD是有链接关系的。

转换的过程中是不会进行相关运算和数据生成的，只是记录了相关的转换过程信息，当遇到行动方法时就取出RDD中的转换过程从头到尾进行相关的转换运算,这样的可以不保存中间转换结果，而减少数据复制和落盘的操作了

例子：

1.通过读取文件生成一个RDD，RDD记录了转换信息为RDD[readfile]

2.RDD通过过滤得到RDD1，RDD记录了转换信息为RDD[readfile,filter]

3.RDD1通过过滤得到RDD2，RDD记录了转换信息为RDD[readfile,filter,filter2]

4.到运行时，任务就会从文件读取一行行的数据并调用filtert得到新的数据,并将新数据作为filter2的输入，最后得到filter2处理后的数据.

RDD

它是个弹性分布式数据集

弹性:数据是记录了数据是如何生成的，并不是记录了具体的数据，所以具有弹性,转换可以随时加入而不会对数据产生任何影响（数据是行动时才进行数据输入输出的）

分布式:原始数据是存放在分布式系统的，RDD在真实转换过程中数据是分布在和个运行任务的机器中

RDD可以持久化到硬盘或内存当中(因为只是一个描述的信息(数据生成过程的描述信息))，为一个分区的数据集，分区的多少决定了并行计算的粒度；

Spark中存在两种依赖：窄依赖（NarrowDependencies）、宽依赖（WideDependencies）；

窄依赖（NarrowDependencies）：一个父RDD的分区只能被一个子RDD的一个分区使用；

宽依赖（WideDependencies）：多个子RDD的分区依赖于一个父RDD的同一个分区；

DAG图(有向无环图)

GraphX

https://www.cnblogs.com/sharpxiajun/p/5506822.html(Spark)

spark rdd 数据处理

安科网

spark基础知识

GeorgeGuo

GeorgeGuo

相关推荐

spark系列之基本概念

Spark DAG 依赖关系 Stage

Spark RDD

Spark GraphX企业运用

spark企业运用

Spark Streaming企业运用

Spark RDD编程双Value类型交互

Spark原始码系列（五）分布式缓存

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

spark工作原理

Spark RDD转DataFrame

小记--------sparkSQL - spark基础知识

Spark Streaming读取Kafka数据两种方式

Apache Spark有哪些局限性

Mr与spark的shuffle过程详解及对比

Spark分区

spark 任务提交参数

Spark 数据分析调优（一）

【译】Using .NET for Apache Spark to Analyze Log Data

spark streaming 读取kafka两种方式的区别

GeorgeGuo