Spark API 详解/大白话解释之 RDD、partition、count、collect

Hhanwen

2016-03-15

RDD定义：

任何数据在Spark中都被转换为RDD。

一个RDD可以看成是一个数组

不过是分到各个分区，分布在不同的机器上，可并行处理。

分区的定义：
一个RDD有多个RDD分区
一个RDD分区只在一个机器上
一个机器可有多个RDD分区
http://stackoverflow.com/questions/31359219/relationship-between-rdd-partitions-and-nodes

由数据转换为RDD：

举例：从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中。这个RDD一共9个元素，每个元素含有一个数字

val a = sc.parallelize(1 to 9, 3)

举例：读取本地文件README.md来创建RDD，文件中的每一行就是RDD中的一个元素，分区是2

val b = sc.textFile("README.md",2)

count( )

返回RDD的元素个数

collect( )
返回整个RDD

rdd 数据处理 spark

Hhanwen

0 关注 0 粉丝 0 动态

关注关注

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 2020-07-05

Spark Streaming企业运用

========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。kafka、flume、HDFS

Hhanwen 2020-05-29

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。但与 RDD 不同的是，数据都被组织到有名

Hhanwen 2020-05-04

spark工作原理

它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。

Hhanwen 2020-05-03

Spark基础全解析

RDD是Spark最基本的数据结构。RDD表示已被分区、不可变的，并能够被并行操作的数据集合。

adayan0 2020-03-01

Spark RDD基本概念、宽窄依赖、转换行为操作

本文介绍一下rdd的基本属性概念、rdd的转换/行动操作、rdd的宽/窄依赖。RDD表示可以并行操作的元素的不变分区集合。RDD提供了许多基本的函数供我们进行数据处理。RDD的计算是以分区为单位进行的。分区器针对键值型RDD而言的，将key传入分区器获取唯

yanqianglifei 2020-02-22

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 2020-07-05

Spark GraphX企业运用

Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可以图的形式来表示。边的表示用 RDD[E

zhixingheyitian 2020-05-29

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 2020-05-29

Spark RDD编程双Value类型交互

所谓双Value，就是两个数据集RDD之间进行操作。1 union：对源RDD和参数RDD合并后返回一个新的RDD，不会去重。2subtract：计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来。5zip：将两个RDD组合成Key/Va

zhixingheyitian 2020-05-28

Spark原始码系列（五）分布式缓存

BlockManager与BlockManagerMaster的关系是什么？这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。def persist: this.type = { // StorageLevel不能随意更改 if

粗茶淡饭 2020-05-27

Spark RDD转DataFrame

* 导入包，支持把一个RDD隐式转换为DataFrame,

yanqianglifei 2020-04-22

小记--------sparkSQL - spark基础知识

本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系。而其中窄依赖的所有转

Oeljeklaus 2020-04-19

pyspark combineByKey的理解

　　乍一看，感觉有些难理解，我们来一起探索下！

Oeljeklaus 2020-03-03

Spark之RDD本质

并且比Java中的装饰器来的更彻底，借助Scala的抽象控制特性，这一系列RDD不代表任何实际数据，也不负责装载数据，描述的是纯粹的逻辑抽象DAG，只有调用了尾函数后才会触发逻辑DAG的执行。

yanqianglifei 2020-02-20

大数据技术学习之Spark技术总结

　　Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。RDD也是Spark非常核心的东西，它表示已被分区，不可变的并能够被并

Kwong 2020-02-20

spark基本面试题

RDD叫做分布式数据集模式spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合。Resilient：表示弹性的，弹性表示。3）一个RDD依赖于其他多个RDD，RDD的容错机制就是根据这个特性而来的。4）可选的，针对于kv类型

Johnson0 2020-02-01

小记--------spark-job触发流程源码分析

val lines = sc.textFile//详解见代码1. val pairs = words.map//同样也是返回一个MapPartitionsRDD. * Read a text file from HDFS, a local file sys

hell0kitty 2020-01-25

Spark原理及关键技术点

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。

Oeljeklaus 2019-12-26

安科网

Spark API 详解/大白话解释之 RDD、partition、count、collect

Hhanwen

一个RDD可以看成是一个数组

Hhanwen

相关推荐

spark系列之基本概念

Spark RDD

Spark Streaming企业运用

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

spark工作原理

Spark基础全解析

Spark RDD基本概念、宽窄依赖、转换行为操作

Spark DAG 依赖关系 Stage

Spark GraphX企业运用

spark企业运用

Spark RDD编程双Value类型交互

Spark原始码系列（五）分布式缓存

Spark RDD转DataFrame

小记--------sparkSQL - spark基础知识

pyspark combineByKey的理解

Spark之RDD本质

大数据技术学习之Spark技术总结

spark基本面试题

小记--------spark-job触发流程源码分析

Spark原理及关键技术点

Hhanwen

Spark API 详解/大白话解释 之 RDD、partition、count、collect

一个RDD可以看成是一个数组

相关推荐

Spark API 详解/大白话解释之 RDD、partition、count、collect