Spark RDD

adayan0

2020-07-05

RDD概述

RDD：弹性分布式数据集，初学时，可以把RDD看做是一种集合类型（和Array，List类比）

RDD的特点：

①有容错性，即数据丢失是可以恢复的

②有分区机制，可以并行的处理RDD数据

创建RDD的2种方式：

①将一个普通的集合类型(Array或List)

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

RDD的分区机制目的：可以分布式的计算RDD的数据集，底层可以确保分区数据的负载均衡状态

Spark RDD

Spark RDD

Spark单机模式启动

在bin目录下执行：sh spark-shell --master=local

1.sc是SparkContext的别名对象，用于操作spark的入口对象，通过sc可以创建RDD，广播变量，此外sc用于负载job任务的分配和监控

2.创建RDD的方法：

①sc.parallelize(普通集合，分区数量)

②sc.makeRDD(普通集合，分区数量)

3.关于RDD分区的相关方法

①rdd.partitions.size 查看分区数量

②rdd.glom.collect 查看分区数据

4.创建RDD的两种途径：

①将一个普通集合转变为RDD

②读取外部文件，转变为RDD ：

方法： sc.textFile(路径，分区数)

补充：file:// 本地文件协议 => sc.textFile("file:///home/words.txt",2)

　hdfs://HDFS文件系统协议 => sc.textFile("hdfs://hadoop101:9000/words.txt",2)

RDD的操作函数

两类操作：

1.Transformation 变换操作：都是懒方法，即调用之后并没有马上执行

1.Action 执行操作：触发执行

案例：通过rdd实现统计文件中的单词数量，并输出到文件系统
本地：sc.textFile("/root/work/words.txt").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).saveAsTextFile("/root/work/wcresult")

hdfs:
val rdd = sc.textFile("hdfs://hadoop101:9000/words.txt",2)
val result = rdd.flatMap(_.split("")).map((_,1)).reduceByKey(_+_)
result.saveAsTextFile("hdfs://hadoop101:9000/wordresult")

Spark RDD

rdd spark hdfs 数据处理

adayan0

0 关注 0 粉丝 0 动态

相关推荐

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 2020-07-05

Spark GraphX企业运用

Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可以图的形式来表示。边的表示用 RDD[E

zhixingheyitian 2020-05-29

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 2020-05-29

Spark Streaming企业运用

========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。kafka、flume、HDFS

Hhanwen 2020-05-29

Spark RDD编程双Value类型交互

所谓双Value，就是两个数据集RDD之间进行操作。1 union：对源RDD和参数RDD合并后返回一个新的RDD，不会去重。2subtract：计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来。5zip：将两个RDD组合成Key/Va

zhixingheyitian 2020-05-28

Spark原始码系列（五）分布式缓存

BlockManager与BlockManagerMaster的关系是什么？这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。def persist: this.type = { // StorageLevel不能随意更改 if

粗茶淡饭 2020-05-27

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。但与 RDD 不同的是，数据都被组织到有名

Hhanwen 2020-05-04

spark工作原理

它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。即如果某个节点上的RDD partition，因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该partition。

Hhanwen 2020-05-03

Spark RDD转DataFrame

* 导入包，支持把一个RDD隐式转换为DataFrame,

yanqianglifei 2020-04-22

小记--------sparkSQL - spark基础知识

本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系。而其中窄依赖的所有转

Oeljeklaus 2020-04-19

Spark基础全解析

RDD是Spark最基本的数据结构。RDD表示已被分区、不可变的，并能够被并行操作的数据集合。

adayan0 2020-03-01

Spark RDD基本概念、宽窄依赖、转换行为操作

本文介绍一下rdd的基本属性概念、rdd的转换/行动操作、rdd的宽/窄依赖。RDD表示可以并行操作的元素的不变分区集合。RDD提供了许多基本的函数供我们进行数据处理。RDD的计算是以分区为单位进行的。分区器针对键值型RDD而言的，将key传入分区器获取唯

yanqianglifei 2020-02-22

pyspark combineByKey的理解

　　乍一看，感觉有些难理解，我们来一起探索下！

Oeljeklaus 2020-03-03

Spark之RDD本质

并且比Java中的装饰器来的更彻底，借助Scala的抽象控制特性，这一系列RDD不代表任何实际数据，也不负责装载数据，描述的是纯粹的逻辑抽象DAG，只有调用了尾函数后才会触发逻辑DAG的执行。

yanqianglifei 2020-02-20

大数据技术学习之Spark技术总结

　　Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小。RDD也是Spark非常核心的东西，它表示已被分区，不可变的并能够被并

Kwong 2020-02-20

spark基本面试题

RDD叫做分布式数据集模式spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合。Resilient：表示弹性的，弹性表示。3）一个RDD依赖于其他多个RDD，RDD的容错机制就是根据这个特性而来的。4）可选的，针对于kv类型

Johnson0 2020-02-01

小记--------spark-job触发流程源码分析

val lines = sc.textFile//详解见代码1. val pairs = words.map//同样也是返回一个MapPartitionsRDD. * Read a text file from HDFS, a local file sys

hell0kitty 2020-01-25

Spark原理及关键技术点

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。

Oeljeklaus 2019-12-26

Spark RDD计算每天各省的top3热门广告

// 6.将同一个省份的所有广告进行聚合

adayan0 2019-12-19

adayan0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号