spark基本面试题

Johnson0

2020-02-01

一、spark基本常识

1、spark中的RDD是什么，有哪些特性？

??RDD（Resilient Distributed Dataset）叫做分布式数据集模式spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合。
??Resilient：表示弹性的，弹性表示
??Destributed：分布式，可以并行在集群计算
??Dataset：就是一个集合，用于存放数据的
五大特性：
??1）一个分区列表，RDD中的数据都存储在一个分区列表中
??2）作用在每一个分区列表中的函数。
??3）一个RDD依赖于其他多个RDD，RDD的容错机制就是根据这个特性而来的。
??4）可选的，针对于kv类型的RDD才有这个特性，作用是决定了数据的来源及数据处理后的去向。
??5）可选项，数据本地性，数据位置最优。

2、概述一下spark中常用算子区别（map，mapPartitions， foreach， foreachPartition）

??map：用于遍历RDD，将函数应用的每一个元素，返回新的RDD（transformation算子）
??mapPartitions：用于遍历RDD的每一个分区，返回生成一个新的??RDD（transformation算子）
??foreach：用于遍历RDD，将函数应用于每一个元素，无返回值（action算子）
??foreachPartition：用于遍历操作RDD中的每一个分区，无返回值（action算子）
??追述：一般使用mapPatitions和foreachPatition算子比map和foreach更加高效，推荐使用

二、spark要点

1、Spark shuffle时，是否会在磁盘上存储？

??会

spark rdd 遍历数据处理

安科网

spark基本面试题

Johnson0

一、spark基本常识

1、spark中的RDD是什么，有哪些特性？

2、概述一下spark中常用算子区别（map，mapPartitions， foreach， foreachPartition）

二、spark要点

1、Spark shuffle时，是否会在磁盘上存储？

Johnson0

相关推荐

spark系列之基本概念

Spark DAG 依赖关系 Stage

Spark RDD

Spark GraphX企业运用

spark企业运用

Spark Streaming企业运用

Spark RDD编程双Value类型交互

Spark原始码系列（五）分布式缓存

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

spark工作原理

Spark RDD转DataFrame

小记--------sparkSQL - spark基础知识

Spark Streaming读取Kafka数据两种方式

Apache Spark有哪些局限性

Mr与spark的shuffle过程详解及对比

Spark分区

spark 任务提交参数

Spark 数据分析调优（一）

【译】Using .NET for Apache Spark to Analyze Log Data

spark streaming 读取kafka两种方式的区别

Johnson0