spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

Hhanwen

2020-05-04

一、共性

1.1、RDD

从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。关于RDD的详细介绍可以参考这篇文章：https://www.cnblogs.com/xiexiandong/p/12817807.html。

下面是使用 RDD 的场景和常见案例：

数据集进行最基本的转换、处理和控制；
数据是非结构化的，比如流媒体或者字符流；
通过函数式编程而不是特定领域内的表达来处理你的数据；
不希望像进行列式处理一样定义一个模式，通过名字或字段来处理或访问数据属性；
不在意通过 DataFrame 和 Dataset 进行结构化和半结构化数据处理所能获得的一些优化和性能上的好处；

1.2、DataFrame、DataSet

与 RDD 相似，Dataset 和 DataFrame 也是数据的一个不可变分布式集合。但与 RDD 不同的是，数据都被组织到有名字的列中，就像关系型数据库中的表一样。设计 DataFrame 的目的就是要让对大型数据集的处理变得更简单，它让开发者可以为分布式的数据集指定一个模式，进行更高层次的抽象。它提供了特定领域内专用的 API 来处理你的分布式数据，并让更多的人可以更方便地使用 Spark，而不仅限于专业的数据工程师。
从 Spark 2.0 开始，Dataset 开始具有两种不同类型的 API 特征：有明确类型的 API 和无类型的 API。从概念上来说，你可以把 DataFrame 当作一些通用对象 Dataset[Row] 的集合的一个别名，而一行就是一个通用的无类型的 JVM 对象。与之形成对比，Dataset 就是一些有明确类型定义的 JVM 对象的集合，通过你在 Scala 中定义的 Case Class 或者 Java 中的 Class 来指定。

1.3、共性

RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利；
三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action，如foreach时，三者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过；
三者都可以缓存运算；
三者都有partition的；
三者有许多共同的函数，如filter，排序等；
在对DataFrame和Dataset进行操作许多操作都需要这个包进行支持；
1. ```
import spark.implicits._ // //这里的spark是SparkSession的变量名
```

DataFrame和Dataset均可使用模式匹配获取各个字段的值和类型

DataFrame：

testDF map {
      case Row(col1:String,col2:Int)=>
        println(col1);println(col2)
        col1
      case _=>  // 为了提高稳健性，最好后面有一个_通配操作（匹配所有）
        ""
}

DataSet：

case class Coltest(col1:String,col2:Int) //定义字段名和类型
testDS map {
  case Coltest(col1:String,col2:Int)=>
    println(col1);println(col2)
    col1
  case _=>
    ""
}

二、区别

DataFrame：

与RDD和Dataset不同，DataFrame每一行的类型固定为Row，只有通过解析才能获取各个字段的值（getAs），如
- ```
testDF.foreach{
line =>
val col1=line.getAs[String]("col1")
val col2=line.getAs[String]("col2")
}
```
- 每一列的值没法直接访问
RDD不支持sparksql操作，DataFrame与Dataset均支持spark-sql的操作，比如select，groupby之类，还能注册临时表/视窗，进行sql语句操作，如
- ```
dataDF.createOrReplaceTempView("tmp")
spark.sql("select ROW,DATE from tmp where DATE is not null order by DATE").show(100,false)
```

DataFrame与Dataset支持一些特别方便的保存方式，比如保存成csv，可以带上表头，这样每一列的字段名一目了然

//保存
val saveoptions = Map("header" -> "true", "delimiter" -> "\t", "path" -> "hdfs://172.xx.xx.xx:9000/test")
datawDF.write.format("com.databricks.spark.csv").mode(SaveMode.Overwrite).options(saveoptions).save()
//读取
val options = Map("header" -> "true", "delimiter" -> "\t", "path" -> "hdfs://172.xx.xx.xx:9000/test")
val datarDF= spark.read.options(options).format("com.databricks.spark.csv").load()
// 利用这样的保存方式，可以方便的获得字段名和列的对应，而且分隔符（delimiter）可以自由指定

Dataset:

这里主要对比Dataset和DataFrame，因为Dataset和DataFrame拥有完全相同的成员函数，区别只是每一行的数据类型可以不同
DataFrame也可以叫Dataset[Row],每一行的类型是Row，不解析，每一行究竟有哪些字段，各个字段又是什么类型都无从得知，只能用上面提到的getAS方法或者共性中的第七条提到的模式匹配拿出特定字段
而Dataset中，每一行是什么类型是不一定的，在自定义了case class之后可以很自由的获得每一行的信息

case class Coltest(name: String, col2: Int)

//定义字段名和类型
/**
  * rdd
  * ("a", 1)
  * ("b", 1)
  * ("a", 1)
  **/
val test: Dataset[Coltest] = rdd map {
  line =>
  Coltest (line._1, line._2)
}.toDS
  test map {
  line =>
  println (line.name)
  println (line.col2)
}

三、三者之间转化

DataFrame/Dataset转RDD：

val rdd1=testDF.rdd
val rdd2=testDS.rdd

RDD转DataFrame：

import spark.implicits._
val testDF = rdd.map {line=>
      (line._1,line._2)
    }.toDF("col1","col2")
// 一般用元组把一行的数据写在一起，然后在toDF中指定字段名

RDD转Dataset：

import spark.implicits._
case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
val testDS = rdd.map {line=>
      Coltest(line._1,line._2)
    }.toDS
// 可以注意到，定义每一行的类型（case class）时，已经给出了字段名和类型，后面只要往case class里面添加值即可

Dataset转DataFrame：

import spark.implicits._
val testDF = testDS.toDF

DataFrame转Dataset：

import spark.implicits._
case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
val testDS = testDF.as[Coltest]

dataframe rdd spark 数据处理

Hhanwen

0 关注 0 粉丝 0 动态

关注关注

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 2020-05-29

Spark RDD转DataFrame

* 导入包，支持把一个RDD隐式转换为DataFrame,

yanqianglifei 2020-04-22

小记--------sparkSQL - spark基础知识

本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系。而其中窄依赖的所有转

Oeljeklaus 2020-04-19

【译】Using .NET for Apache Spark to Analyze Log Data

.NET for Spark可用于处理成批数据、实时流、机器学习和ad-hoc查询。在这篇博客文章中，我们将探讨如何使用.NET for Spark执行一个非常流行的大数据任务，即日志分析。日志分析的目标是从这些日志中获得有关工具或服务的活动和性能的有意义

登峰小蚁 2020-05-11

python 数据分析--数据处理工具Pandas（1）

Pands模块可以帮助数据分析师轻松地解决数据的预处理问题，如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。Pandas模块的核心操作对象就是序列和数据框。序列可以理解为数据集中的一个字段，数据框是指含有至少两个字段（或序列）的数据集。通过同

jzlixiao 2020-04-09

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

秒懂！图解四个实用的Pandas函数！

在用Python进行机器学习或者日常的数据处理中，Pandas是最常用的Python库之一，熟练掌握pandas是每一个数据科学家的必备技能，本文将用代码+图片详解Pandas中的四个实用函数!面对这样的需求我们可以选择自己写一个函数完成，但是使用pand

roamer 2020-10-29

Python CategoricalDtype自定义排序实现原理解析

当我们的透视表生成完毕后，有很多情况下需要我们对某列或某行值进行排序。排序有很多种方法。例如sort_index及sort_values函数也可以对数据进行排序，这里就不多说了。对于数值和字母的排序很容易，但是对于中文的排序就有点麻烦了。然后通过指定参数列

listep 2020-09-11

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

如果说同事或者老板给你一堆这样的数据，你估计会抓狂，该怎么处理呢?第一行和第三行有4个属性，第二行有5个属性。不同行的属性值，并不是对应排列。你可能会想，直接用Excel分裂。Excel分列导致的结果就是：不同的属性，存在于相同的行。放弃Excel那条路之

Tristahong 2020-08-24

高效的10个Pandas函数，你都用过了吗？

andas是python中最主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解20个重要的pandas函数。其中有一些很常用，相信你可能用到过

三石 2020-08-23

高效的10个Pandas函数，你都用过吗？

Pandas是python中比较主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用

QianYanDai 2020-08-16

pandas 的DataFrame.apply()

pandas的apply函数是自动根据function遍历每一个数据，然后返回一个数据结构为Series的结果

mmmjyjy 2020-07-16

python数据挖掘常用工具有哪几种？

python有强大的第三方库，广泛用于数据分析，数据挖掘、机器学习等领域，下面小编整理了python数据挖掘的一些常用库，希望对各位小伙伴学习python数据挖掘有所帮助。能够提供数组支持，进行矢量运算，并且高效地处理函数，线性代数处理等。提供真正的数组，

santiago00 2020-07-11

【Pandas】基本功能

结合自己的经验，我觉得Pandas的本质是类似于Matlab、Eviews之类的数据分析软件。只是其他的被人做成了有UI界面的软件。从Pandas的结构来看，最核心的两个类。其他功能是围绕这两个类进行了功能上的扩展。为了保持学习的趣味性，我觉得按照实际使用

QianYanDai 2020-07-05

【pandas】概述

Pandas是python中运用很广泛的统计分析库，用于各种金融、工业、等等统计分析，适用于各种时间序列和面板数据等。而对应于Pandas库，最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展，因此很多高级的数据计算方

QianYanDai 2020-07-05

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

总公司的某数据以文件形式存放在FTP服务器上，现将其移植到我本地的SQL服务器。#由于informix生成的unl文件为cp936编码，pandas 读取时会对有些汉字报错，所以转为utf-8. #对_tmp.txt 文件读取时，要注意纯数字的格式转换,

jiahaohappy 2020-06-21

pandas基础操作（一）

Pandas基于两种数据类型： series 与 dataframe. DataFrame：是一个二维的表结构。df[[‘code‘]] # 选取一列，生成一个DataFrame. df[1:3] #第1行到第2行。loc，在知道列名字的情况下，df

QianYanDai 2020-06-16

pandas用法总结

with codecs.open as f: for line in f: line_split = line.strip().split items.append

zhangxiaojiakele 2020-05-25

快速比较多种机器学习模型实例

当从事机器学习项目时，所有数据科学家都必须面对的一个问题是：哪种机器学习模型架构比较适合我的数据呢?不幸的是，对于哪种模型比较好，还没有明确的答案。当面对这种不确定性的时候，常用的方法是:实验!在本文中，我将向您展示如何快速测试数据集上的多个模型，以找到可

人家 2020-05-17

安科网

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

Hhanwen

一、共性

1.1、RDD

1.2、DataFrame、DataSet

1.3、共性

二、区别

三、三者之间转化

Hhanwen

相关推荐

spark系列之基本概念

spark企业运用

Spark RDD转DataFrame

小记--------sparkSQL - spark基础知识

【译】Using .NET for Apache Spark to Analyze Log Data

python 数据分析--数据处理工具Pandas（1）

机器学习新风暴：如何用ML模型预测房价？

秒懂！图解四个实用的Pandas函数！

Python CategoricalDtype自定义排序实现原理解析

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

高效的10个Pandas函数，你都用过了吗？

高效的10个Pandas函数，你都用过吗？

pandas 的DataFrame.apply()

python数据挖掘常用工具有哪几种？

【Pandas】基本功能

【pandas】概述

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

pandas基础操作（一）

pandas用法总结

快速比较多种机器学习模型实例

Hhanwen