DataFrame的理解

一个心理学实践者的旅程

2018-03-11

关注关注

DataFrame不是Spark SQL提出，而是在Pandas就有

DataSet：分布式的数据集

DataFrame：以列的形式构成的分布式数据集（RDD with schema）

可以从各种source转换成，如RDD、SQL、noSQL等

做了抽象的处理

DataFrame对比RDD

DataFrame有具体的列信息

运行效率上：

RDD：java/scala => jvm

Python 自己的运行环境

DataFrame：无论哪种语言都是同一个logic plan

DataFrame 的 API：

printschema() 输出一个树形结构

show() 输出内容。括号内可限制输出的条数

Select(COLUMN_NAME) 查询某一列所有的数据

综合应用：

peopleDF.select(peopleDF.col("name"), (peopleDF.col("age") + 5).as("age after 5 years")).show()

查找两列，并对其中一列进行运算后，更改其列名

过滤：

filter()

peopleDF.filter(peopleDF.col("age") > 24).show()

分组：

groupBy()

peopleDF.groupBy("age").count().show()

转成临时视图（进行SQL操作）：

createOrReplaceTempView() 即可转成sql API进行操作

DataFrame 与 RDD 的相互操作：

两种

都是要首先导入SparkSession，作为入口

val spark = SparkSession.builder().appName("DataFrameRDD").master("local[2]").getOrCreate()

第一种：反射

代码简洁，前提是需要知道schema的构成

借助case class，在这个类里定义好schema对应的字段

创建case class，根据schema来写
生成RDD，借助SparkContext的textFile，获取文件然后转成RDD，String类型
导入Spark.Implicits._ 隐式转换包
分割RDD，split方法，分割后变成String数组，并和case class相对应起来（也就是把对应的变量传入class中，记得传入前进行类型转换）
toDF方法生成DataFrame

代码：

//定义case class

case class Info(id: Int, name: String, age: Int) {}

//生成RDD

val rdd = spark.sparkContext.textFile("file:////usr/local/mycode/info.txt")

//切割，分类，转换

val infoDF = rdd.map(_.split(",")).map(line => Info(line(0).toInt, line(1), line(2).toInt)).toDF()

ps：若分隔符是|或者其他，有可能要加上转义字符\\

第二种：直接构建Dataset

不知道schema的条件下使用

先转成Rows，结合StructType，代码量大一点

生成RDD
分割RDD，和第一种方法的第4步一样，然后转换成RowsRDD
定义StructType，用一个数组Array来定义，每个变量的Type用StructField来定义
用createDataFrame方法关联RDD和StructType

代码：

//生成RDD

val rdd = spark.sparkContext.textFile("file:////usr/local/mycode/info.txt")

//分割，转成rowRDD

val rowRdd = rdd.map(_.split(",")).map(line => Row(line(0).toInt, line(1), line(2).toInt))

//定义StructType

val structType = StructType(Array(StructField("id", IntegerType,true),

StructField("name", StringType, true),

StructField("age", IntegerType,true)))

//关联rowRDD和StructType

val infoDF = spark.createDataFrame(rowRdd, structType)

DataFrame API详细：

Show方法：

默认只显示前20条，可指定更大

若信息太多，默认截取显示一部分，设置成false的话就不截取了

take方法：

take() 返回前面n行记录

take().foreach 分行显示

first、head方法：

头几行

select方法：

可以选择多列

filter方法：

条件里可以加其他字段，比如说substring，可搜索行值中某几个字符等于指定值的行

studentDF.filter("substr(name, 0, 1) = 'M'").show

sort方法：

有desc排序

studentDF.sort(studentDF.col("name").desc, studentDF.col("id").desc).show

As方法：

studentDF.select(studentDF.col("name").as("studentName")).show

Join方法：

studentDF.join(studentDF2, studentDF.col("id") === studentDF2.col("id”))

判断相等时用三个=号

Dataset：

初次出现在1.6版本有Spark SQL优化能使用lambda表达式，但不能用python语言使用Dataset的API

DF = DS[Row]

DS 强类型 typed case class

DF：弱类型 Row

读取csv文件变成DataFrame的方法：

val salesDF = spark.read.option("header", "true").option("inferSchema", "true”).csv(path)

header是指解析头文件，这样能知道列名

inferSchema是获取每一列的属性

DF转DS的方法：

创建case class
as方法

val salesDS = salesDF.as[Sales]

case class Sales(transactionId: Int, customerId: Int, itemId: Int, amountPaid: Double)

选择某列输出：

salesDS.map(line => line.itemId).show()

SQL、DF、DS的区别

报错的时机不同，DS最敏感，能够更早发现错误，即使列名写错了也会马上发现

（编译时，SQL是命令和列名写错都不会报错；DF命令写错会报错，但列名写错不会报错。前面不报错的情况会在运行时报错）

dataframe rdd

一个心理学实践者的旅程

0 关注 0 粉丝 0 动态

关注关注

spark系列之基本概念

　　RDD是对象的分布式集合。　　RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树，当RDD的一个分区丢失，可以根据祖先树重建该分区。　　RDD有两组操作，转换和行动，RDD转换是有惰性的，宽窄依赖。　　SparkSession是读取数据、处理元

Johnson0 2020-07-28

spark企业运用

========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。统一的数据访问方式，Spa

Oeljeklaus 2020-05-29

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说，一个 RDD 就是你的数据的一个不可变的分布式元素集合，在集群中跨节点分布，可以通过若干提供了转换和处理的底层 API 进行并行处理。但与 RDD 不同的是，数据都被组织到有名

Hhanwen 2020-05-04

Spark RDD转DataFrame

* 导入包，支持把一个RDD隐式转换为DataFrame,

yanqianglifei 2020-04-22

小记--------sparkSQL - spark基础知识

本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系。而其中窄依赖的所有转

Oeljeklaus 2020-04-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

秒懂！图解四个实用的Pandas函数！

在用Python进行机器学习或者日常的数据处理中，Pandas是最常用的Python库之一，熟练掌握pandas是每一个数据科学家的必备技能，本文将用代码+图片详解Pandas中的四个实用函数!面对这样的需求我们可以选择自己写一个函数完成，但是使用pand

roamer 2020-10-29

Python CategoricalDtype自定义排序实现原理解析

当我们的透视表生成完毕后，有很多情况下需要我们对某列或某行值进行排序。排序有很多种方法。例如sort_index及sort_values函数也可以对数据进行排序，这里就不多说了。对于数值和字母的排序很容易，但是对于中文的排序就有点麻烦了。然后通过指定参数列

listep 2020-09-11

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

如果说同事或者老板给你一堆这样的数据，你估计会抓狂，该怎么处理呢?第一行和第三行有4个属性，第二行有5个属性。不同行的属性值，并不是对应排列。你可能会想，直接用Excel分裂。Excel分列导致的结果就是：不同的属性，存在于相同的行。放弃Excel那条路之

Tristahong 2020-08-24

高效的10个Pandas函数，你都用过了吗？

andas是python中最主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解20个重要的pandas函数。其中有一些很常用，相信你可能用到过

三石 2020-08-23

高效的10个Pandas函数，你都用过吗？

Pandas是python中比较主要的数据分析库之一，它提供了非常多的函数、方法，可以高效地处理并分析数据。让pandas如此受欢迎的原因是它简洁、灵活、功能强大的语法。这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用

QianYanDai 2020-08-16

pandas 的DataFrame.apply()

pandas的apply函数是自动根据function遍历每一个数据，然后返回一个数据结构为Series的结果

mmmjyjy 2020-07-16

python数据挖掘常用工具有哪几种？

python有强大的第三方库，广泛用于数据分析，数据挖掘、机器学习等领域，下面小编整理了python数据挖掘的一些常用库，希望对各位小伙伴学习python数据挖掘有所帮助。能够提供数组支持，进行矢量运算，并且高效地处理函数，线性代数处理等。提供真正的数组，

santiago00 2020-07-11

【Pandas】基本功能

结合自己的经验，我觉得Pandas的本质是类似于Matlab、Eviews之类的数据分析软件。只是其他的被人做成了有UI界面的软件。从Pandas的结构来看，最核心的两个类。其他功能是围绕这两个类进行了功能上的扩展。为了保持学习的趣味性，我觉得按照实际使用

QianYanDai 2020-07-05

【pandas】概述

Pandas是python中运用很广泛的统计分析库，用于各种金融、工业、等等统计分析，适用于各种时间序列和面板数据等。而对应于Pandas库，最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展，因此很多高级的数据计算方

QianYanDai 2020-07-05

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

总公司的某数据以文件形式存放在FTP服务器上，现将其移植到我本地的SQL服务器。#由于informix生成的unl文件为cp936编码，pandas 读取时会对有些汉字报错，所以转为utf-8. #对_tmp.txt 文件读取时，要注意纯数字的格式转换,

jiahaohappy 2020-06-21

pandas基础操作（一）

Pandas基于两种数据类型： series 与 dataframe. DataFrame：是一个二维的表结构。df[[‘code‘]] # 选取一列，生成一个DataFrame. df[1:3] #第1行到第2行。loc，在知道列名字的情况下，df

QianYanDai 2020-06-16

pandas用法总结

with codecs.open as f: for line in f: line_split = line.strip().split items.append

zhangxiaojiakele 2020-05-25

快速比较多种机器学习模型实例

当从事机器学习项目时，所有数据科学家都必须面对的一个问题是：哪种机器学习模型架构比较适合我的数据呢?不幸的是，对于哪种模型比较好，还没有明确的答案。当面对这种不确定性的时候，常用的方法是:实验!在本文中，我将向您展示如何快速测试数据集上的多个模型，以找到可

人家 2020-05-17

使用pandas库对csv文件进行筛选和保存

多数大佬都是直接pandas官网甩我脸上，然后举一个入门级的例子。这个函数里面需要写入csv文件的路径，如果是把csv文件保存到了python的工程文件夹下，则只需要./文件名即可，然后encoding=‘utf-8‘是使用utf-8方式编码，有时候需要换

jzlixiao 2020-05-15

安科网

DataFrame的理解

一个心理学实践者的旅程

一个心理学实践者的旅程

相关推荐

spark系列之基本概念

spark企业运用

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

Spark RDD转DataFrame

小记--------sparkSQL - spark基础知识

机器学习新风暴：如何用ML模型预测房价？

秒懂！图解四个实用的Pandas函数！

Python CategoricalDtype自定义排序实现原理解析

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

高效的10个Pandas函数，你都用过了吗？

高效的10个Pandas函数，你都用过吗？

pandas 的DataFrame.apply()

python数据挖掘常用工具有哪几种？

【Pandas】基本功能

【pandas】概述

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

pandas基础操作（一）

pandas用法总结

快速比较多种机器学习模型实例

使用pandas库对csv文件进行筛选和保存

一个心理学实践者的旅程