Spark DataFrame 的 groupBy vs groupByKey

godspeedlaile

2018-11-08

在使用 Spark SQL 的过程中，经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 groupBy 外，还有一个 groupByKey（注意RDD 也有一个 groupByKey，而这里的 groupByKey 是 DataFrame 的 ）。这个 groupByKey 引起了我的好奇，那我们就到源码里面一探究竟吧。

所用 spark 版本：spark 2.1.0

先从使用的角度来说，

groupBy：groupBy类似于传统SQL语言中的group by子语句，但比较不同的是groupBy()可以带多个列名，对多个列进行group。比如想根据 "id" 和 "name" 进行 groupBy 的话可以

df.goupBy("id","name")

groupBy返回的类型是RelationalGroupedDataset。

groupByKey：groupByKey则更加灵活，可以根据用户自己对列的组合来进行groupBy，比如上面的那个例子，根据 "id" 和 "name" 进行 groupBy，使用groupByKey可以这样。

//同前面的goupBy效果是一样的，但返回的类型是不一样的
df..toDF("id","name").goupByKey(row =&gt;{
 row.getString(0) + row.getString(1)
})

但和groupBy不同的是groupByKey返回的类型是KeyValueGroupedDataset。

下面来看看这两个方法的实现有何区别。

groupBy

def groupBy(cols: Column*): RelationalGroupedDataset = {
 RelationalGroupedDataset(toDF(), cols.map(_.expr), RelationalGroupedDataset.GroupByType)
 }

最终会去新建一个RelationalGroupedDataset，而这个方法提供count()，max()，agg()，等方法。值得一提的是，这个类在spark1.x的时候类名为“GroupedData”。看看类中的注释吧

/**
 * A set of methods for aggregations on a `DataFrame`, created by `Dataset.groupBy`.
 *
 * The main method is the agg function, which has multiple variants. This class also contains
 * convenience some first order statistics such as mean, sum for convenience.
 *
 * This class was named `GroupedData` in Spark 1.x.
 *
 * @since 2.0.0
 */
@InterfaceStability.Stable
class RelationalGroupedDataset protected[sql](

groupByKey

@Experimental
 @InterfaceStability.Evolving
 def groupByKey[K: Encoder](func: T =&gt; K): KeyValueGroupedDataset[K, T] = {
 val inputPlan = logicalPlan
 val withGroupingKey = AppendColumns(func, inputPlan)
 val executed = sparkSession.sessionState.executePlan(withGroupingKey)
 new KeyValueGroupedDataset(
 encoderFor[K],
 encoderFor[T],
 executed,
 inputPlan.output,
 withGroupingKey.newColumns)
 }

可以发现最后生成和返回的类是KeyValueGroupedDataset。这是dataset的子类，表示聚合过之后的dataset。

我们再看看这个类中的注释吧

/**
 * :: Experimental ::
 * A [[Dataset]] has been logically grouped by a user specified grouping key. Users should not
 * construct a [[KeyValueGroupedDataset]] directly, but should instead call `groupByKey` on
 * an existing [[Dataset]].
 *
 * @since 2.0.0
 */
@Experimental
@InterfaceStability.Evolving
class KeyValueGroupedDataset[K, V] private[sql](

可以发现 groupByKey 还处于实验阶段。它是希望可以由用户自己来实现 groupBy 的规则，而不像 groupBy() 一样，需要被列属性所束缚。

通过 groupByKey 用户可以按照自己的需求来进行 grouping 。

总而言之，groupByKey虽然提供了更加灵活的处理 grouping 的方式，但 groupByKey 后返回的类是 KeyValueGroupedDataset ，它里面所提供的操作接口也不如 groupBy 返回的 RelationalGroupedDataset 所提供的接口丰富。除非真的有一些特殊的 grouping 操作，否则还是使用 groupBy 吧。

Spark DataFrame 的 groupBy vs groupByKey

dataframe spark

安科网

Spark DataFrame 的 groupBy vs groupByKey

godspeedlaile

godspeedlaile

相关推荐

spark系列之基本概念

spark企业运用

【译】Using .NET for Apache Spark to Analyze Log Data

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

Spark RDD转DataFrame

小记--------sparkSQL - spark基础知识

机器学习新风暴：如何用ML模型预测房价？

秒懂！图解四个实用的Pandas函数！

Python CategoricalDtype自定义排序实现原理解析

领导给了一堆无序杂乱的数据，我写了个Python自动化脚本

高效的10个Pandas函数，你都用过了吗？

高效的10个Pandas函数，你都用过吗？

pandas 的DataFrame.apply()

python数据挖掘常用工具有哪几种？

【Pandas】基本功能

【pandas】概述

使用PYODBC将数据从Pandas的DataFrame写入SQL Server

pandas基础操作（一）

pandas用法总结

快速比较多种机器学习模型实例

godspeedlaile