PostgreSQL 9.3 自定义聚合函数实现多行数据合并成一列

以前冷现在热

2016-09-27

前言

常见的一种需求，如下图(1)：
PostgreSQL 9.3 自定义聚合函数实现多行数据合并成一列
目前需要按右边的factor_code进行分组，将左边的behavior_code这一列通过指定分隔符连接起来，比如通过<br /> 来连接，理想的效果应当是如下图(2)这样：

下面就来讨论一下实现方式，假如在别的数据库中来实现，例如MySQL或Oracle，好像没有特别方便和直接的方式，同样的在早期的Postgres中也是一件麻烦的事情，下面先看一下Postgres早期版本的解决方案~

postgres 8.x的解决方案

没错，同标题一样，在postgres 8.x的版本中有几种解决办法，可以通过内置的数组函数array_to_string，也可以通过自定义function结合自定义聚合函数来实现，下面先看一下第一种。

array_to_string

通过嵌套子查询的方式来完成，缺点是写法是略微麻烦，而且SQL层次不清晰，效率也不高，下面看一下SQL：

select array_to_string
(array(select behavior_code from t_evaluation_behavior t2 where t1.factor_code = t2.factor_code), '<br />') as behavior_code,
factor_code from t_evaluation_behavior t1 group by factor_code order by factor_code;

运行效果如图(2)一致，接下来再看一下第二种解决方案，通过自定义function结合自定义聚合函数来实现。

创建自定义聚合函数（CREATE AGGREGATE）

这种方式使用简便，就是第一次写起来略微麻烦一点。思路和上一种一致，同样是间接的利用了array_to_string函数，只不过是在一个自定义的function中去做了。关于自定义聚合函数，我们可以在官方文档中的CREATE ARRGREAGTE 章节中看到，在postgres 8.x和9.x中基本是一致的，仅有略微差别，如下图(3)所示：
PostgreSQL 9.3 自定义聚合函数实现多行数据合并成一列
由于我本地的postgres是9.3，所以在此就着重演示一下9.3的CREATE AGGREGATE（关于实现多行数据合并成一列的最简便方式不是这种，稍后在后面说）。
- name
要创建的聚集函数名（可以有模式修饰的）。
- base_type
本聚集函数要处理的基本数据类型。对于不检查输入类型的聚集来说，这个参数可以声明为”ANY”。（比如 count(*)）。
- sfunc
用于处理源数据列里的每一个输入数据的状态转换函数名称。它通常是一个双参数的函数，第一个参数的类型是 state_data_type 而第二个参数的类型是 input_data_type. 另外，对于一个不检查输入数据的聚集，该函数只接受一个类型为 state_data_type 的参数。不管是哪种情况，此函数必须返回一个类型为 state_data_type的值。这个函数接受当前状态值和当前输入数据条目，而返回下个状态值。
- state_data_type
聚集的状态值的数据类型。
- ffunc
在转换完所有输入域/字段后调用的最终处理函数。它计算聚集的结果。此函数必须接受一个类型为 state_data_type 的参数。聚集的输出数据类型被定义为此函数的返回类型。如果没有声明 ffunc 则使用聚集结果的状态值作为聚集的结果，而输出类型为 state_data_type
- initial_condition
状态值的初始设置（值）。它必须是一个数据类型 state_data_type 可以接受的文本常量值。如果没有声明，状态值初始为 NULL。
- sort_operator
用于 MIN 或者 MAX 类型的聚集的相关的排序操作符。这个只是一个操作符名（可以有模式修饰）。这个操作符假设接受和聚集一样的输入数据类型。

OK，看完了所有的参数介绍，我们现在实现自己的聚合函数。

准备sfunc

这是第一步，sfunc需要我们自定义一个function，根据官方文档的描述，sfunc是一个状态转换函数，下面看一下文档中的这一段话：

PostgreSQL创建一个类型为stype的临时变量。它保存这个聚集的当前内部状态。对于每个输入数据条目，都调用状态转换函数计算内部状态值的新数值。在处理完所有数据后，调用一次最终处理函数以计算聚集的返回值。如果没有最终处理函数，则将最后的状态值当做返回值。

OK，根据官方文档的描述需要两个参数，一个是internal-state，一个是next-data-values。下面是sfunc的代码：

CREATE FUNCTION "public"."NewProc"(aa _text, s text)
  RETURNS "pg_catalog"."_text" AS $BODY$
BEGIN
RETURN array_append(aa, s);
END;
$BODY$
  LANGUAGE 'plpgsql' VOLATILE COST 100
;

ALTER FUNCTION "public"."NewProc"(aa _text, s text) OWNER TO "postgres";

可以看到我们做的事情很简单，就是将聚合的数据放到一个数组里，当然也可以用一种更简便的写法来完成，即数组操作符 ||，它可以直接将元素put到数组里。

准备ffunc

完成了第一步之后，回归主题，我们要实现的是多行数据合并成一列，那么很简单，上面我们用过了array_to_string这个数组函数，这里我们同样利用这个思路，将我们准备好的数组通过指定的分隔符转换成字符串。下面是ffunc的代码：

CREATE FUNCTION "public"."NewProc"(aa _text)
  RETURNS "pg_catalog"."text" AS $BODY$
BEGIN
RETURN array_to_string(aa, '<br />');
END;
$BODY$
  LANGUAGE 'plpgsql' VOLATILE COST 100
;

ALTER FUNCTION "public"."NewProc"(aa _text) OWNER TO "postgres";

很简单，通过br分隔符将参数数组转换成字符串并返回。

CREATE AGGREGATE

上面的两个自定义函数都准备好之后，我们就可以创建我们自定义的聚合函数了，参考上面图(3)的语法，写出创建语句：

CREATE AGGREGATE ToOneRow(TEXT) (
    SFUNC = SFUNC_ToOneRow,
    STYPE = TEXT[],
      FINALFUNC = FFUNC_ToOneRow
);

这样我们就创建完成了，赶紧尝试运行一下是否可以使用：

select ToOneRow(behavior_code) as behavior_code,factor_code
    from t_evaluation_behavior 
        group by factor_code order by factor_code;

Congratulation！运行如上的SQL语句，依旧可以正确的得到和图(2)一模一样的结果。

最佳实践（Best Practice）

如果是在8.x的版本中仅仅只能通过上述的方式解决问题了，但自从postgres 9之后，又新增了一批内置的聚合函数，其中就包含我们上面实现的那种方式，所以9.x的版本也就不需要我们再去自己创建了！下面看一下官方文档中提供的9.3版本的内置聚合函数表：
PostgreSQL 9.3 自定义聚合函数实现多行数据合并成一列

注意一下我用红色标记出来的这个函数，是否有种豁然开朗的感觉呢？这里不得不再次赞叹一下postgres确实很强大！赶紧测试一下是否有效：

select string_agg(behavior_code,'<br />') as behavior_code,factor_code
    from t_evaluation_behavior 
        group by factor_code order by factor_code;

Perfect！和图(2)一模一样！第一个参数是需要聚合的列名，第二个参数是分隔符，这样就更加方便的完成了我们的需求~

总结

简单记录一下这种需求，以及postgres中自定义聚合函数的方法。如有错误的地方欢迎批评指正，The End。

------------------------------------华丽丽的分割线------------------------------------

PostgreSQL 的详细介绍：请点这里
PostgreSQL 的下载地址：请点这里

聚合函数 postgresql

安科网

PostgreSQL 9.3 自定义聚合函数实现多行数据合并成一列

以前冷现在热

前言

postgres 8.x的解决方案

array_to_string

创建自定义聚合函数（CREATE AGGREGATE）

准备sfunc

准备ffunc

CREATE AGGREGATE

最佳实践（Best Practice）

总结

以前冷现在热

相关推荐

MySQL约束

[LeetCode]1084. 销售分析III（Mysql，having+聚合函数）

SQL中的开窗函数详解可代替聚合函数使用

Django学习路17_聚合函数(Avg平均值,Count数量,Max最大,Min最小,Sum求和)基本使用

数据库（学习整理）Oracle多表查询，三种join连接

MYSQL查询--聚合函数查询

elasticsearch之聚合函数

MySQL之分组查询（GROUP BY）

pandas rolling对象的自定义聚合函数

mysql group by 的用法解析

mysql课外积累

TiDB 源码阅读系列文章（二十一）基于规则的优化 II

django开发-聚合函数的使用

写一个“特殊”的查询构造器 - (五、聚合函数、分组、排序、分页)

浅谈sql语句中GROUP BY 和 HAVING的使用方法

mongoDB中聚合函数java处理示例详解

SQL中WHERE和HAVING子句的区别？

oracle常用分析函数与聚合函数的用法

MySQL之Where和Having的区别

Hive OLAP多维聚合函数

以前冷现在热