hive查询使用详解

李双喆

2016-05-02

关注关注

常见的hive查询操作有：count、group by、order by、join、distribute by、sort by、clusrer by、union all

一、常见的聚合函数

1、count计数

count(*) 所有值不全为NULL时，加1操作；
count(1) 不管有没有值，只要有这条记录，值就加1
count(col) col列里面的值为null，值不会加1，这个列里面的值不为NULL，才加1

2、sum求和

sum(可转成数字的值) 返回bigint

3、avg求平均值

avg(可转成数字的值) 返回double

4、distinct不同值个数

count(distinct col)

二、order by按照某些字段排序

样例：select col1,other... from table where conditio order by col1,col2 [asc|desc]

注意：order by 后面可以有多列进行排序，默认按字典排序

order by为全局排序

order by需要reduce操作，且只有一个reduce，与配置无关。数据量很大时，慎用。

执行流程：

hive查询使用详解
从表中读取数据，执行where条件，以col1，col2列的值做成组合key，其他列值为value，然后在把数据传到同一个reduce中，根据需要的排序方式进行。

三、group by按照某些字段的值进行分组，有相同值放到一起。

样例：

select col1[,col2],count(1),sel_expr(聚合操作) from table
where condition        --->Map端执行
group by col1[,col2]   --->Reduce端执行
[having]               --->Reduce端执行

注意：

select后面非聚合列，必须出现在group by中
select后面除了普通列就是一些聚合操作
group by后面也可以跟表达式，比如substr(col)

特性

使用了Reduce操作，受限于reduce数量，设置reduce参数mapred，reduce，tasks
输出文件个数与reduce数相同，文件大小与reduce处理的数据量有关

问题

网络负载过重
数据倾斜，优化参数hive.groupby.skewindata为true,会启动一个优化程序，避免数据倾斜。

四、join表连接

两个表m,n之间按照on条件连接，m中的一条记录和n中的一条记录组成一条新记录。

join等值连接（内连接），只有某个值在m和n中同时存在时。

left outer join左外连接，左边表中的值无论是否在b中存在时，都输出：右边表中的值，只有在左边表中存在时才输出。

right outer join和left outer join相反。

left semi join类似exists。即查找a表中的数据，是否在b表中存在，找出存在的数据。

mapjoin：在map端完成join操作，不需要用reduce，基于内存做join，属于优化操作。

五、Mapjoin

在map端把小表加载到内存中，然后读取大表和内存中的小表完成连接操作。其中使用了分布式缓存技术。

有点：不消耗集群的reduce资源；减少了reduce操作，加快程序执行；降低网络负载。

缺点：占用部分内存，所以加载到内存中的表不能过大，因为每个计算节点都会加载一次；生成较多的小文件。

执行方式：

自动方式，配置以下参数：hive自动根据sql，选择使用common join或者map join【set hive.auto.convert.join=true;hive.mapjoin.smalltable.filesize=25mb】
手动指定：select /*+mapjoin(n)*/ m.col,m.col2,n.col3 from m join n on m.col=n.col。注意/*+mapjoin(n)*/不能省略，只需替换表名n值即可。

mapjoin的使用场景：

关联操作中有一张表非常小
不等值的连接操作

六、hive分桶JOIN

对于每一个表或者分区，hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。

hive是针对某一列进行分桶。hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶中。

好处：获得更高的查询处理效率；使取样更高效。

create table bucketed_user(
   id  int,
   name  string
)clustered by (id) sorted by (name) into 4 buckets row format delimited fields terminated by '\t' stored as textfile;

set hive.enforce.bucketing=true;
分桶的使用
select * from bucketed_user tablesample(bucket 1 out of 2 on id)

BUCKET JOIN

set hive.optimize.bucketmapjoin=true;
set hive.optimize.bucketmapjoin.sortedmerge=true;
set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;

连接两个在（包含连接列）相同列上划分了桶的表，可以使用Map端连接高效的实现。比如join操作。

对于join操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那个将保存相同列值的痛进行join操作就可以，可以大大减少join的数据量。

对于map端连接的情况，两个表以相同方式划分桶。处理左边表内某个桶的mpper知道右边表内相匹配的行在对应的桶内。因此，mapper只需要获取那个桶即可进行连接。这一优化方法并不一定要求表必须桶的个数相同，两个表的桶个数是倍数关系也可以。

七、distribute by、sort by

distribute分散数据。distribute by col----按照col列把数据散列到不同的reduce。

sort by排序，sort by col----按照col列把数据排序。

distribute by与group by对比。都是按照key值划分数据，都是用reduce操作，唯一不同的是distribute by只是单纯的分散数据，而group by把相同key的数据聚集到一起，后续必须是聚合操作。
order by与sort by对比：order by是全局排序；sort by只是确保每个reduce上面输出的数据有序。如果只有一个reduce时，和order by作用一样。

八、cluster by

把有相同值的数据聚集到一起，并排序。效果等价于distribute by col sort by col。cluster by col<==>distribute by col sort by col。

hive