hive sort by order by

guohan

2013-12-25

关注关注

selecta.*frompokesasortbya.foodesc;

http://blog.sina.com.cn/s/blog_6ff05a2c0101eaxf.html

在hive中不光有orderby操作，还有个sortby操作。两者执行的都是排序的操作，但有存在很大的不同。

还是用上次orderby的例子来说明。

测试用例

hive>select*fromtest09;

100tom

200mary

300kate

400tim

Timetaken:0.061seconds

hive>select*fromtest09sortbyid;

TotalMapReducejobs=1

LaunchingJob1outof1

Numberofreducetasksnotspecified.Defaultingtojobconfvalueof:2

Inordertochangetheaverageloadforareducer(inbytes):

sethive.exec.reducers.bytes.per.reducer=

Inordertolimitthemaximumnumberofreducers:

sethive.exec.reducers.max=

Inordertosetaconstantnumberofreducers:

setmapred.reduce.tasks=

StartingJob=job_201105020924_0068,TrackingURL=http://hadoop00:50030/jobdetails.jsp?jobid=job_201105020924_0068

KillCommand=/home/hjl/hadoop/bin/../bin/hadoopjob-Dmapred.job.tracker=hadoop00:9001-killjob_201105020924_0068

2011-05-0305:39:21,389Stage-1map=0%,reduce=0%

2011-05-0305:39:23,410Stage-1map=50%,reduce=0%

2011-05-0305:39:25,430Stage-1map=100%,reduce=0%

2011-05-0305:39:30,470Stage-1map=100%,reduce=50%

2011-05-0305:39:32,493Stage-1map=100%,reduce=100%

EndedJob=job_201105020924_0068

100tom

300kate

200mary

400tim

Timetaken:17.783seconds

结果看起来和orderby差不多，但是sortby是不受hive.mapred.mode参数影响，无论hive.mapred.mode在什么模式都可以。

从上面的Numberofreducetasksnotspecified.Defaultingtojobconfvalueof:2可以看得出来，此时共启动了2个reduce。

实际上sortby控制的是每个reduce产生的文件都是排序的（从上面的结果可以看出，整体上并不保证有序），这样对多个已经排序好的文件做一次归并排序就ok了。

比用orderby的时候，仅仅有单个reduce要好得多。

我们把上面的结果写到文件中就看得清楚的多了。

hive>insertoverwritelocaldirectory‘/home/hjl/sunwg/qqq’select*fromtest09sortbyid;

TotalMapReducejobs=1

LaunchingJob1outof1

Numberofreducetasksnotspecified.Defaultingtojobconfvalueof:2

Inordertochangetheaverageloadforareducer(inbytes):

sethive.exec.reducers.bytes.per.reducer=

Inordertolimitthemaximumnumberofreducers:

sethive.exec.reducers.max=

Inordertosetaconstantnumberofreducers:

setmapred.reduce.tasks=

StartingJob=job_201105020924_0069,TrackingURL=http://hadoop00:50030/jobdetails.jsp?jobid=job_201105020924_0069

KillCommand=/home/hjl/hadoop/bin/../bin/hadoopjob-Dmapred.job.tracker=hadoop00:9001-killjob_201105020924_0069

2011-05-0305:41:27,913Stage-1map=0%,reduce=0%

2011-05-0305:41:30,939Stage-1map=100%,reduce=0%

2011-05-0305:41:37,993Stage-1map=100%,reduce=50%

2011-05-0305:41:41,023Stage-1map=100%,reduce=100%

EndedJob=job_201105020924_0069

Copyingdatatolocaldirectory/home/hjl/sunwg/qqq

4Rowsloadedto/home/hjl/sunwg/qqq

Timetaken:18.496seconds

[hjl@sunwgsrc]$ll/home/hjl/sunwg/qqq

total8

-rwxrwxrwx1hjlhjl17May305:41attempt_201105020924_0069_r_000000_0

-rwxrwxrwx1hjlhjl17May305:41attempt_201105020924_0069_r_000001_0

此时产生了2个文件，分别查看每个文件的内容。

[hjl@sunwgsrc]$cat/home/hjl/sunwg/qqq/attempt_201105020924_0069_r_000000_0

100tom

300kate

[hjl@sunwgsrc]$cat/home/hjl/sunwg/qqq/attempt_201105020924_0069_r_000001_0

200mary

400tim

可以看得出来每个文件的内部都是排好顺序的。

orderby和sortby都可以实现排序的功能，不过具体怎么使用还得根据情况，如果数据量不是太大的情况可以使用orderby，如果数据库过于庞大，最好还是使用sortby。

本文转自http://www.oratea.net/?p=624

hive sort orderby

guohan

0 关注 0 粉丝 0 动态

关注关注

3（Hive）

Hive 运行时，元数据存储在关系型数据库里面。用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。Hive中的元数据包

archive 2020-07-30

Hive函数大全-完整版

现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当

成长之路 2020-07-28

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

hive函数之~hive当中的lateral view 与 explode

lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral vie

taisenki 2020-07-05

hive函数之~窗口函数与分析函数

)row format delimited fields terminated by ‘,‘;第一个参数为列名，第二个参数为往上第n行，第三个参数为默认值。当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED P

tugangkai 2020-07-05

hive函数之~reflect函数

reflect函数可以支持在sql中调用java中的自带函数，秒杀一切udf函数。create table test_udf row format delimited fields terminated by ‘,‘;hive > create ta

SignalDu 2020-07-05

hive函数之~条件函数

‘tom‘ when 2=2 then ‘mary‘ else ‘tim‘ end from tableName;

genshengxiao 2020-07-05

hive函数之~日期函数

语法: datediff返回值: int说明: 返回结束日期减去开始日期的天数。

tomson 2020-07-05

hive函数之~字符串函数

int start, int len)返回值: string说明：返回字符串A从start位置开始，长度为len的字符串。注意，在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。index)返回值: string说明：将字符

zlsdmx 2020-07-05

hive函数之~关系运算

select 1 from tableName where 1 <> 2;hive> select 1 from tableName where 1 < = 1;select 1 from tableName where 2 >

tomson 2020-07-05

Hive使用

大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：。hive -e "insert into table t_dest select * from t_src;".

tugangkai 2020-07-04

Hive的安装与启动

<description>JDBC connect string for a JDBC metastore</description>. <description>Driver class name for a JDBC

tomson 2020-07-05

Hive llap服务安装说明及测试（二）

因为Apache Slider 已经不维护了，下面介绍不使用 Slider 的 LLAP使用方式。

xieting 2020-06-28

Hive学习之路（二）Hive安装

bin binary-package-licenses conf examples hcatalog jdbc lib LICENSE NOTICE RELEASE_NOTES.txt scripts. -- 如果 mysql 和 hi

Zhangdragonfly 2020-06-28

Hadoop

Zookeeper：用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群中，用于管理 Hadoop 集群。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程

genshengxiao 2020-06-26

（一）hive远程模式搭建

# scp -r /opt/soft/mysql-5.7.18-1.el7.x86_64.rpm-bundle.tar :/usr/ 发安装包。# rpm -qa|grep mariadb 检查：这是离线包安装方式所以要检查并且卸载mariadb. #

成长之路 2020-06-26

Hive学习(二)【数据类型、类型转换】

可以指定字符集。可以使用单引号或者双引号。和c语言中的struct类似，都可以通过“点”符号访问元素内容。MAP是一组键-值对元组集合，使用数组表示法可以访问数据。数组是一组具有相同类型和名称的变量的集合。例如CAST将把字符串‘1‘ 转换成整数1；如果强

tomson 2020-06-26

Hive1.2.2（一）

本课堂主要围绕hive的基础知识点进行讲解。主要包括以下几个方面。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。对于Hive来说默认就是mapreduce任务。与操作本地文件系统类似，这里需要使用

蜗牛之窝 2020-06-26

hive开窗开窗函数进阶

NTILE：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从 1 开始，对于每一行， NTILE 返回此行所属的组的编号。hive > select name,orderdate,cost, sum over as sample f

成长之路 2020-06-25

数据仓库 ODS原始数据层操作

①ODS层存放的是原始数据，因此只需要一个字段就行。②ODS层的数据来源于HDFS，里面存储的文件带有压缩，因此需要指明相应的压缩方式。③在多人操作一张Hive表时，最好建立外部表，防止删表时将其中的数据也删掉了。2 编写将数据导入上述表中的脚本。④hiv

cyydjt 2020-06-25

安科网

hive sort by order by

guohan

guohan

相关推荐

3（Hive）

Hive函数大全-完整版

hdfs、hive、hbase的搭建总结

hive函数之~hive当中的lateral view 与 explode

hive函数之~窗口函数与分析函数

hive函数之~reflect函数

hive函数之~条件函数

hive函数之~日期函数

hive函数之~字符串函数

hive函数之~关系运算

Hive使用

Hive的安装与启动

Hive llap服务安装说明及测试（二）

Hive学习之路（二）Hive安装

Hadoop

（一）hive远程模式搭建

Hive学习(二)【数据类型、类型转换】

Hive1.2.2（一）

hive开窗开窗函数进阶

数据仓库 ODS原始数据层操作

guohan