hadoop经典系列(七)shuffle中的排序

1.map写到buffer时候,预排序(为了后面的快排)

2.spill的时候二次快排

3.再根据partioner排序,每个partioner里根据key排序

4.在Map任务完成前,所有的spill文件将会被归并排序为一个索引文件和数据文件

5.当所有的Map输出都被拷贝后,Reduce任务进入排序阶段(更恰当的说应该是归并阶段,因为排序在Map端就已经完成),这个阶段会对所有的Map输出进行归并排序,这个工作会重复多次才能完成

大概有5个排序

作者简介

昵称:澳洲鸟,猫头哥

姓名:朴海林

QQ:85977328

MSN:[email protected]

本文的研究,离不开《至高天》朋友们的支持

根根:http://blog.csdn.net/suileisl

wan560:http://blog.csdn.net/wan560/

相关推荐