Hadoop学习四十三：MapReduce的二次排序

laotumingke

2014-11-02

一.概述

关于二次排序的文章，网上很多，比喻http://www.cnblogs.com/xuxm2007/archive/2011/09/03/2165805.html就写的不错。在此文基础上补充几点。

二.job.setPartitionerClass在什么地方被用到

mapper里每一次write，都会调用到

collector.collect(key, value,partitioner.getPartition(key, value, partitions));注partitions = jobContext.getNumReduceTasks();

从而使用到PartitionerClass。

参考MapTask write方法 line690。

三.job.setSortComparatorClass

在sortAndSpill时触发。

而进入sortAndSpill的时机有map阶段正在进行时缓冲区的数据已经达到阈值，或者map阶段完后的output.close(mapperContext);顺便说一下Mapper的clean方法是在map阶段完成，我以前一直以为是map阶段完后执行。这也是为什么每一个Mapper的输出都是有序的原因，也是Reduce Shuffle阶段的准备。

原始文件

1	1b
1	1a
3	3a
2	2A
2	2a

采用快速排序(调用SortComparatorClass的compare方法)。生成的file.out文件。好像有些字符没显示出来。

11a1a11b1b22A2A22a2a33a3a?SU

代码MapTask line763

try {
      input.initialize(split, mapperContext);
      mapper.run(mapperContext);//mapper阶段
      mapPhase.complete();
      setPhase(TaskStatus.Phase.SORT);
      statusUpdate(umbilical);
      input.close();//关闭RecordWriter
      input = null;
      output.close(mapperContext);
      output = null;
    } finally {
      closeQuietly(input);
      closeQuietly(output, mapperContext);
    }

四.job.setGroupingComparatorClass

TextPair [first=1, second=1a] TextPair [first=1, second=1b]
TextPair [first=1, second=1b] TextPair [first=2, second=2A]
TextPair [first=2, second=2A] TextPair [first=2, second=2a]
TextPair [first=2, second=2a] TextPair [first=3, second=3a]

mapreduce hadoop

laotumingke

0 关注 0 粉丝 0 动态

相关推荐

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

JStorm介绍

JStorm是一个类似于Hadoop MapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务交给JStorm系统，JStorm将这个任务跑起来，并按7*24小时运行。如果中间一个worker发生了意外故障，调度器立即分配一个新的worke

csdnhadoop 1评论 2020-07-04

mapreduce求topN

利用TreeSet排序,该方式利用小顶堆和集合重复原理的方式 , 每过来一个数据 , 跟堆顶数据进行比较 , 如果比最小的大 , 则将过来的数据替换堆顶元素 , 否则直接跳过数据 . 以此对数据进行排序 .public static class MapTa

ErixHao 2020-05-16

HBase与MapReduce交互

飞鸿踏雪0 2020-05-07

分布式计算框架——MapReduce

DAG计算——多个作业存在依赖关系，后一个的输入是前一个的输出，构成有向无环图DAG；Map、Reduce阶段的中间环节，负责执行Partition（分区）、Sort（排序）、Spill（溢写）、Merge（合并）、抓取等工作。Partition编号 =

zhangll00 2020-05-07

Hadoop之MapReduce学习(三)之ip去重、MaxScore示例、TotalScoreMapper示例

张三 684 李四 312 王五 721 赵六 548 田七 470 王八 668 陈九 340. public class MaxScoreMapper extends Mapper<LongWritable, Text,

香帅 2020-04-15

HBase和MapReduce

Apache MapReduce 是一个用于分析大量数据的软件框架。MapReduce 本身超出了本文档的范围。MapReduce 版本2现在是 YARN 的一部分。本章讨论在 HBase 中对数据使用 MapReduce 时需要采取的具体配置步骤。另外，

strongyoung 2020-04-11

MapReduce(分布式计算)_01

2-MapReduce的构思和框架结构。5-MapReduce案例-wordcount-准备工作

zhangll00 2020-03-27

MapReduce编程模型

1.环境搭建起来伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段　　MapReduce的编程模型4.Mapper

sujins 2020-03-06

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

问题给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？方案1：用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的b

lixiaotao 2020-03-05

MapReduce的使用

MapReduce基于yarn组件，想要做MapReduce就必须先开启hdfs和yarn。将common、hdfs、yarn、MapReduce文件夹下的所有jar包及其依赖包导入到项目中。Mapper阶段：Map必须得继承Mapper类，并且重写map

tomli 2020-03-05

Hadoop基础---MapReduce对数据进行排序

-1 : 1; //返回值为-1，则排在前面。return "" + up_flow + "\t" + down_flow + "\t"+ sum_flow;public class Res

WeiHHH 2020-02-23

Hadoop——MapReduce介绍

MapReduce是一种编程模型，用于大规模数据集的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想。　　首先2T的文件，你放在单机上可能存不下来，如果再他多一点呢？比如几千个文件，几十个

zzjmay 2020-02-23

Hadoop架构及集群

HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算，特点是：高可靠性，高扩展性，高效性，高容错性。

JavaWDB 2020-02-13

MapReduce编程实战（2）-词频统计结果存入mysql数据库

通过实现MapReduce计算结果保存到MySql数据库过程，掌握多种方式保存计算结果的技术，加深了对MapReduce的理解；创建maven项目，项目名称hdfs，这里不再说明。红色部分为增加内容：

大白配小猪 2020-02-09

MapReduce和Hive学习文档链接学习顺序

18、《sqoop的使用之导入到hive和mysql》。21、《Hive中利用日志数据学习分析思路》

IT智囊 2020-02-02

Hadoop学习之路(7)MapReduce自定义排序

MapReduce中，根据key进行分区、排序、分组MapReduce会按照基本类型对应的key进行排序，如int类型的IntWritable，long类型的LongWritable,Text类型，默认升序排序为什么要自定义排序规则？现有需求，需要自定义k

IT智囊 2020-01-01

python| MongoDB聚合(count、distinct、group、MapReduce)

增加查询条件会使count查询变慢。initial：每一组reduce函数调用时作为第二个参数传递给reduce函数的初始文档，每一组的所有成员都会使用这个累加器，所以改变会被保留住。group和MapReduce对比示例：查询相同年龄人的名字。

yogoma 2020-01-10

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就

sujins 2020-01-09

hadoop自带性能测试

清空数据hadoop jar hadoop-mapreduce-client-jobclient-2.6.4.jar -cleanhadoop fs -ls /benchmarks/. 写性能测试hadoop jar hadoop-mapreduce-c

飞鸿踏雪0 2019-12-29

laotumingke

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号