Hadoop MapReduce Job性能调优——修改Map和Reduce个数

Aleks

2012-05-20

map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。默认input split的大小是64M（与dfs.block.size的默认值相同）。然而，如果输入的数据量巨大，那么默认的64M的block会有几万甚至几十万的Map Task，集群的网络传输会很大，最严重的是给Job Tracker的调度、队列、内存都会带来很大压力。mapred.min.split.size这个配置项决定了每个 Input Split的最小值，用户可以修改这个参数，从而改变map task的数量。
一个恰当的map并行度是大约每个节点10-100个map，且最好每个map的执行时间至少一分钟。
reduce task的数量由mapred.reduce.tasks这个参数设定，默认值是1。
合适的reduce task数量是0.95或者0.75*( nodes * mapred.tasktracker.reduce.tasks.maximum), mapred.tasktracker.tasks.reduce.maximum的数量一般设置为各节点cpu core数量，即能同时计算的slot数量。对于0.95，当map结束时，所有的reduce能够立即启动；对于1.75，较快的节点结束第一轮reduce后，可以开始第二轮的reduce任务，从而提高负载均衡。

对一个job的map数和reduce数的设定对一个job的运行是非常重要的，并且非常简单。以下是一些设置这几个值的经验总结：
- 如果job的每个map或者 reduce task的运行时间都只有30-40秒钟，那么就减少该job的map或者reduce数，每一个task(map|reduce)的setup和加入到调度器中进行调度，这个中间的过程可能都要花费几秒钟，所以如果每个task都非常快就跑完了，就会在task的开始和结束的时候浪费太多的时间。JVM 的reuse方式也可以解决这个问题。
- 如果某个input的文件非常的大，比如 1TB，可以考虑将hdfs上的每个block size设大，比如设成256MB或者512MB，这样map和reduce的数据可以减小。而且用户还可以通过命令：<strong>hadoop distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks的方式来将已经存在咋hdfs上的数据进行大块化。然后删除掉原先的文件。</strong>
- 只要每个task都运行至少30-40秒钟，就可以考虑将mapper数扩大，比如集群的map slots为100个，那么就不要将一个job的mapper设成101，这样前100个map能够并行完成，而最后一个map要在前100个 mapper结束后才开始，因此在reduce开始运行前，map阶段的时间几乎就要翻倍。
- 尽量不要运行太多的reduce task。对大多数job来说，最好rduce的个数最多和集群中的reduce持平，或者比集群的 reduce slots小。这个对于小集群而言，尤其重要。

参考: http://wiki.apache.org/hadoop/HowManyMapsAndReduces

深度分析如何在Hadoop中控制Map的数量

mapreduce hadoop

Aleks

0 关注 0 粉丝 0 动态

相关推荐

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

JStorm介绍

JStorm是一个类似于Hadoop MapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务交给JStorm系统，JStorm将这个任务跑起来，并按7*24小时运行。如果中间一个worker发生了意外故障，调度器立即分配一个新的worke

csdnhadoop 1评论 2020-07-04

mapreduce求topN

利用TreeSet排序,该方式利用小顶堆和集合重复原理的方式 , 每过来一个数据 , 跟堆顶数据进行比较 , 如果比最小的大 , 则将过来的数据替换堆顶元素 , 否则直接跳过数据 . 以此对数据进行排序 .public static class MapTa

ErixHao 2020-05-16

HBase与MapReduce交互

飞鸿踏雪0 2020-05-07

分布式计算框架——MapReduce

DAG计算——多个作业存在依赖关系，后一个的输入是前一个的输出，构成有向无环图DAG；Map、Reduce阶段的中间环节，负责执行Partition（分区）、Sort（排序）、Spill（溢写）、Merge（合并）、抓取等工作。Partition编号 =

zhangll00 2020-05-07

Hadoop之MapReduce学习(三)之ip去重、MaxScore示例、TotalScoreMapper示例

张三 684 李四 312 王五 721 赵六 548 田七 470 王八 668 陈九 340. public class MaxScoreMapper extends Mapper<LongWritable, Text,

香帅 2020-04-15

HBase和MapReduce

Apache MapReduce 是一个用于分析大量数据的软件框架。MapReduce 本身超出了本文档的范围。MapReduce 版本2现在是 YARN 的一部分。本章讨论在 HBase 中对数据使用 MapReduce 时需要采取的具体配置步骤。另外，

strongyoung 2020-04-11

MapReduce(分布式计算)_01

2-MapReduce的构思和框架结构。5-MapReduce案例-wordcount-准备工作

zhangll00 2020-03-27

MapReduce编程模型

1.环境搭建起来伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段　　MapReduce的编程模型4.Mapper

sujins 2020-03-06

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

问题给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？方案1：用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的b

lixiaotao 2020-03-05

MapReduce的使用

MapReduce基于yarn组件，想要做MapReduce就必须先开启hdfs和yarn。将common、hdfs、yarn、MapReduce文件夹下的所有jar包及其依赖包导入到项目中。Mapper阶段：Map必须得继承Mapper类，并且重写map

tomli 2020-03-05

Hadoop基础---MapReduce对数据进行排序

-1 : 1; //返回值为-1，则排在前面。return "" + up_flow + "\t" + down_flow + "\t"+ sum_flow;public class Res

WeiHHH 2020-02-23

Hadoop——MapReduce介绍

MapReduce是一种编程模型，用于大规模数据集的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想。　　首先2T的文件，你放在单机上可能存不下来，如果再他多一点呢？比如几千个文件，几十个

zzjmay 2020-02-23

Hadoop架构及集群

HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算，特点是：高可靠性，高扩展性，高效性，高容错性。

JavaWDB 2020-02-13

MapReduce编程实战（2）-词频统计结果存入mysql数据库

通过实现MapReduce计算结果保存到MySql数据库过程，掌握多种方式保存计算结果的技术，加深了对MapReduce的理解；创建maven项目，项目名称hdfs，这里不再说明。红色部分为增加内容：

大白配小猪 2020-02-09

MapReduce和Hive学习文档链接学习顺序

18、《sqoop的使用之导入到hive和mysql》。21、《Hive中利用日志数据学习分析思路》

IT智囊 2020-02-02

Hadoop学习之路(7)MapReduce自定义排序

MapReduce中，根据key进行分区、排序、分组MapReduce会按照基本类型对应的key进行排序，如int类型的IntWritable，long类型的LongWritable,Text类型，默认升序排序为什么要自定义排序规则？现有需求，需要自定义k

IT智囊 2020-01-01

python| MongoDB聚合(count、distinct、group、MapReduce)

增加查询条件会使count查询变慢。initial：每一组reduce函数调用时作为第二个参数传递给reduce函数的初始文档，每一组的所有成员都会使用这个累加器，所以改变会被保留住。group和MapReduce对比示例：查询相同年龄人的名字。

yogoma 2020-01-10

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就

sujins 2020-01-09

hadoop自带性能测试

清空数据hadoop jar hadoop-mapreduce-client-jobclient-2.6.4.jar -cleanhadoop fs -ls /benchmarks/. 写性能测试hadoop jar hadoop-mapreduce-c

飞鸿踏雪0 2019-12-29

Aleks

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号