Hadoop新版和旧版中InputSplit大小的区别
Hadoop旧版中InputSplit的个数由下面三个参数决定:
goalSize:totalSize/numSpilt.totalSize为文件大小,numSplit为用户设定的map task个数,默认为1.
minSize:InputSplit的最小值,由配置参数 mapred.min.split.size,默认为1.
blockSize:HDFS中块的大小.
splitSize = max(minSize,min(goalSize,blockSIze))
新版:
maxSize:由配置参数mapred.max.split.size确定,已经不再考虑用户设定的map task个数.
minSize:InputSplit的最小值,由配置参数 mapred.min.split.size,默认为1.
blockSize:HDFS中块的大小.
splitSize = max(minSize,min(maxSize,blockSIze))
相关推荐
changjiang 2020-11-16
minerd 2020-10-28
WeiHHH 2020-09-23
Aleks 2020-08-19
WeiHHH 2020-08-17
飞鸿踏雪0 2020-07-26
tomli 2020-07-26
deyu 2020-07-21
strongyoung 2020-07-19
eternityzzy 2020-07-19
Elmo 2020-07-19
飞鸿踏雪0 2020-07-09
飞鸿踏雪0 2020-07-04
xieting 2020-07-04
WeiHHH 2020-06-28
genshengxiao 2020-06-26
Hhanwen 2020-06-25