MapReduce编程模型

MapReduce  基于HDFS

1.环境搭建起来    伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段  MapReduce的编程模型4.Mapper类 继承Mapper类 重写Mapper方法5.Reduce类 继承Reducer类 重写Reduce方法6.Driver类=Mapper+Reduce+HDFS    整合起来7.打成一个jar包 上传到Linux上面8.hadoop jar jar包 Driver类     把任务跑起来9.MapReduce的开发 任务式开发 开发的一个个MapReduce程序 实际上就是一个个任务10.只是针对各种任务 它的需求不同 总体来说WordCount程序是最精华的程序

Map阶段

Reduce阶段

相关推荐