Hadoop基础---MapReduce对数据进行排序

WeiHHH

2020-02-23

承接上文：Hadoop基础---流量求和MapReduce程序及自定义数据类型

一：实验数据

对上一篇文章中的数据进行排序处理：

200    380
   7335    7437
   400    6292
   200    187052
   1938    1950
   6960    6969
   200    200
   24681    27162
   200    320
   200    380
   200    200
   3720    6728
   11058    11121
   200    200
   200    1712
   3659    3686
   3156    3176
   1938    1941
   1527    1539
   9531    9549
   1432    5548

二：MapReduce程序编写

Hadoop基础---MapReduce对数据进行排序

（一）自定义数据结构FlowBean编写

package cn.hadoop.mr.wc;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class FlowBean implements WritableComparable<FlowBean> {
    private String phoneNB;
    private long up_flow;
    private long down_flow;
    private long sum_flow;
    
    public FlowBean() {}    //无参构造函数，用于反序列化时使用

    public FlowBean(String phoneNB, long up_flow, long down_flow) {
        this.phoneNB = phoneNB;
        this.up_flow = up_flow;
        this.down_flow = down_flow;
        this.sum_flow = up_flow + down_flow;
    }
    

    public String getPhoneNB() {
        return phoneNB;
    }

    public void setPhoneNB(String phoneNB) {
        this.phoneNB = phoneNB;
    }

    public long getUp_flow() {
        return up_flow;
    }

    public void setUp_flow(long up_flow) {
        this.up_flow = up_flow;
    }

    public long getDown_flow() {
        return down_flow;
    }

    public void setDown_flow(long down_flow) {
        this.down_flow = down_flow;
    }

    public long getSum_flow() {
        return up_flow + down_flow;
    }


    //用于序列化
    @Override
    public void write(DataOutput out) throws IOException {
        // TODO Auto-generated method stub
        out.writeUTF(phoneNB);
        out.writeLong(up_flow);
        out.writeLong(down_flow);
        out.writeLong(up_flow+down_flow);
    }
    
    //用于反序列化
    @Override
    public void readFields(DataInput in) throws IOException {
        // TODO Auto-generated method stub
        phoneNB = in.readUTF();
        up_flow = in.readLong();
        down_flow = in.readLong();
        sum_flow = in.readLong();
    }

    @Override
    public int compareTo(FlowBean o) {　　//用于排序操作
        return sum_flow > o.sum_flow ? -1 : 1;    //返回值为-1，则排在前面
    }

    @Override
    public String toString() {
        return "" + up_flow + "\t" + down_flow + "\t"+ sum_flow;
    }

    
}

（二）Map程序编写

package cn.hadoop.rs;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import cn.hadoop.mr.wc.FlowBean;

public class ResSortMapper extends Mapper<LongWritable, Text, FlowBean, NullWritable>{
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, FlowBean, NullWritable>.Context context)
            throws IOException, InterruptedException {
        //获取一行数据
        String line = value.toString();
        //进行文本分割
        String[] fields = StringUtils.split(line, ‘\t‘);
        //数据获取
        String phoneNB = fields[0];
        long up_flow = Long.parseLong(fields[1]);
        long down_flow = Long.parseLong(fields[2]);
        
        context.write(new FlowBean(phoneNB, up_flow, down_flow), NullWritable.get());
    }
}

（三）Reduce程序编写

package cn.hadoop.rs;

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import cn.hadoop.mr.wc.FlowBean;

//会在reduce接收数据时，对key进行排序
public class ResSortReducer extends Reducer<FlowBean, NullWritable, Text, FlowBean>{
    @Override
    protected void reduce(FlowBean key, Iterable<NullWritable> values,
            Reducer<FlowBean, NullWritable, Text, FlowBean>.Context context) throws IOException, InterruptedException {
        String phoneNB = key.getPhoneNB();
        context.write(new Text(phoneNB), key);
    }
}

注意：排序比较会在Reduce接收到key时进行排序，所以我们需要对输入的key进行处理

（四）主函数进行调用

package cn.hadoop.rs;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import cn.hadoop.mr.wc.FlowBean;

public class ResSortRunner {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        
        job.setJarByClass(ResSortRunner.class);
        
        job.setMapperClass(ResSortMapper.class);
        job.setReducerClass(ResSortReducer.class);
        
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
        
        job.setMapOutputKeyClass(FlowBean.class);
        job.setMapOutputValueClass(NullWritable.class);
        
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        System.exit(job.waitForCompletion(true)?0:1);
    }
}

（五）结果测试

hadoop jar rs.jar cn.hadoop.rs.ResSortRunner /fs/output1 /fs/output6

Hadoop基础---MapReduce对数据进行排序

三：实现将两个job在main中一次执行

Hadoop基础---MapReduce对数据进行排序

（一）修改main方法，实现连续调用两个job

package cn.hadoop.rs;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import cn.hadoop.fs.FlowSumMapper;
import cn.hadoop.fs.FlowSumReducer;
import cn.hadoop.fs.FlowSumRunner;
import cn.hadoop.mr.wc.FlowBean;

public class ResSortRunner {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf1 = new Configuration();
        Job job1 = Job.getInstance(conf1);
        
        job1.setJarByClass(FlowSumRunner.class);
        
        job1.setMapperClass(FlowSumMapper.class);
        job1.setReducerClass(FlowSumReducer.class);
        
        job1.setOutputKeyClass(Text.class);
        job1.setOutputValueClass(FlowBean.class);
        
        job1.setMapOutputKeyClass(Text.class);
        job1.setMapOutputValueClass(FlowBean.class);
        
        FileInputFormat.setInputPaths(job1, new Path(args[0]));
        FileOutputFormat.setOutputPath(job1, new Path(args[1]));
        
        if(!job1.waitForCompletion(true)) {
            System.exit(1);
        }
        
        Configuration conf2 = new Configuration();
        Job job2 = Job.getInstance(conf2);
        
        job2.setJarByClass(ResSortRunner.class);
        
        job2.setMapperClass(ResSortMapper.class);
        job2.setReducerClass(ResSortReducer.class);
        
        job2.setOutputKeyClass(Text.class);
        job2.setOutputValueClass(FlowBean.class);
        
        job2.setMapOutputKeyClass(FlowBean.class);
        job2.setMapOutputValueClass(NullWritable.class);
        
        FileInputFormat.setInputPaths(job2, new Path(args[1]));
        FileOutputFormat.setOutputPath(job2, new Path(args[2]));
        
        System.exit(job2.waitForCompletion(true)?0:1);
    }
}

（二）实验测试，结果查看

hadoop jar rs.jar  cn.hadoop.rs.ResSortRunner /fs/input /fs/outdata1 /fs/outdata2

Hadoop基础---MapReduce对数据进行排序

（三）补充：使用时，不推荐这种方法。中间结果单独输出，使用shell将各个程序串联，灵活性更大，更容易调试

mapreduce flow hadoop

WeiHHH

0 关注 0 粉丝 0 动态

关注关注

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

JStorm介绍

JStorm是一个类似于Hadoop MapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务交给JStorm系统，JStorm将这个任务跑起来，并按7*24小时运行。如果中间一个worker发生了意外故障，调度器立即分配一个新的worke

csdnhadoop 1评论 2020-07-04

mapreduce求topN

利用TreeSet排序,该方式利用小顶堆和集合重复原理的方式 , 每过来一个数据 , 跟堆顶数据进行比较 , 如果比最小的大 , 则将过来的数据替换堆顶元素 , 否则直接跳过数据 . 以此对数据进行排序 .public static class MapTa

ErixHao 2020-05-16

HBase与MapReduce交互

飞鸿踏雪0 2020-05-07

分布式计算框架——MapReduce

DAG计算——多个作业存在依赖关系，后一个的输入是前一个的输出，构成有向无环图DAG；Map、Reduce阶段的中间环节，负责执行Partition（分区）、Sort（排序）、Spill（溢写）、Merge（合并）、抓取等工作。Partition编号 =

zhangll00 2020-05-07

Hadoop之MapReduce学习(三)之ip去重、MaxScore示例、TotalScoreMapper示例

张三 684 李四 312 王五 721 赵六 548 田七 470 王八 668 陈九 340. public class MaxScoreMapper extends Mapper<LongWritable, Text,

香帅 2020-04-15

HBase和MapReduce

Apache MapReduce 是一个用于分析大量数据的软件框架。MapReduce 本身超出了本文档的范围。MapReduce 版本2现在是 YARN 的一部分。本章讨论在 HBase 中对数据使用 MapReduce 时需要采取的具体配置步骤。另外，

strongyoung 2020-04-11

MapReduce(分布式计算)_01

2-MapReduce的构思和框架结构。5-MapReduce案例-wordcount-准备工作

zhangll00 2020-03-27

MapReduce编程模型

1.环境搭建起来伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段　　MapReduce的编程模型4.Mapper

sujins 2020-03-06

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

问题给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？方案1：用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的b

lixiaotao 2020-03-05

MapReduce的使用

MapReduce基于yarn组件，想要做MapReduce就必须先开启hdfs和yarn。将common、hdfs、yarn、MapReduce文件夹下的所有jar包及其依赖包导入到项目中。Mapper阶段：Map必须得继承Mapper类，并且重写map

tomli 2020-03-05

Hadoop——MapReduce介绍

MapReduce是一种编程模型，用于大规模数据集的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想。　　首先2T的文件，你放在单机上可能存不下来，如果再他多一点呢？比如几千个文件，几十个

zzjmay 2020-02-23

Hadoop架构及集群

HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算，特点是：高可靠性，高扩展性，高效性，高容错性。

JavaWDB 2020-02-13

MapReduce编程实战（2）-词频统计结果存入mysql数据库

通过实现MapReduce计算结果保存到MySql数据库过程，掌握多种方式保存计算结果的技术，加深了对MapReduce的理解；创建maven项目，项目名称hdfs，这里不再说明。红色部分为增加内容：

大白配小猪 2020-02-09

MapReduce和Hive学习文档链接学习顺序

18、《sqoop的使用之导入到hive和mysql》。21、《Hive中利用日志数据学习分析思路》

IT智囊 2020-02-02

Hadoop学习之路(7)MapReduce自定义排序

MapReduce中，根据key进行分区、排序、分组MapReduce会按照基本类型对应的key进行排序，如int类型的IntWritable，long类型的LongWritable,Text类型，默认升序排序为什么要自定义排序规则？现有需求，需要自定义k

IT智囊 2020-01-01

python| MongoDB聚合(count、distinct、group、MapReduce)

增加查询条件会使count查询变慢。initial：每一组reduce函数调用时作为第二个参数传递给reduce函数的初始文档，每一组的所有成员都会使用这个累加器，所以改变会被保留住。group和MapReduce对比示例：查询相同年龄人的名字。

yogoma 2020-01-10

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就

sujins 2020-01-09

hadoop自带性能测试

清空数据hadoop jar hadoop-mapreduce-client-jobclient-2.6.4.jar -cleanhadoop fs -ls /benchmarks/. 写性能测试hadoop jar hadoop-mapreduce-c

飞鸿踏雪0 2019-12-29

Hadoop学习之路(6)MapReduce自定义分区实现

MapReduce自带的分区器是HashPartitioner原理：先对map输出的key求hash值，再模上reduce task个数，根据结果，决定此输出kv对，被匹配的reduce任务取走。自定义分分区需要继承Partitioner，复写getpar

Elmo 2019-12-29

安科网

Hadoop基础---MapReduce对数据进行排序

WeiHHH

承接上文：Hadoop基础---流量求和MapReduce程序及自定义数据类型

一：实验数据

对上一篇文章中的数据进行排序处理：

二：MapReduce程序编写

（一）自定义数据结构FlowBean编写

（二）Map程序编写

（三）Reduce程序编写

注意：排序比较会在Reduce接收到key时进行排序，所以我们需要对输入的key进行处理

（四）主函数进行调用

（五）结果测试

三：实现将两个job在main中一次执行

（一）修改main方法，实现连续调用两个job

（二）实验测试，结果查看

（三）补充：使用时，不推荐这种方法。中间结果单独输出，使用shell将各个程序串联，灵活性更大，更容易调试

WeiHHH

相关推荐

hadoop框架三大组件hdfs、mapreduce、yarn 内容

JStorm介绍

mapreduce求topN

HBase与MapReduce交互

分布式计算框架——MapReduce

Hadoop之MapReduce学习(三)之ip去重、MaxScore示例、TotalScoreMapper示例

HBase和MapReduce

MapReduce(分布式计算)_01

MapReduce编程模型

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

MapReduce的使用

Hadoop——MapReduce介绍

Hadoop架构及集群

MapReduce编程实战（2）-词频统计结果存入mysql数据库

MapReduce和Hive学习文档链接学习顺序

Hadoop学习之路(7)MapReduce自定义排序

python| MongoDB聚合(count、distinct、group、MapReduce)

Hadoop

hadoop自带性能测试

Hadoop学习之路(6)MapReduce自定义分区实现

WeiHHH