hadoop自定义outputformat源码

finalcola

2013-02-19

hadoop outputformat是reduceTask中的重要过程

1.实例化outputformat，检查输出目录合法性

在jobClient的submitJobInternal反射生成的outputformat

// Check the output specification
          if (reduces == 0 ? jobCopy.getUseNewMapper() : 
            jobCopy.getUseNewReducer()) {
            org.apache.hadoop.mapreduce.OutputFormat<?,?> output =
              ReflectionUtils.newInstance(context.getOutputFormatClass(),
                  jobCopy);//生成outputformat
            output.checkOutputSpecs(context);
          } else {
            jobCopy.getOutputFormat().checkOutputSpecs(fs, jobCopy);
          }

贴上一个最常用的FileOutputFormat的checkOutputSpaces的方法

// Ensure that the output directory is set and not already there
    Path outDir = getOutputPath(job);//获得mapred.output.dir的目录
    if (outDir == null) {
      throw new InvalidJobConfException("Output directory not set.");
    }
    // get delegation token for outDir's file system
    TokenCache.obtainTokensForNamenodes(job.getCredentials(), 
                                        new Path[] {outDir}, 
                                        job.getConfiguration());
    if (outDir.getFileSystem(job.getConfiguration()).exists(outDir)) {//获得当前job的fs，判断目录是否存在
      throw new FileAlreadyExistsException("Output directory " + outDir + 
                                           " already exists");
    }

写出key和value

1.生成inputformat和recordwritter

Task中的initialize方法，创建outputformat，并生成committer，这样mapper和reducer都会执行

主要在ReducerTask中使用outputformat，在runNewReducer方法中，获取recordWritrer

// make a task context so we can get the classes
    org.apache.hadoop.mapreduce.TaskAttemptContext taskContext =
      new org.apache.hadoop.mapreduce.TaskAttemptContext(job, getTaskID());
    // make a reducer
    org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE> reducer =
      (org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE>)
        ReflectionUtils.newInstance(taskContext.getReducerClass(), job);
     org.apache.hadoop.mapreduce.RecordWriter<OUTKEY,OUTVALUE> trackedRW = 
       new NewTrackingRecordWriter<OUTKEY, OUTVALUE>(reduceOutputCounter,
         job, reporter, taskContext);//NewTrackingRecordWriter一样也是recordWriter的代理类
    job.setBoolean("mapred.skip.on", isSkipping());

2.写出key和value

在自定义Reducer运行run方法中，调用reducer进行业务处理

public void run(Context context) throws IOException, InterruptedException {
    setup(context);
    while (context.nextKey()) {
      reduce(context.getCurrentKey(), context.getValues(), context);//执行reduce
    }
    cleanup(context);
  }

在reducer的reduce方法，使用Reducer$Context调用自定义recordWriter的代理类

Reducer$Context代码：

/**
   * Generate an output key/value pair.
   */
  public void write(KEYOUT key, VALUEOUT value
                    ) throws IOException, InterruptedException {
    output.write(key, value);
  }

NewTrackingRecordWriter代码：

@Override
    public void write(K key, V value) throws IOException, InterruptedException {
      long bytesOutPrev = getOutputBytes(fsStats);
      real.write(key,value);
      long bytesOutCurr = getOutputBytes(fsStats);
      fileOutputByteCounter.increment(bytesOutCurr - bytesOutPrev);
      outputRecordCounter.increment(1);
    }

最终在reducerTask中关闭writter

reducer.run(reducerContext);
trackedRW.close(reducerContext);

源码

finalcola

0 关注 0 粉丝 0 动态

关注关注

Java+Linux，深入内核源码讲解多线程之进程

之前写了两篇文章，都是针对Linux这个系统的，为什么?我为什么这么喜欢写这个系统的知识，可能就是为了今天的内容多线程系列，现在多线程不是一个面试重点啊，那如果你能深入系统内核回答这个知识点，面试官会怎么想?你会不会占据面试的主动权今天，我就开始一个系

瓜牛呱呱 2020-11-12

java Activiti工作流引擎 websocket即时聊天发图片文字好友群组 SSM源码

工作流模块----------------------------------------------------------------------------------------------------------

柳木木的IT 2020-11-04

为Linux的cp和mv命令添加进度条

cp和mv可能是大家日常中使用最多的Linux命令之一。但是有一个突出的问题是这两个命令都不会有任何提示信息，这在操作大文件时候只能干等。可能大家对此已经习以为常，但是其实上也有解决解决方法，本文我们就介绍一个Gnu Coreutils的补丁Advanc

yifouhu 2020-11-02

彻底搞懂Node.js中的Require机制

自己手写实现一个 require，面试用也可以。require 函数是如何产生的？为什么在 module 中可以直接使用。Node.js 中 require 会出现循环引用问题吗？require 是同步还是异步的？exports 和 module.expo

lei0 2020-11-02

Vue源码中值得学习的方法

最近在深入研究vue源码，把学习过程中，看到的一些好玩的的函数方法收集起来做分享，希望对大家对深入学习js有所帮助。如果大家都能一眼看懂这些函数，说明技术还是不错的哦。

源码zanqunet 10评论 2020-10-28

SpringBoot外化配置源码解析：综合实战演示参数及配置

本章我们讲解了关于 Spring Boot 外化配置的原理及源码分析，本节我们通过一个具体的例子来简单演示在 Spring Boot 中如何使用不同类型的参数及配置。本节实例涉及的部分新知识点我们也会进行简单介绍和拓展。由于 Spring Boot 已经

源码zanqunet 2020-10-26

从Linux源码看Socket(TCP)的Listen及连接队列

从Linux源码看Socket的listen及连接队列前言笔者一直觉得如果能知道从应用到框架再到操作系统的每一处代码，是一件Exciting的事情。今天笔者就来从Linux源码的角度看下Server端的Socket在进行listen的时候到底做了哪些事情，

一叶梧桐 6评论 2020-10-14

Redux源码解析系列 (二)-- 牛鼻的createStore

在上一章了解了之后，我们正式进入源码解析~下面我来对其进行解析~前面说 createStore的作用就是：创建一个store来管理app的状态，唯一改变状态的方式就是dispatch一个action，最终返回一个object。reducer:就是通过传入当

码代码的陈同学 2020-10-14

Spring源码之Bean实例化基本原理

实例化Bean对象，这个时候Bean的对象是非常低级的，基本不能够被我们使用，因为连最基本的属性都没有设置，可以理解为连Autowired注解都是没有解析的;填充属性，当做完这一步，Bean对象基本是完整的了，可以理解为Autowired注解已经解析完毕，

lukezhong 2020-10-14

从Linux源码看Socket(TCP)的Bind

笔者一直觉得如果能知道从应用到框架再到操作系统的每一处代码，是一件Exciting的事情。今天笔者就来从Linux源码的角度看下Server端的Socket在进行bind的时候到底做了哪些事情。众所周知，一个Server端Socket的建立，需要socke

lzzyok 2评论 2020-10-10

Vue进阶面试必问，异步更新机制和nextTick原理

vue已是目前国内前端web端三分天下之一，同时也作为本人主要技术栈之一，在日常使用中知其然也好奇着所以然，另外最近的社区涌现了一大票vue源码阅读类的文章，在下借这个机会从大家的文章和讨论中汲取了一些营养，同时对一些阅读源码时的想法进行总结，出产一些文章

anchongnanzi 5评论 2020-09-21

通过源码理解Rarp协议（基于linux1.2.13）

本文转载自微信公众号「编程杂技」，作者theanarkh 。rarp是通过mac地址查询ip的协议，主要用于有mac的主机，但是没有ip的情况。我们先看看rarp协议的协议定义。rarp协议的格式和arp协议是一样的，他们都是通过一种地址查询另外一种地址

clh0 2020-09-18

重新认识Typescript | Vue3源码系列

TypeScript is a typed superset of JavaScript that compiles to plain JavaScript. Any browser. Any host. Any OS. Open source.大致意思

changcongying 2020-09-17

Linux下Python3.6的安装及避坑指南

Python3在安装的过程中可能会用到各种依赖库，所以在正式安装Python3之前，需要将这些依赖库先行安装好。yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlit

星辰大海的路上 2020-09-13

源码分析C++的string的实现

我们平时使用C++开发过程中或多或少都会使用std::string，但您了解string具体是如何实现的吗，这里程序喵给大家从源码角度分析一下。string的常见的实现方式有几种？string类的内部结构是什么样子？string内部使用的内存是如何分配管理

abfdada 2020-08-26

干货ReentrantLock非公平锁源码分析

hello~各位读者好，我是鸭血粉丝。今天，阿粉带着大家来了解一下 ReentrantLock 锁的非公平锁的实现原理。默认是非公平锁。加锁的逻辑就比较复杂了，因为存在线程竞争。首先我们还是来看下 lock() 方法，因为最终是非公平的实现，所以直接看 N

mzy000 2020-08-24

学会反射后，我被录取了！

反射是一个非常重要的知识点，在学习Spring 框架时，Bean的初始化用到了反射，在破坏单例模式时也用到了反射，在获取标注的注解时也会用到反射······。当然了，反射在日常开发中，我们没碰到过多少，至少我没怎么用过。但面试是造火箭现场，可爱的面试官们

shenlanse 2020-08-18

搭建一对一直播平台，选择直播系统源码，这几点不容忽视

想要运营一个一对一直播平台，搭建网站是前提，而选择源码则是一切的基础，他关系到直播平台能否平稳运行。当然，源码的价格也都不便宜，便有很多想要自己开发平台的人，从各种渠道查找免费的直播源码使用，但使用这种源码往往会得不偿失。相比之下，找专业的服务商不仅能够保

zhujiangtaotaise 2020-08-18

关于Redis网络模型的源码详析

源码中包含四种多路复用函数库epoll、select、evport、kqueue。在程序编译时会根据系统自动选择这四种库其中之一。下面以epoll为例，来分析Redis的I/O模块的源码。Redis网络事件处理模块的代码都是围绕epoll那三个系统方法来写

xiemanR 2020-08-17

koa中间件核心（koa-compose）源码解读分析

最近经常使用koa进行服务端开发，迷恋上了koa的洋葱模型，觉得这玩意太好用了。而且koa是以精简为主，没有很多集成东西，所有的东西都需按需加载，这个更是太合我胃口了哈哈哈哈。基于对洋葱模型的热衷，所以对koa的洋葱模型进行一探究竟，不管是koa1还是ko

lert0 2020-08-16

安科网

hadoop自定义outputformat源码

finalcola

finalcola

相关推荐

Java+Linux，深入内核源码讲解多线程之进程

java Activiti工作流引擎 websocket即时聊天发图片文字好友群组 SSM源码

为Linux的cp和mv命令添加进度条

彻底搞懂Node.js中的Require机制

Vue源码中值得学习的方法

SpringBoot外化配置源码解析：综合实战演示参数及配置

从Linux源码看Socket(TCP)的Listen及连接队列

Redux源码解析系列 (二)-- 牛鼻的createStore

Spring源码之Bean实例化基本原理

从Linux源码看Socket(TCP)的Bind

Vue进阶面试必问，异步更新机制和nextTick原理

通过源码理解Rarp协议（基于linux1.2.13）

重新认识Typescript | Vue3源码系列

Linux下Python3.6的安装及避坑指南

源码分析C++的string的实现

干货ReentrantLock非公平锁源码分析

学会反射后，我被录取了！

搭建一对一直播平台，选择直播系统源码，这几点不容忽视

关于Redis网络模型的源码详析

koa中间件核心（koa-compose）源码解读分析

finalcola