探索Hadoop OutputFormat

GMCWXH

2014-08-28

OutputFormats是做什么的？

OutputFormt接口决定了在哪里以及怎样持久化作业结果。Hadoop为不同类型的格式提供了一系列的类和接口，实现自定义操作只要继承其中的某个类或接口即可。你可能已经熟悉了默认的OutputFormat，也就是TextOutputFormat，它是一种以行分隔，包含制表符界定的键值对的文本文件格式。尽管如此，对多数类型的数据而言，如再常见不过的数字，文本序列化会浪费一些空间，由此带来的结果是运行时间更长且资源消耗更多。为了避免文本文件的弊端，Hadoop提供了SequenceFileOutputformat，它将对象表示成二进制形式而不再是文本文件，并将结果进行压缩。下面是Hadoop提供的类层次结构：

FileOutputFormat（实现OutputFormat接口）—— 所有OutputFormats的基类
- MapFileOutputFormat —— 一种使用部分索引键的格式
- SequenceFileOutputFormat —— 二进制键值数据的压缩格式
  - SequenceFileAsBinaryOutputFormat —— 原生二进制数据的压缩格式
- TextOutputFormat —— 以行分隔、包含制表符定界的键值对的文本文件格式
- MultipleOutputFormat —— 使用键值对参数写入文件的抽象类
  - MultipleTextOutputFormat —— 输出多个以标准行分割、制表符定界格式的文件
  - MultipleSequenceFileOutputFormat —— 输出多个压缩格式的文件

OutputFormat提供了对RecordWriter的实现，从而指定如何序列化数据。 RecordWriter类可以处理包含单个键值对的作业，并将结果写入到OutputFormat中准备好的位置。RecordWriter的实现主要包括两个函数：“write”和“close”。“write”函数从Map/Reduce作业中取出键值对，并将其字节写入磁盘。LineRecordWriter是默认使用的RecordWriter，它是前面提到的TextOutputFormat的一部分。它写入的内容包括：

“close”函数会关闭Hadoop到输出文件的数据流。键(key)的字节（由getBytes()函数返回）
一个用以定界的制表符
值(value)的字节（同样由getBytes()函数返回）
一个换行符

我们已经讨论了输出数据的格式，下面我们关心的问题是数据存储在何处？同样，你或许看到过某个作业的输出结果会以多个“部分”文件的方式存储在输出目录中，如下：

|-- output-directory
| |-- part-00000
| |-- part-00001
| |-- part-00002
| |-- part-00003
| |-- part-00004
   '-- part-00005

默认情况下，当需要写入数据时，每个进程都会在输出目录创建自己的文件。数据由reducers在作业结束时写入（如果没有reducers会由mapper写入）。即使在本文后面提到的创建自定义输出目录时，我们仍会保持写入“部分”文件，这么做可以让多个进程同时写入同一个目录而互不干扰。

自定义OutputFormat

从前面我们已经看到，OutputFormat类的主要职责是决定数据的存储位置以及写入的方式。那么为什么要自定义这些行为呢？自定义数据位置的原因之一是为了将Map/Reduce作业输出分离到不同的目录。例如，假设需要处理一个包含世界范围内的搜索请求的日志文件，并希望计算出每个国家的搜索频度。你想要在不牵涉其他国家的前提下能够查看某个特定国家的结果。也许以后在你的数据管道中，会用不同的进程来处理不同的国家，或者想要把某个特定国家的结果复制一份到该国的数据中心去。使用默认的OutputFormat时，所有的数据都会存储在同一目录下，这样在不浏览的情况下是无从知晓“部分”文件的内容的。而通过使用自定义的OutputFormat，你可以为每个国家创建一个子目录的布局，如下：

|-- output-directory
|   |-- France
|   |   |-- part-00000
|   |   |-- part-00001
|   |   '-- part-00002
... |
|   '-- Zimbabwe
|       |-- part-00000
|       |-- part-00001
|       '-- part-00002

其中每个部分文件都具有键值对（“搜索词汇”=>频度）。现在只要简单地指定某个国家数据所在的路径，就可以只读取该国家的数据了。下面我们将看到怎样继承MultipleTextOutputFormat类，以获得所需的行为。

多路输出

为了解决上面的搜索日志的问题，我们继承了MultipleTextOutputFormat类，并根据被写入的键值来选择输出目录。我们的Map/Reduce作业将会为搜索请求所在国家生成一个键，并为搜索词汇及该搜索的频度产生一个值。由于MultipleTextOutputFormat已经知道如何写入文本文件，因此并不需要为OutputFormat实现序列化功能。清单1实现了该类：

1 package oddjob.hadoop;
2
3 import org.apache.hadoop.fs.Path;
4 import org.apache.hadoop.io.Text;
5 import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat;
6
7 public class MultipleTextOutputFormatByKey extends MultipleTextOutputFormat<Text, Text> {
8
9        /**
10        * Use they key as part of the path for the final output file.
11        */
12       @Override
13       protected String generateFileNameForKeyValue(Text key, Text value, String leaf) {
14             return new Path(key.toString(), leaf).toString();
15       }
16
17       /**
18        * When actually writing the data, discard the key since it is already in
19        * the file path.
20        */
21       @Override
22       protected Text generateActualKey(Text key, Text value) {
23             return null;
24          }
25 }

清单1：MultipleTextOutputFormat子类样例

MultipleTextOutputFormatByKey类的generateActualFileNameForKeyValue方法指定了作业输出的存储位置（第13行）。对于每组由Map/Reduce作业生成的键值对，该类会把键加入到路径名称中作为输出。“leaf”参数就是我们之前看到的“part-0000”，它在每个reducer中都是独一无二的，这样可以允许不同进程同时写入到输出目录而互不影响。例如，由第一个reducer产生的键为“France”、值为“soccer 5000”的结果会被写入到“output-directory/France/part-00000”内的某个文件中。

要使用这个类，需确保Hadoop包含了这个自定义类的jar，并使用完整的类名作为“-outputformat”的参数：

hadoop jar hadoop-streaming.jar -libjars CustomOutputFormats.jar \
  -outputformat oddjob.hadoop.MultipleTextOutputFormatByKey \
  -input search-logs \
  -output search-frequency-by-country \
  -mapper parse-logs.py \
  -reducer count-searches.py

清单1是oddjob项目中某个类的Java实现。oddjob是一个开源库，提供了多种MultipleTextOutputFormat。虽然这个库面向的是Hadoop的流特性，但是它也可以用在产生文本键值输出的其他作业中。

border margin hadoop

安科网

探索Hadoop OutputFormat

GMCWXH

OutputFormats是做什么的？

自定义OutputFormat

多路输出

GMCWXH

相关推荐

Wyn Enterprise中如何转换数据类型？

css基础--盒子模型

css常用的简写技巧_css background简写、css border 简写、css font属性简写等

Scope- ruby中变量的作用范围

rails常用命令

浏览器缓存机制

inotify+rsync实现linux文件批量更新[转]

企鹅日记（九）：正则表达式

CentOS安装sendmail及设置

如何为 Mac 安装 Java？

CSS盒子模型

CSS（五）- 背景与边框 - 边框圆角与阴影基础用法

纯css如何绘制三角形_利用border实现画三角形的原理方法

你知道我们平时在CSS中写的%都是相对于谁吗？

css 四个角

用css制作三角形图标

CSS盒模型（重点）

CSS盒模型（重点）

css解决移动端1px边框问题

Kafka 客户端的缓存管理

GMCWXH