Hadoop开发中常用工具用法解析

maxhello

2010-06-04

本节和大家学习一下Hadoop开发中常用的工具InputFormat和OutputFormat使用，相信通过本节的学习大家能够掌握更多关于Hadoop开发方面的知识，让我们一起来学习吧。首先我们来看一下Hadoop的概念。

Hadoop概念

一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更

容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用

来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX

的要求（requirements）这样可以流的形式访问（streamingaccess）文件系统中的数据。下面我们开始介绍Hadoop开发中常用的工具InputFormat和OutputFormat。

InputFormat和OutputFormat

Hadoop中的MapReduce框架依赖InputFormat提供数据，依赖OutputFormat输出数据；每一个MapReduce程序都离不开他们。

Hadoop提供了一系列InputFormat和OutputFormat方便开发，本文介绍几种常用的。TextInputFormat用于读取纯文本文件，文件被分为一系列以LF或者CR结束的行，key是每一行的位置

（偏移量,LongWritable类型），value是每一行的内容,Text类型。KeyValueTextInputFormat同样用于读取文件，如果行被分隔符（缺省是tab）分割为两部分，第一部分为key，剩下的部分为

value；如果没有分隔符，整行作为key，value为空SequenceFileInputFormat用于读取sequencefile。sequencefile是Hadoop用于存储数据自定义格式的binary文件。它有两个子类：

SequenceFileAsBinaryInputFormat，将key和value以BytesWritable的类型读出；SequenceFileAsTextInputFormat，将key和value以Text的类型读出。SequenceFileInputFilter根据filter从

sequence文件中取得部分满足条件的数据，通过setFilterClass指定Filter，内置了三种Filter，RegexFilter取key值满足指定的正则表达式的记录；PercentFilter通过指定参数f，取记录行数%

f==0的记录；MD5Filter通过指定参数f，取MD5(key)%f==0的记录。NLineInputFormat0.18.x新加入，可以将文件以行为单位进行split，比如文件的每一行对应一个map。得到的key是每一行

的位置（偏移量,LongWritable类型），value是每一行的内容,Text类型。CompositeInputFormat，用于多个数据源的join。TextOutputFormat，输出到纯文本文件，格式为key+""+value。

NullOutputFormat，hadoop中的/dev/null，将输出送进黑洞。