Hadoop开发中常用工具用法解析
本节和大家学习一下Hadoop开发中常用的工具InputFormat和OutputFormat使用,相信通过本节的学习大家能够掌握更多关于Hadoop开发方面的知识,让我们一起来学习吧。首先我们来看一下Hadoop的概念。
Hadoop概念
一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更
容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用
来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX
的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。下面我们开始介绍Hadoop开发中常用的工具InputFormat和OutputFormat。
InputFormat和OutputFormat
Hadoop中的MapReduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个MapReduce程序都离不开他们。
Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextInputFormat用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置
(偏移量,LongWritable类型),value是每一行的内容,Text类型。KeyValueTextInputFormat同样用于读取文件,如果行被分隔符(缺省是tab)分割为两部分,第一部分为key,剩下的部分为
value;如果没有分隔符,整行作为key,value为空SequenceFileInputFormat用于读取sequencefile。sequencefile是Hadoop用于存储数据自定义格式的binary文件。它有两个子类:
SequenceFileAsBinaryInputFormat,将key和value以BytesWritable的类型读出;SequenceFileAsTextInputFormat,将key和value以Text的类型读出。SequenceFileInputFilter根据filter从
sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种Filter,RegexFilter取key值满足指定的正则表达式的记录;PercentFilter通过指定参数f,取记录行数%
f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。NLineInputFormat0.18.x新加入,可以将文件以行为单位进行split,比如文件的每一行对应一个map。得到的key是每一行
的位置(偏移量,LongWritable类型),value是每一行的内容,Text类型。CompositeInputFormat,用于多个数据源的join。TextOutputFormat,输出到纯文本文件,格式为key+""+value。
NullOutputFormat,hadoop中的/dev/null,将输出送进黑洞。