Hadoop 源码解析之-TextOutputFormat

luwenze

2012-04-02

因为需要自定义实现输出文件的格式，现在来分析一下TextOutputFormat的源码；

源码如下，注释会直接放在源码之中

package org.apache.Hadoop.mapreduce.lib.output;
import java.io.DataOutputStream;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.mapreduce.OutputFormat;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.util.*;
/** An {@link OutputFormat} that writes plain text files. */
public class TextOutputFormat<K, V> extends FileOutputFormat<K, V> {//TextInputFormat是默认的输出文件格式
protected static class LineRecordWriter<K, V>//默认
extends RecordWriter<K, V> {
private static final String utf8 = "UTF-8";
private static final byte[] newline;//行结束符？
static {
try {
newline = "\n".getBytes(utf8);
} catch (UnsupportedEncodingException uee) {
throw new IllegalArgumentException("can't find " + utf8 + " encoding");
}
}
protected DataOutputStream out;
private final byte[] keyValueSeparator;//key和value的分隔符，默认的好像是Tab
public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {//构造函数，初始化输出流及分隔符
this.out = out;
try {
this.keyValueSeparator = keyValueSeparator.getBytes(utf8);
} catch (UnsupportedEncodingException uee) {
throw new IllegalArgumentException("can't find " + utf8 + " encoding");
}
}
public LineRecordWriter(DataOutputStream out) {//默认的分隔符
this(out, "\t");
}
/**
* Write the object to the byte stream, handling Text as a special输出流是byte格式的
* case.
* @param o the object to print是要输出的对象
* @throws IOException if the write throws, we pass it on
*/
private void writeObject(Object o) throws IOException {//应该是一行一行的写 key keyValueSeparator value \n
if (o instanceof Text) {//如果o是Text的实例
Text to = (Text) o;
out.write(to.getBytes(), 0, to.getLength());//写出
} else {
out.write(o.toString().getBytes(utf8));
}
}
public synchronized void write(K key, V value)//给写线程加锁，写是互斥行为
throws IOException {
<span style="white-space:pre"> </span>//下面是为了判断key和value是否为空值
boolean nullKey = key == null || key instanceof NullWritable;//这语句太牛了
boolean nullValue = value == null || value instanceof NullWritable;
if (nullKey && nullValue) {//
return;
}
if (!nullKey) {
writeObject(key);
}
if (!(nullKey || nullValue)) {
out.write(keyValueSeparator);
}
if (!nullValue) {
writeObject(value);
}
out.write(newline);
}
public synchronized
void close(TaskAttemptContext context) throws IOException {
out.close();
}
}
public RecordWriter<K, V> getRecordWriter(TaskAttemptContext job//获得writer实例
) throws IOException, InterruptedException {
Configuration conf = job.getConfiguration();
boolean isCompressed = getCompressOutput(job);//
String keyValueSeparator= conf.get("mapred.textoutputformat.separator",
"\t");
CompressionCodec codec = null;//压缩格式还是？
String extension = "";
if (isCompressed) {
Class<? extends CompressionCodec> codecClass =
getOutputCompressorClass(job, GzipCodec.class);
codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, conf);
extension = codec.getDefaultExtension();
}
Path file = getDefaultWorkFile(job, extension);//这个是获取缺省的文件路径及名称，在FileOutput中有对其的实现
FileSystem fs = file.getFileSystem(conf);
if (!isCompressed) {
FSDataOutputStream fileOut = fs.create(file, false);
return new LineRecordWriter<K, V>(fileOut, keyValueSeparator);
} else {
FSDataOutputStream fileOut = fs.create(file, false);
return new LineRecordWriter<K, V>(new DataOutputStream
(codec.createOutputStream(fileOut)),
keyValueSeparator);
}
}
}

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

font 源码 apache hadoop

luwenze

0 关注 0 粉丝 0 动态

关注关注

win10家庭版找不到gpedit.msc的解决办法

最近在解决“管理员已阻止你运行此应用”时，需要用到“gpedit.msc”，在输入此命令却提示找不到。特将此问题的方法出来。在编辑器左侧依次找到“HKEY_CURRENT_USER\Software\Policies\Microsoft\MMC”。不过有的

IT之家 2020-03-11

Linux解压文件

1、*.tar 用 tar –xvf 解压2、*.gz 用 gzip -d或者gunzip 解压3、*.tar.gz和*.tgz 用 tar –xzf 解压4、*.bz2 用 bzip2 -d或者用bunzip2 解压5、*.tar.bz2用tar –xj

graseed 2020-10-28

VS Code + PlantUML实现跨平台设计

在日常的开发设计中，不可避免的要对系统进行一些UML相关的设计。UML通过一种可视化的方式，对系统进行建模、设计，它是一种统一建模语言。在Windows操作系统下，Visio是一种常用的建模工具。PlantUML 是一个开源项目,支持快速绘制时序图、用例图

zbkyumlei 2020-10-12

jackson gson

private static final ObjectMapper objectMapper = new ObjectMapper();

SXIAOYI 2020-09-16

让数据处理更简单？百度EasyData推出首个高级智能数据清洗功能

在进行AI模型开发时，数据的数量与质量直接影响模型效果。在实地数据采集之后，企业往往需要从大量数据中筛选出符合训练要求的相关数据，剔除质量差或不相关的数据，这个步骤被称为数据清洗。针对数据清洗这一具体功能，EasyData目前上线了去相似、去模糊、旋转、裁

jinhao 2020-09-07

总结一些，我在书写 CSS 的时候，经常犯的错误！

当我们非常专注写代码时候，我们往往会无意识的写出一些无效CSS代码。我把这种称为 “潜意识错误”。不过，这些错误都比较好解决，不需要花很多时间，只要纠正一下就行了。跟着本文看看，我会经常写哪些有趣的 CSS 错误。/*现这一点并不容易，你们看出错误在哪里吗

impress 2020-08-26

如何用Spring WebFlux构建Reactive REST API

在本文中，我们将讨论如何使用Spring WebFlux来构建响应式REST API。在正式讨论之前，让我们首先来看看系统的开发，传统REST在实现中遇到的问题，以及当前API的普遍需求。如今的系统讲求的是：分布式应用、云原生、高可用性和可扩展性。因此，

liuqipao 2020-07-07

css常用的简写技巧_css background简写、css border 简写、css font属性简写等

css样式中有很多简写方式，比如：设置背景，字体，边框，盒子等。我们都可以把css代码合并为一行，这篇文章将总结有哪些属性支持css简写。font:normal small-caps bold 14px/1.5em ‘宋体‘,arial,verdana;d

淡风wisdon大大 2020-06-06

数据科学家、开发者的新神器 Amazon SageMaker正式上线中国区

机器学习自诞生至今，已经被应用在很多领域，但目前来看对于从业人员来说仍然存在着一些阻力。首先是机器学习方向的学习门槛高，人工智能、机器学习这些知识，相对来说比较苦涩难懂，对学习人员的综合素养要求高；想要真正成为一名机器学习工程师。而近期登陆中国区的Amaz

yoohsummer 2020-06-01

雷林鹏分享：Apache POI字体/Fonts

　　本章介绍如何设置不同的字体，应用样式，并在Excel电子表格中显示的方向不同角度的文字。　　每个系统附带一个很大的字体如 Arial, Impact, Times New Roman,等字体集合也可以用新的字体更新，如果需要的话。同样也有各种风格，其中

chenjia00 2020-05-29

虹软开放平台算法上新助力全面拓展人脸识别细分化场景

自虹软视觉开放平台ArcFace3.0上线以来，凭借对人脸识别、活体检测、年龄检测、性别检测等核心算法模型的全面升级，其算法鲁棒性大幅提升，接入门槛显著降低，并继续秉承了免费、离线的核心，进而成为了广大开发者落地AI应用的利器。因此，虹软视觉开放平台也在近

baike 2020-05-19

JQuery省市联动效果实现过程详解

在我们的注册表单中,通常我们需要知道用户的籍贯,需要一个给用选择的项,当用户选中了省份之后,列出省下面所有的城市。<div id="div1">this is a text that will be replaced!var

扭来不叫牛奶 2020-05-08

代码（移动端rem初始化设置1rem=15px）

这是之前项目的rem基本设置，这样，在vscode中安装cssrem插件后，改成1rem=15px，其他的屏幕也将得到相应适配。

hxmilyy 2020-05-11

Blogs顶部添加欢迎信息

<div style="text-align: center; font-size:20px; margin-bottom:0px; margin-top:0px; opacity:0.5; ">欢迎来到Panda.Li个

黎豆子 2020-05-07

Markdown常用语法

---***7.引用Markdown提供了一个特殊符号>用于段首进行强调，被强调的文字部分将会高亮显示。引用也可以嵌套，如加两个>>三个>>>...>引用1>>引用2效果：引用1 引用2

xiongweiwei00 2020-04-29

JAVA数据结构与算法之数组与队列（二）

2) 遵循先入先出的原则。后存入的要后取出。1) 队列本身是有序列表，若使用数组的结构来存储队列的数据，则队列数组的声明如上图, 其中 maxSize 是该队列的最大容量。2）因为队列的输出、输入是分别从前后端来处理，因此需要两个变量 front 及 r

Cypress 2020-04-25

CSS之em、rem、px区别介绍

　　rem是相对于根目录的，所有它会随HTML元素的属性变化而变化

尚衍亮 2020-04-24

css动画 animation

animation-name:textgo;(动画名)animation-duration:3s;animation-timing-function:速度曲线// animation-iteration-count:动画次数//animation-dire

冰蝶 2020-04-20

CSS3（6）字体

使用 CSS3，网页设计师可以使用他/她喜欢的任何字体。只需简单的将字体文件包含在网站中，它会自动下载给需要的用户。在新的 @font-face 规则中，您必须首先定义字体的名称，然后指向该字体文件。

sdbxpjzq 2020-04-11

Win10 19592快速预览版怎么手动更新？

3月26日，微软在快速通道又推送了 Windows 10 Insider Preview 19592.1001系统更新。下面介绍Windows 10 19592 快速预览版更新教程。在管理员Windows PowerShell 窗口中输入 sfc /SCA

huangkanII 2020-03-25

安科网

Hadoop 源码解析之-TextOutputFormat

luwenze

luwenze

相关推荐

win10家庭版找不到gpedit.msc的解决办法

Linux解压文件

VS Code + PlantUML实现跨平台设计

jackson gson

让数据处理更简单？百度EasyData推出首个高级智能数据清洗功能

总结一些，我在书写 CSS 的时候，经常犯的错误！

如何用Spring WebFlux构建Reactive REST API

css常用的简写技巧_css background简写、css border 简写、css font属性简写等

数据科学家、开发者的新神器 Amazon SageMaker正式上线中国区

雷林鹏分享：Apache POI字体/Fonts

虹软开放平台算法上新助力全面拓展人脸识别细分化场景

JQuery省市联动效果实现过程详解

代码（移动端rem初始化设置1rem=15px）

Blogs顶部添加欢迎信息

Markdown常用语法

JAVA数据结构与算法之数组与队列（二）

CSS之em、rem、px区别介绍

css动画 animation

CSS3（6）字体

Win10 19592快速预览版怎么手动更新？

luwenze