Hadoop的I/O

shenhongdb

2012-04-06

1. 数据完整性：任何语言对IO的操作都要保持其数据的完整性。Hadoop当然希望数据在存储和处理中不会丢失或损坏。检查数据完整性的常用方法是校验和。

HDFS的数据完整性：客户端在写或者读取HDFS的文件时，都会对其进行校验和验证，当然我们可以通过在Open（）方法读取之前，将false传给FileSystem中的setVerifyCheckSum()来禁用校验和。
本地文件系统，hadoop的本地文件系统执行客户端校验，这意味着，在写一个filename文件时，文件系统的客户端以透明方式创建了一个隐藏的文件.filename.crc,块的大小做为元数据存于此，所以读取文件时会进行校验和验证。
ChecksumFileSystem：可以通过它对其数据验证。

2. 压缩：压缩后能够节省空间和减少网络中的传输。所以在hadoop中压缩是非常重要的。hadoop的压缩格式

压缩格式	算法	文件扩展名	多文件	可分割性
DEFLATEa	DEFLATE	.deflate	no	no
gzip（zip）	DEFLATE	.gz(.zip)	no(yes)	no(yes)
bzip2	bzip2	.bz2	no	yes
LZO	LZO	.lzo	no	no

编码/解码

Compression format Hadoop CompressionCodec

DEFLATE org.apache.hadoop.io.compress.DefaultCodec

gzip org.apache.hadoop.io.compress.GzipCodec

bzip2 org.apache.hadoop.io.compress.BZip2Codec

LZO com.hadoop.compression.lzo.LzopCodec

可以用ComressionCodec轻松的压缩和解压缩。我们可以用CompressionOutput创建一个CompressionOutputStream（未压缩的数据写到此）。相反，可以用compressionInputStream进行解压缩。

/**
* @param args
*/
public static void main(String[] args) throws Exception
{
// TODO Auto-generated method stub
String codecClassname = args[0];
Class<?> codecClass = Class.forName(codecClassname);
Configuration configuration = new Configuration();
CompressionCodec codec = (CompressionCodec)ReflectionUtils.newInstance(codecClass, configuration);
CompressionOutputStream outputStream = codec.createOutputStream(System.out);
IOUtils.copyBytes(System.in, outputStream, 4096,false);
outputStream.finish();
}

压缩和分割：因为HDFS默认是以块的来存储数据的，所以在压缩时考虑是否支持分割时非常重要的。
在MapReduce使用压缩：例如要压缩MapReduce作业的输出，需要将配置文件中mapred.output.compress的属性设置为true

public static void main(String[] args) throws IOException {
if (args.length != 2) {
System.err.println("Usage: MaxTemperatureWithCompression <input path> " +
"<output path>");
System.exit(-1);
}
JobConf conf = new JobConf(MaxTemperatureWithCompression.class);
conf.setJobName("Max temperature with output compression");
FileInputFormat.addInputPath(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
/*[*/conf.setBoolean("mapred.output.compress", true);
conf.setClass("mapred.output.compression.codec", GzipCodec.class,
CompressionCodec.class);/*]*/
conf.setMapperClass(MaxTemperatureMapper.class);
conf.setCombinerClass(MaxTemperatureReducer.class);
conf.setReducerClass(MaxTemperatureReducer.class);
JobClient.runJob(conf);
}

3.序列化：将字节流和机构化对象的转化。hadoop是进程间通信（RPC调用），PRC序列号结构特点：紧凑，快速，可扩展，互操作，hadoop使用自己的序列化格式Writerable，

Writerable接口：

package org.apache.hadoop.io;
import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;
public interface Writable {
void write(DataOutput out) throws IOException;// 将序列化流写入DataOutput
void readFields(DataInput in) throws IOException; //从DataInput流读取二进制
}

package WritablePackage;
import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.DataInputStream;
import java.io.DataOutputStream;
import java.io.IOException;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.util.StringUtils;
import org.hsqldb.lib.StringUtil;
public class WritableTestBase
{
public static byte[] serialize(Writable writable) throws IOException
{
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
DataOutputStream dataOutputStream = new DataOutputStream(outputStream);
writable.write(dataOutputStream);
dataOutputStream.close();
return outputStream.toByteArray();
}
public static byte[] deserialize(Writable writable,byte[] bytes) throws IOException
{
ByteArrayInputStream inputStream = new ByteArrayInputStream(bytes);
DataInputStream dataInputStream = new DataInputStream(inputStream);
writable.readFields(dataInputStream);
dataInputStream.close();
return bytes;
}
public static String serializeToString(Writable src) throws IOException
{
return StringUtils.byteToHexString(serialize(src));
}
public static String writeTo(Writable src, Writable des) throws IOException
{
byte[] data = deserialize(des, serialize(src));
return StringUtils.byteToHexString(data);
}
}

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

校验和 font font-size font-family hadoop td

shenhongdb

0 关注 0 粉丝 0 动态

关注关注

Golang-执行go get私有库提示”410 Gone“ 解决办法

我们知道go会在go module启用时在本地建立一个go.sum文件，用来存储依赖包特定版本的加密校验和。同时，Go维护下载的软件包的缓存，并在下载时计算并记录每个软件包的加密校验和。在正常操作中，go命令对照这些预先计算的校验和去检查某repo下的go

linmufeng 2020-02-21

【我的Linux，我做主！】浅谈MD5校验文件完整一致性

（一）MD5介绍(1.1)MD5即Message-Digest Algorithm 5，用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一，主流编程语言普遍已由MD5实现。将数据运算为另一固定长度值，是杂凑算法的基础原理，MD5的前身有MD2、MD3

蜗牛慢爬的李成广 2019-12-22

Docs-.NET-C#-指南-语言参考-预处理器指令：#pragma checksum（C# 参考）

生成源文件的校验和以帮助调试 ASP.NET 页面。"filename"需要监视更改或更新的文件的名称。"{guid}"哈希算法的全局唯一标识符。"checksum_bytes"表示校验和字节的

Bonrui编程路 2019-11-11

springmvc使用@Valid和@ControllerAdvise实现请求参数校验统一异常处理

最开始我使用的是jsp+servlet。接收之后，我们还得进行一连串的参数校验。现在使用springboot的mvc。使用@ReuestBody接收参数，自动将前端参数解析封装成实体类。下面我介绍一个简单的方式，通过@Valid和@ControllerAd

吾日五省我身 2019-11-09

git文件存储原理解析(八)

从内部来看，Git 是简单的 key-value 数据存储。它允许插入任意类型的内容，并会返回一个键值，通过该键值可以在任何时候再取出该内容。可以通过底层命令hash-object来示范这点，传一些数据给该命令，它会将数据保存在.git目录并返回表示这些数

freemandealer 2016-02-02

几种常用的数据校验方式

我们知道数据在传输过程中，可能会存在数据出错的情况。为了保证数据传输的正确性，因此会采取一些方法来判断数据是否正确，或者在数据出错的时候及时发现进行改正。常用的几种数据校验方式有奇偶校验、CRC校验、LRC校验、格雷码校验、和校验、异或校验等。根据被传输的

Ctommy 2018-03-22

我使用过的Linux命令之rz - 批量上传文件，简单易用

　　rz命令可以批量上传文件，当然也可上传单个文件啦。使用的协议是古老的ZMODEM协议，虽然协议古老，但毫不影响的简单易用的特性。一般情况我们要上传文件到Linux系统，要么使用ftp，要么使用sftp，上传一个文件要敲不少命令。而这里介绍的rz命令，只

chengdafeng 2010-11-20

防火墙为什么要对多连接协议进行特殊处理

本文档的Copyleft归yfydz所有，使用GPL发布，可以自由拷贝，转载，转载时请保持文档的完整性，严禁用于任何商业用途。多连接协议的支持对状态检测防火墙来说需要特别处理，对于公开的协议，可以根据其协议规范来定制专门的支持模块，而如果协议是保密，对防火

无忧老猪 2011-01-10

Hadoop实战-初级部分之 Hadoop IO

数据节点负责在存储数据及其校验和之前验证它们收到的数据。客户端写入数据并且将它发送到一个数据节点管线中，在管线的最后一个数据节点验证校验和。每个数据节点维护一个连续的校验和验证日志，因此它知道每个数据块最后验证的时间。意味着，在写一个名filename的文

ououlal 2014-01-13

Python--Redis实战：第四章：数据安全与性能保障：第5节：处理系统故障

本章在系统故障这个专题花费了大量的篇幅，这是因为如果我们决定要将Redis用作应用程序唯一的数据存储手段，那么就必须确保Redis不会丢失任何数据。这一节接下来将对Redis提供的一些工具进行介绍，说明如何使用这些工具来应对潜在的系统故障。下面先来看看在出

axiejundong 2019-06-29

Git 使用指南

git clone [远端仓库] [目标文件夹名称]git log查看历史提交。当前分支按时间先后顺序显示到[校验和]为止git log [校验和]选项：。--oneline：精简至单行版本--stat：增加文件修改信息-p：忽略空格引起的不同-w：忽略空

xigua 2019-06-28

Hadoop实战-初级部分之 Hadoop IO

数据节点负责在存储数据及其校验和之前验证它们收到的数据。客户端写入数据并且将它发送到一个数据节点管线中，在管线的最后一个数据节点验证校验和。每个数据节点维护一个连续的校验和验证日志，因此它知道每个数据块最后验证的时间。在同一个文件夹下，包含每个文件块的校验

Harper 2012-08-25

Hibernate悲观锁定与乐观锁定区别

转Hibernate悲观锁定与乐观锁定区别为了避免丢失更新，要使用某种锁定策略，共有两种锁定策略：悲观锁定或乐观锁定。例如，用户一旦有意对他选择的某个特定行执行更新，如单击屏幕上的一个按钮，就会放上一个锁。悲观锁定仅用于有状态或有连接的环境,这是20世纪9

平步星云 2010-11-27

在Linux上识别同样内容的文件详解

有时文件副本相当于对硬盘空间的巨大浪费，并会在你想要更新文件时造成困扰。在最近的帖子中，我们看了如何识别并定位硬链接的文件。硬链接很有用是因为它们能够使文件存放在文件系统内的多个地方却不会占用额外的硬盘空间。可能比较两个文件最简单的方法是使用 diff

lfjjia 2019-06-10

Hadoop分布式文件系统：架构和设计要点Ⅱ（转）

对于任何对文件元数据产生修改的操作，Namenode都使用一个称为Editlog的事务日志记录下来。例如，在HDFS中创建一个文件，Namenode就会在Editlog中插入一条记录来表示；同样，修改文件的replication因子也将往Editlog插入

isHooky 2010-04-02

git 分支详解

Git 分支几乎每一种版本控制系统都以某种形式支持分支。使用分支意味着你可以从开发主线上分离开来，然后在不影响主线的同时继续工作。在很多版本控制系统中，这是个昂贵的过程，常常需要创建一个源代码目录的完整副本，对大型项目来说会花费很长时间。有人把 Git 的

huisexiaobaitu 2013-02-04

保护代码完整性（六）：在 Git 上使用 PGP

我们继续我们的 PGP 实践系列，来看看签名标签的标签和提交，这可以帮你确保你的仓库没有被篡改。在本系列教程中，我们提供了一个使用 PGP 的实用指南，包括基本概念和工具、生成和保护你的密钥。在这篇文章中，我们谈一谈在 Git 中如何集成 PGP、使用签名

prowill 2019-01-07

在 Ubuntu Linux 上安装 IntelliJ IDEA

几年前，Eclipse可以堪称Java开发IDE的王者。但是，近年来，来自于JetBrains的IntelliJ IDEA，变得非常流行，它被许多开发人员认为是当前最好的　java ide。本教程将介绍如何在Linux上安装它。本教程使用Linux Min

Garfier 2016-12-06

如何在Debian/Ubuntu Linux中校验已安装软件包的MD5和？

你有没有想过为什么安装在你系统上的某个二进制文件或软件包没有按预期的那样来运行，或者说没有按正常的方式来运行，也许它根本就无法启动。下载软件包时，你可能面临这些挑战：网络连接不稳定或者突然断电，这会导致安装的软件包受到损坏。在Debian/Ubuntu系统

85510591 2016-10-19

Quagga上使用验证加固BGP会话安全

BGP协议运行于TCP之上，因而，它也继承了TCP连接的所有漏洞。例如，在一个BGP会话内，攻击者可以冒充一个合法的BGP邻居，然后说服另一端的BGP路由器共享路由信息给攻击者。在攻击者通告并向邻居路由注入伪造的路由时，就会发生这个问题。毫无戒备的邻居路由

jayjaydream 2015-05-27

安科网

Hadoop的I/O

shenhongdb

shenhongdb

相关推荐

Golang-执行go get私有库提示”410 Gone“ 解决办法

【我的Linux，我做主！】浅谈MD5校验文件完整一致性

Docs-.NET-C#-指南-语言参考-预处理器指令：#pragma checksum（C# 参考）

springmvc使用@Valid和@ControllerAdvise实现请求参数校验统一异常处理

git文件存储原理解析(八)

几种常用的数据校验方式

我使用过的Linux命令之rz - 批量上传文件，简单易用

防火墙为什么要对多连接协议进行特殊处理

Hadoop实战-初级部分之 Hadoop IO

Python--Redis实战：第四章：数据安全与性能保障：第5节：处理系统故障

Git 使用指南

Hadoop实战-初级部分之 Hadoop IO

Hibernate悲观锁定与乐观锁定区别

在Linux上识别同样内容的文件详解

Hadoop分布式文件系统：架构和设计要点Ⅱ（转）

git 分支详解

保护代码完整性（六）：在 Git 上使用 PGP

在 Ubuntu Linux 上安装 IntelliJ IDEA

如何在Debian/Ubuntu Linux中校验已安装软件包的MD5和？

Quagga上使用验证加固BGP会话安全

shenhongdb