Hadoop文件系统介绍

提起Hadoop文件系统,首先想到的是HDFS,HDFS是Hadoop主要的文件系统,Hadoop还集成了其他文件系统。Hadoop的文件系统是一个抽象的概念,HDFS只是其中的一种实现,Java抽象类org.apache.hadoop.fs.FileSystem定义了Hadoop的一个文件系统接口,该抽象类有不同的具体实现。

下面将逐个介绍。

1 HDFS,Hadoop的分布式文件系统。

2 Local,使用了客户端校验和的本地磁盘文件系统。

3 HFTP,这是在HTTP上提供对于HSFS分布式文件系统进行制度访问的一个文件系统,注意该文件系统与FTP没有关系,通常都是与distcp命令结合使用,可以实现在不同版本的HDFS系统之间进行数据传递。(如果在两个不同版本的HDFS系统之间用distcp复制数据,由于两个版本的RPC(Remote Procedure Call,远程过程调用)是不兼容的,这样就可以利用基于只读HTTP协议的HFTP文件系统从源文件系统中读取数据。

4 HSFTP,在HTTPS(Hypertext Transfer Protocol over Secure Socket Layer,以安全为目标的HTTP通道,简单讲是HTTP的安全版)上对HDFS提供制度访问的文件系统。

5 HAR,构建在其他文件系统之上,主要用于文件存档的文件系统,对HDFS中的文件进行归档,以减少NameNode的内存使用。

6 HFS,类似于HDFS或者Google的GFS的文件系统,C++编写。

7 FTP,由FTP服务器支持的文件系统。

相关推荐