浅谈Hadoop
HDFS有以下几个主要特点:
处理超大文件:存储的一个超大文件可以达到数GB级、数TB级、数PB级。
集群规模动态扩展:节点动态加入到集群,可以数百数千个
流式数据读写:HDFS的设计思想“一次写入,多次读取”,一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。
运行于廉价的商用机器集群上:HDFS设计时充分考虑了可靠性、安全性及高可用性,因此Hadoop对硬件要求比较低,可以运行于廉价的商用机器集群,无需昂贵的高可用性机器
2.HDFS的局限性:
不适合低延迟数据访问: HDFS是为了处理大型数据集,主要是为了达到高的数据吞吐量而设计,这就可能以高延迟作为代价。10毫秒以下的访问可以无视hdfs,不过hbase可以弥补这个缺
无法高效存储大量小文件: namenode节点在内存中存储住整个文件系统的元数据,因此文件的数量就会受到限制,每个文件的元数据大约150字节
不支持多用户写入及任意修改文件 :不支持多用户对同一文件进行操作,而且写操作只能在文件末尾完成,即追加操作。
HDFS以文件形式存储到分布式的每个datanode中,datanode由多个block组成,每个block一般为64M。
这些datanode的信息在Hadoop启动时,会缓存到namenode中。
Hadoop+HBase+ZooKeeper三者关系与安装配置
http://edu.dataguru.cn/thread-241488-1-1.html
Hive作为数据仓库
MapReduce作为计算框架