新手入门大数据 Hadoop基础与电商行为日志分析(三)

HDFS:
1.分布式
2.commdity hardware 通用硬件上面
3.高容错
4.high throughput 高吞吐
5.large data set
普通文件系统 VS 分布式的文件系统
单机 横跨N个机器
前提和设计目标:
hardware failure硬件错误
崩溃后的快速恢复
Streaming Data Access HDFS更适合批处理,对延迟的要求不高
关注的是吞吐量,而不是低延迟
Large Data Set 大规模数据集
Moving Computation is cheaper than moving data移动计算比移动数据更划算

HDFS架构
1)Namenode(master)和Datanodes(slave)
2)master和slave 主从关系

相关推荐