\"Hadoop/MapReduce/HBase\"分享总结
概述:
此分享是关于hadoop生态系统的简单介绍包括起源到相对应用
技术点:
1.hadoop核心包括Common,HDFS和MapReduce; 2.Pig,Hbase,Hive,Zookeeper; 3.Hadoop日志分析工具Chukwa; 4.MR解决的问题:海量输入数据,简单任务划分和集群计算环境; 5.执行流程:FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 6.分布式计算包括:作业和任务调度和执行,预测执行,故障处理和针对不同应用环境的优化 7.HDFS可靠性措施:NameNode备份,多数据结点(冗余),数据结点的心跳检测,块报告和完整性检验,NameNode的日志文件和镜像文件; 8.两个系列版本:Apache和Cloudera; 9.SSH无密码访问; 10.内置web服务器: JobTrackerIP:50030 TaskTrackerIP:50060 NamenodeIP:50070 DatanodeIP:50075 11.HBase以以Region为单位管理region(startKey,endKey); 12.HBase的每个Column Family单独存储:storeFile; 13.HBase的RegionServer为Region读写操作的场所; 14.HBase的Master管理Region的分配和基于zookeeper来保证HA; 15.HBase的强一致性:同一行数据的读写只在同一台regionserver上进行; 16.HBase的水平伸缩:region的自动分裂以及master的balance,只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量; 17.HBase的行事务; 18.HBase三维有序rowKey (ASC) + columnLabel(ASC) + Version (DESC) --> value 19.HBase支持范围查询和高性能随机写 ; 20.HBase基于Hadoop; 21.HBase不支持二级索引和join操作; 22.Hbase具有特定的适用场景;
详情参见附件
相关推荐
eternityzzy 2020-07-19
鲸鱼写程序 2020-06-08
strongyoung 2020-06-04
WeiHHH 2020-05-30
strongyoung 2020-04-11
晨曦之星 2020-08-14
lwb 2020-07-26
大而话之BigData 2020-06-16
ITwangnengjie 2020-06-14
gengwx00 2020-06-11
大而话之BigData 2020-06-10
needyit 2020-06-04
ITwangnengjie 2020-05-09
gengwx00 2020-05-08
gengwx00 2020-05-09
大而话之BigData 2020-05-06
Buerzhu 2020-05-01