慕课网_《HBase入门》学习总结

家辉

2019-06-27

关注关注

慕课网《HBase入门》学习总结

时间：2018年06月11日星期一
说明：本文部分内容均来自慕课网。@慕课网：https://www.imooc.com
教学源码：无
学习源码：无

第一章：课程介绍

1-1 课程介绍

课程目标

HBase的应用场景及特点
HBase的概念与定位
HBase架构体系与设计模型
HBase的安装部署
HBase shell使用

第二章：概念介绍

2-1 应用场景

HBase能做什么

海量数据存储
准实时查询

HBase在实际业务场景中的应用

交通：交通工具的GPS信息、城市路口摄像头的拍照信息
金融：交易信息（取款信息、消费信息、贷款信息、还款信息、信用卡信息等）
电商：商家交易信息、物流信息、浏览日志信息等
移动：电话信息（短信信息、通话记录等）

2-2 概念特点

HBase是什么

HBase是一个分布式，版本化，面向列的数据库，构建在 Apache Hadoop和 Apache ZooKeeper之上。

HBase的特点

容量大
HBase单表可以有百亿行、百万列，数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性
面向列
HBase是面向列的存储和权限控制，并支持独立检索。列式存储，其数据在表中是按照某列存储的，这样在查询只需要少数几个字段的时候，能大大减少读取的数据量
多版本
HBase每一个列的数据存储有多个Version
稀疏性
为空的列并不占用存储空间，表可以设计的非常稀疏
扩展性
底层依赖于HDFS
高可靠性
WAL机制保证了数据写入时不会因集群异常而导致写入数据丢失；Replication机制保证了在集群出现严重的问题时，数据不会发生丢失或损坏。而且HBase底层使用HDFS，HDFS本身也有备份
高性能
底层的LSM数据结构和Rowkey有序排列等架构上的独特设计，使用HBase具有非常高的写入性能。region切分、主键索引和缓存机制使用HBase在海量数据下具备一定的随机读取性能，该性能针对Rowkey的查询能够达到毫秒级别

如何选择合适HBase版本

官方版本：http://archive.apache.org/dis...
CDH版本：http://archive.cloudera.com/c...

HBase在Hadoop2.x生态系统中的定位

慕课网_《HBase入门》学习总结

2-3 架构体系

HBase架构体系

慕课网_《HBase入门》学习总结

2-4 设计模型

HBase表结构模型

慕课网_《HBase入门》学习总结

HBase表结构模型举例说明

慕课网_《HBase入门》学习总结

Hbase数据模型

慕课网_《HBase入门》学习总结

Hbase数据模型举例说明

慕课网_《HBase入门》学习总结

HBase列簇

一张表列簇不会超过5个
每个列簇中的列数没有限制
列只有插入数据后存在
列在列簇中是有序的

HBase Region

慕课网_《HBase入门》学习总结

HBase表与关系型数据库表结构对比

对比	HBase	关系型数据库
表列	列动态增加	列不会动态增加
数据	数据自动切分	数据不会自动切分
并发	高并发读取	高并发读写较差
查询	不支持条件查询	支持复杂查询

第三章：安装部署

3-1 Hadoop安装

1.下载地址

zookeeper-3.4.5-cdh5.3.0.tar.gz
链接：https://pan.baidu.com/s/1ZGCq... 密码：v57b
hadoop-2.5.0-cdh5.3.0.tar.gz
链接：https://pan.baidu.com/s/1vOKp... 密码：hz4a
hbase-0.98.6-cdh5.3.0.tar.gz
链接：https://pan.baidu.com/s/1tojE... 密码：yimh

Hadoop2.x分布式安装配置

解压Hadoop-2.5.0并安装
配置hadoop-env.sh

2.解压安装

解压安装包

tar -zxf hadoop-2.5.0-cdh5.3.0.tar.gz

进入/share目录

cd hadoop-2.5.0-cdh5.3.0/share

（可选）删除doc文档

rm -rf doc/

进入/etc/hadoop目录

cd hadoop-2.5.0-cdh5.3.0/etc/hadoop

（可选）删除windows下执行脚本

rm -rf *.cmd

3.修改hadoop-env.sh文件

export JAVA_HOME=${JAVA_HOME}

其中${JAVA_HOME}为echo ${JAVA_HOME}的值

4.修改core-site.xml文件

参考地址

http://hadoop.apache.org/docs...
http://hadoop.apache.org/docs...
https://www.jb51.net/article/...

进入hadoop根目录

cd hadoop-2.5.0-cdh5.3.0

创建临时数据目录

mkdir -p data/tmp

进入临时数据目录

mkdir -p data/tmp

使用pwd查看路径

/home/zc/studio/hadoop-2.5.0-cdh5.3.0/data/tmp

在configuration节点中添加以下代码

<property>
        <name>fs.defaultFS</name>
        <value>hdfs://zccoder.com:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/zc/studio/hadoop-2.5.0-cdh5.3.0/data/tmp</value>
    </property>

5.修改hdfs-site.xml文件

参考地址

http://hadoop.apache.org/docs...

在configuration节点中添加以下代码

<property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
</property>

6.修改slaves文件

将hostname配置进去即可

zccoder.com

7.服务启动

回到hadoop根目录

cd hadoop-2.5.0-cdh5.3.0

系统进行format

bin/hdfs namenode -format

启动namenode

sbin/hadoop-daemon.sh start namenode

启动datanode

sbin/hadoop-daemon.sh start datanode

（注意）手动退出Hadoop的安全模式

bin/hadoop dfsadmin -safemode leave

访问http://zccoder.com:50070/进行验证

3-2 Zookeeper安装

0.解压安装包

解压安装包

tar -zxf zookeeper-3.4.5-cdh5.3.0.tar.gz

进入Zookeeper根目录

cd zookeeper-3.4.5-cdh5.3.0/

进入conf目录

cd conf/

复制示例配置文件zoo_sample.cfg为zoo.cfg

cp zoo_sample.cfg zoo.cfg

1.修改zoo.cfg文件

mkdir zkData

进入zkData目录，使用pwd命令获得全路径

cd zkData
pwd
/home/zc/studio/zookeeper-3.4.5-cdh5.3.0/zkData

修改zoo.cfg文件的dataDir属性

dataDir=/home/zc/studio/zookeeper-3.4.5-cdh5.3.0/zkData

2.集群配置

server.1=zk1.zccoder.com:2888:3888
server.2=zk2.zccoder.com:2888:3888
server.3=zk3.zccoder.com:2888:3888

在zkData目录下创建myid文件

touch myid

编辑myid文件，添加服务器编号，这里写入1

vim myid

然后，分别在另外两台zk上创建myid文件，并分别写入2和3

3.服务启动

分别启动三台zk服务

bin/zkServer.sh start

3-3 HBase安装

0.解压安装

解压安装包

tar -zxf hbase-0.98.6-cdh5.3.0.tar.gz

进入HBase根目录

cd hbase-0.98.6-cdh5.3.0

（可选）删除docs目录

rm -rf docs/

1.修改hbase-env.sh文件

进入conf目录

cd conf/

取消注释export JAVA_HOME=/usr/java/jdk1.6.0/并修改为JDK路径

export JAVA_HOME=/studio/jdk1.8.0_11/

取消注释export HBASE_MANAGES_ZK=true并修改为false使用部署好的zk

export HBASE_MANAGES_ZK=false

2.修改hbase-site.xml文件

在configuration节点下添加以下代码

<property>
    <name>hbase.tmp.dir</name>
    <value>/home/zc/studio/hbase-0.98.6-cdh5.3.0/data/tmp</value>
  </property>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://zccoder.com:9000/hbase</value>
  </property>
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>zccoder.com</value>
  </property>