Hadoop2.7.5+HBase1.4.0完全分布式集群搭建

gxpgxp

2018-01-28

二、在安装完全分布式之前应该对他们的概念有个简单的认知：
1、Hadoop擅长存储任意的、半结构化的，甚至是结构化的数据，几乎是现在所有数据库的一种补充。
2、Hbase是hadoop数据库，hbase并不是一个列式存储数据库，他是利用的磁盘上的列存储格式。
3、列存储数据库是以“列”为单位的聚合数据库，然后按顺序地存入磁盘。
4、RDBMS与列存储数据库地区别：
rdbms适合有限、有规则（范式、科德十二定律）地数据，适合实时存取数据地场景
hbase适合键值对地数据存取或者有序地数据存取
5、hbase数据库最基本地单位是“列”
6、一列或者多列形成一行，并且由唯一的“行键”来存储（行键就相当于rdbms中的主键索引是一样的性质）
7、一个表可以有若干行，其中每列可能有多个版本，每个单元格存储了不同地值
8、若干列构成了一个“列族”
9、一个列族地所有列存储在同一个底层地存储文件里，这个存储文件叫做Hfile。
10、“列族”需在创建表的时候就定义好，且数量不要太多，修改也不要太频繁，一般只建议1~2个，最好只用一个
11、与列族相反，列地数量没有限制，列值得类型和长度也没有限制。
12、每一列得值和单元格得值都具有时间戳，默认由系统指定，也可以是用户自己指定。
13、一个单元格得数据默认是按“降序”排列的，访问时有限读取最新的数据。
14、hbase数据存储模式：
test<rowkey,list<tests<column,list<value,timestamp>>>>
test表示一个表，rowkey是行键，包含一个列族list(第一个list)，列族种包含了tests存储列和对应的值，这些值存储在最后一个list种，并对应有时间戳
15、Hbase是一个分布式的、持久性的、强一致性的存储系统。

三、hbase分布式环境搭建：
1、并不是所有的Hbase运行模式都需要分布式，如果只是想在本地测试，只需要安装java即可。
2、完全分布式搭建：
（1）、环境
系统：CentOS6.8
hadoop版本：2.7.5
zookeeper版本：3.4.11
hbase版本：1.4.0
（2）、下载hbase安装包：
下载地址：http://apache.spinellicreations.com/hbase/
hbase需要跟Hadoop版本对应

Hadoop2.7.5+HBase1.4.0完全分布式集群搭建

（3）、将下好的hbase安装包上传至服务器然后解压至合适的目录中，我们使用的是Hbase的版本是：hbase-1.4.0-bin.tar.gz
tar -zxvf hbase-1.2.1-bin.tar.gz -C /root/apps/
（4）、解压之后可以看到项目目录里面包含哪些文件：
ll命令或者ls -lr可查看：

Hadoop2.7.5+HBase1.4.0完全分布式集群搭建

（5）、a.说明文档以及许可条款在LICENSE.txt和NOTICE.txt文件中。
b.其他一些生成信息在README.txt中。
c.CHANGES.txt是变更日志的静态快照页面，它包含了当前下载版本中多有的变更记录。
d.Bin是一个二进制文件，此目录包含了hbase提供的所有脚本，可以完成启动和停止，运行独立的守护进程或启动额外的master节点等功能。
e.Conf目录包含了定义hbase配置的文件。
f.Docs目录包含了hbase工程网页的副本，以及工具、API和项目自身的文档信息。
g.hbase-webapps这个目录包含了java实现的web接口。
h.Lib目录包含了java应用程序的很多类库，这些类库包含了很多实际的执行程序。
i.Logs目录首次启动的时候不存在，但是Hbase会通过日志框架自动创建日志文件夹。hbase进程通常以守护进程的形式运行，即在操作系统的后台运行，在生命周期内他会将一些状态、进程、异常等信息打印到日志文件中。
j.Src文件是一些源文件及其包含的发布信息。
（6）、Hbase运行模式分为两种：单机模式和分布式模式
（7）、分布模式又分为伪分布模式和完全分布模式，这里我们介绍的是完全分布模式。
四、hbase完全分布式搭建：
1、假设我们的Linux环境都已经准备好，搭建了4台Hadoop+hdfs，名称分别是Sparknode1，Sparknode2，Sparknode3，Sparknode4。搭建了三台zookeeper集群，名称分别是zookeeper1，zookeeper2，zookeeper3。这里我没有使用hbase自带的zookeeper集群，而是自己搭建了另外一套zookeeper集群。
2、在安装hbase集群之前必须保证HDFS集群和zookeeper集群已经启动，因为hbase是依赖于hdfs和zookeeper的，二者缺一不可。
3、启动zookeeper的命令：
bin/zkServer.sh start
HDFS的启动命令：
sbin/start-dfs.sh
4、将hbase安装包解压至指定的文件夹后，需要修改配置文件hbase-env.sh，修改如下：
//修改JAVA_HOME
export JAVA_HOME=/usr/java/jdk1.8.0_101/
//Hbase使用的是自己另外搭建的zookeeper集群，没有使用自带的zookeeper集群，所以需要把HBASE_MANAGES_ZK属性值设置成false，默认是ture
export HBASE_MANAGES_ZK=false
//修改Hbase堆设置，默认大小是1G，将其设置成4G
export HBASE_HEAPSIZE=4G
5、修改配置文件hbase-site.xml，修改如下：
<configuration>
<property>
<name>hbase.rootdir</name> /*region服务器的共享目录，用来持久存储hbase数据，HDFS实例*/
<value>hdfs://master:9000/hbase</value> /*HDFS主节点(namenode)的访问位置*/
</property>
<property>
<name>hbase.cluster.distributed</name> /*hbase集群运行模式*/
<value>true</value> /*false为单机模式，ture为分布式模式*/
</property>
<property>
<name>hbase.zookeeper.quorum</name> /*zookeeper quorum服务器中的服务器列表*/
<value>zookeeper1:2181,zookeeper2:2181,zookeeper3:2181</value> /*每个服务器之间使用使用逗号分隔，2181是zookeeper默认端口号，你可以自行根据你的端口号添加，默认的端口号加不加都无所谓*/
</property>
<property>
<name>hbase.master.info.port</name> /*Hbase master的web UI服务端口*/
<value>60010</value> /*如果不想启动UI实例，则将参数设置成-1，默认值是60010*/
</property>
</configuration>
6、修改配置文件regionservers，修改如下：
配置region服务器，该文件列出了所有运行hregionserver守护进程的主机，每个主机独立占一行，Hbase集群启动和关闭都会按照文件中罗列的主机一一执行。
Sparknode1
Sparknode2
Sparknode3
Sparknode4
7、将HBASE加入环境变量：
export HBASE_HOME=/usr/soft/hbase-1.4.0
8、将Hadoop的配置文件拷到hbase下：
将hadoop的/opt/hadoop-2.7.5/etc/hadoop/目录下面的hdfs-site.xml和core-site.xml这两个配置文件拷贝到HBase的/usr/soft/hbase-1.4.0/conf/目录下：
这里我没有用拷贝的方式，而是用了软链接（快捷方式），目的是为了防止Hadoop目录下的配置文件更改了之后还要去/usr/soft/hbase-1.4.0/conf/目录下更新：
ln -s /opt/hadoop-2.7.5/etc/hadoop/ /usr/soft/hbase-1.4.0/conf/
用法：ln -s 源文件(夹) 目标文件(夹)
9、将配置后的hbase目录拷贝到其他节点
在Sparknode1（主节点）上分别执行如下命令，将Sparknode2上的hbase-1.4.0目录分别拷贝到Sparknode2、Sparknode3和Sparknode4的相同目录下：
scp -r hbase-1.4.0/ Sparknode2:$PWD
scp -r hbase-1.4.0/ Sparknode3:$PWD
scp -r hbase-1.4.0/ Sparknode4:$PWD
10、同步时间
我们在使用HDFS的时候经常会出现一些莫名奇妙的问题，通常可能是由于多台服务器的时间不同步造成的。因为它要经常去分析一些时间戳、版本或者超时时间等，如果多台服务器的时间差的太远，可能会导致一些误判。
有两种方式来同步多台服务器的时间：
（1）在每台服务器上开启时间同步的进程，通过网络时间服务器进行同步；
（2）如果你的电脑不能联网，可以将多台服务器的时间手动改成一致的；
我们下面使用第二种方式来设置，使用“date –s”命令来同步时间：

Hadoop2.7.5+HBase1.4.0完全分布式集群搭建

11、启动hbase集群

在启动Hbase集群之前，确保hdfs集群和zookeeper集群都已经启动成功。
bin/start-hbase.sh
状态如下：

Hadoop2.7.5+HBase1.4.0完全分布式集群搭建

12、利用jps命令查看运行进程
jps

Hadoop2.7.5+HBase1.4.0完全分布式集群搭建

红框里面的是主节点上的两个hbase的两个进程，其他datanode上只有hregionserver进程

13、停止hbase集群
bin/stop-hbase.sh
状态如下：

Hadoop2.7.5+HBase1.4.0完全分布式集群搭建

hbase 集群服务器列存储数据库 hadoop

gxpgxp

0 关注 0 粉丝 0 动态

相关推荐

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

在hadoop集群下启动hbase的方法

start-all.sh(前提是在bashrc中配置export PATH=$PATH:$HADOOP_HOME/sbin export PATH=$PATH:$HAOOP_HOME/bin)

鲸鱼写程序 2020-06-08

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 2020-06-04

HBase的安装部署

　　副本数为1，取消权限。在启动前，先进行namenode格式化。这样hadoop就安装完成了。配置不使用自带的Zookeeper. # Tell HBase whether it should manage it‘s own instance of Z

WeiHHH 2020-05-30

HBase/TiDB都在用的数据结构：LSM Tree，不得了解一下？

LSM Tree广泛应用在HBase，TiDB等诸多数据库和存储引擎上，我们先来看一下它的一些应用：。这么牛X的名单，你不想了解下LSM Tree吗？装X之前，我们先来了解一些基本概念。设计数据存储系统可能需要考虑的一些问题有：ACID，RUM。读性能体现

晨曦之星 2020-08-14

hbase 基础 —— 架构

典型的主从架构。其中 RegionServers 负责与客户端的交互，访问数据 HMaster 负责 Region 分配，DDL 操作。hbase table 根据 RowKey 划分成多个 Region，Region 包含所划分范围的所有行数据。Regi

lwb 2020-07-26

hbase 建表数据类型

下面几个shell 命令在后续的hbase 操作中可以起到很到的作用，且主要体现在建表的过程中，看下面几个create 属性1、BLOOMFILTER 默认是NONE 是否使用布隆过虑使用何种方式布隆过滤可以每列族单独启用。对ROW，行键的哈希在每次插入行

大而话之BigData 2020-06-16

Hbase常见问题

Hbase的数据是按照字典排序的，当大量连续的rowkey集中写到个别的region，各个region之间实际分布不均衡；创建表已经提前预分区，但是设计的rowkey没有规律可循。随机数+业务主键，如果更好的让最近的数据get到，可以加上时间戳；加盐之后的

ITwangnengjie 2020-06-14

hue集成hbase

# Comma-separated list of HBase Thrift servers for clusters in the format of ‘‘.# If using Kerberos we assume GSSAPI SASL, not P

gengwx00 2020-06-11

HBase安装部署

在slave01上运行jps，确认DataNode, NodeManager进程启动。分别在master，slave01，slave02上启动zookeeper. 查看解压后HBase目录中包含的文件。修改JAVA环境变量，去除export JAVA_HO

大而话之BigData 2020-06-10

Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式：、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：。其实对文件来说，Spark支持Hadoop所支持的所有文件类型和文件存放位置。过往记忆博客，专注于hadoop

needyit 2020-06-04

Spark读取Mysql，Redis，Hbase数据（一）

"select * from TBLS where TBL_ID >= ?

needyit 2020-05-10

Spark 与 JDBC、Hbase之间的交互

"select id, name from user where id >= ?1,//对应第一个？10,//对应第二个？

ITwangnengjie 2020-05-09

1，pinpoint全链路监控

Pinpoint-Collector和Pinpoint-Web最好安装在一个机器上。在结尾修改成如下，这里我们指定Hbase本地来存储数据，生产环境将数据建议存入HDFS中。这个脚本不能直接wget，因为wget下载下来的是一个网页。执行pinpoint提

gengwx00 2020-05-08

HBase与Hive

用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。操作Hive可能对HBase产生影响，所以Hive需要持

gengwx00 2020-05-09

HBase与MapReduce交互

飞鸿踏雪0 2020-05-07

HBase原理总结

HBase分布式数据库，面向列存储，支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务，MapReduce 为 Hbase 提供高性能的计算能力，Zookeeper 为 Hbase 提供。稳定服务和Failover机制，因此，Hbas

大而话之BigData 2020-05-06

Hbase scan 查询命令大全，前缀，模糊，正则

Hbase scan 查询例子数据?https://java-er.com/blog/hbase-scan-all-command/stu 学生列族 base 存储学生姓名，身高基本信息列族 score 存储成绩c1_s1 c1 班级 s1 学生编号。Hb

Buerzhu 2020-05-01

Hbase API 创建表错误记录 for Docker 容器部署集群

最终我们看到成功了，然后我们是三台Docker容器，我们为了后面的不会再次出现这个错误，我们把 salve2 节点的 hbase 的HRegionServer机器主机名。应用程序对数据的读写操作都是通过和HRegion通信完成，16020端口是Region

gengwx00 2020-04-30

hbase设置ttl后出现坏块，重启后master abort 问题梳理

　　可以看到，问题是由于把某个region进行transit过程中出现了错。　　造成的原因很可能就是重新设置了ttl造成数据块中造成了部分损坏。　　在此版本中，当region在transition过程中出现了错误，但并不会影响master的正常启动。

gengwx00 2020-04-29

gxpgxp

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号