我为什么建议自建Hbase集群的都应该迁移过来？

zjwcsdn

2017-08-22

引言

最近云HBase商业化了，HBase在业界应用还是比较广泛。在云上环境下中，不少客户都自建了HBase集群，还有一部分用户是把HBase集群放在Hadoop离线集群内部。此文主要对比下云HBase数据库跟自建HBase的差异。另外，在成本上，云HBase数据库跟自建基本差不多，目前云HBase在推广打折阶段，比自建还便宜不少

自建HBase与ApsaraDB HBase对比

自建目前在云上，基本是基于ecs去自己构建，ApsaraDB HBase我们还是做了不少事情的：

ApsaraDB HBase的内核在阿里集团使用5年，还是有不少的沉淀的，在一些场景有300%的性能提升，大部分场景都至少有30%的提升，在稳定性恢复恢复速度快3倍左右。阿里现在有3个hbase pmc，6个committer了，有将近25+个人弄hbase
ApsaraDB HBase的内核会主动修复bug，改进功能，升级的，把高版本有价值的patch打到我们的ApsaraDB HBase内核版本上。自己建设往往要去下载新版本弄，有时候搞不好数据还丢了
安全机制比较健全，如：白名单、VPC、访问UI的账号密码，还有安全部门非得让弄成https加密的。后续会接阿里云的ak，支持共享环境访问ApsaraDB HBase，比如ODPS，开源版本是不行的
9月份会支持公网开放：比较方便支持线下测试开发连接环境。（不需要vpn、自建线下搭建或者proxy了）
运维还是比较便利的：5分钟全自动部署新集群、可以在线扩容磁盘、容量报警、添加节点、修改配置、指标可视化、自动守护进程、链路监控报警、热点检测转移、大scan过期清理 ………………

可以说这个是 ApsaraDB HBase的大概层次图：

我为什么建议自建Hbase集群的都应该迁移过来？

关于把Hbase放到离线集群的坏处

之前阿里云没有提供ApsaraDB HBase的产品，在EMR我们包装了一个开源的HBase，不少用户就使用了这个HBase，后续造成EMR运维上很大的困难，hbase经常是由于离线作业跑的时候会挂掉，但是这个时候正式需要访问hbase的时候，如果这个时候有实时入库或者查询的操作，则影响非常大。另外，我们还不得不分配一定的资源给Regionserver，RS还是非常吃内存的，造成离线任务根本不够用的情况。为此，我们就把单独做了ApsaraDB HBase这个产品，做成全托管的方式，以取代EMR中的HBase

关于节约资源

在用户自建HBase集群时，不少客户基于CDH把HBase放在Hadoop中，想法主要是节约一些资源或者麻烦单独弄一个HBase。其实在云上环境中，磁盘及CPU及内存都是可以在线直接扩容的，比如ApsaraDB HBase的磁盘可以最低每次8G的扩容，计算资源也可以单独添加节点。资源本身基本是很小粒度可以增加的。整体资源其实是相当的（因为HBase需要起着就占资源），另外，如果把分析按量跑，其实成本反到下降不少（EMR支持定时按需跑job）。另外，还可以享受稳定及高性能的服务。

关于性能

spark访问hbase，再hbase放在hdfs。其实spark并不能享受本地化的好处，spark往往访问region的，region往往不在这个机器上，比如你有10台机器，则在这个上面的概率是10%，再region访问hdfs，则又只有10%(好的情况可能高点)，一算下来，只有1%的概率可以本地化访问。且要走2次进程转化（一般hbase要解压、反编码等一些列的操作），其实这个时间远大于带宽的传输的时间。带宽传输时间基本可以忽略。

ApsaraDB HBase跟客户的ECS或者EMR连接，采取的是点到点的连通方式，走的是跟ECS自建集群一样的内网带宽（完全免费），完全没有区别，其实就跟访问集群内部一样。跟一些有中转节点的模式不一样，ApsaraDB HBase的regionserver都是可以直连客户端的。

我为什么建议自建Hbase集群的都应该迁移过来？

带来的好处

离线可以按需话 - emr提供按需跑的spark，比如晚上跑2个小时等，此极大降低成本
离线基本不影响在线或者近线 - 比如入库、访问等不受影响
如果把HBase迁移到ApsaraDB HBase，则享受ApsaraDB HBase的高性能、运维服务及专家服务

写在最后

如果你想迁移，直接使用copytable拷贝吧，还是挺快的。如果你的数据超过10T，可以联系我们。如果你想来试用下，那就直接按需买一个跑跑，最低6元左右一个小时。

zjwcsdn

0 关注 0 粉丝 0 动态

相关推荐

HBase/TiDB都在用的数据结构：LSM Tree，不得了解一下？

LSM Tree广泛应用在HBase，TiDB等诸多数据库和存储引擎上，我们先来看一下它的一些应用：。这么牛X的名单，你不想了解下LSM Tree吗？装X之前，我们先来了解一些基本概念。设计数据存储系统可能需要考虑的一些问题有：ACID，RUM。读性能体现

晨曦之星 2020-08-14

hbase 基础 —— 架构

典型的主从架构。其中 RegionServers 负责与客户端的交互，访问数据 HMaster 负责 Region 分配，DDL 操作。hbase table 根据 RowKey 划分成多个 Region，Region 包含所划分范围的所有行数据。Regi

lwb 2020-07-26

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

hbase 建表数据类型

下面几个shell 命令在后续的hbase 操作中可以起到很到的作用，且主要体现在建表的过程中，看下面几个create 属性1、BLOOMFILTER 默认是NONE 是否使用布隆过虑使用何种方式布隆过滤可以每列族单独启用。对ROW，行键的哈希在每次插入行

大而话之BigData 2020-06-16

Hbase常见问题

Hbase的数据是按照字典排序的，当大量连续的rowkey集中写到个别的region，各个region之间实际分布不均衡；创建表已经提前预分区，但是设计的rowkey没有规律可循。随机数+业务主键，如果更好的让最近的数据get到，可以加上时间戳；加盐之后的

ITwangnengjie 2020-06-14

hue集成hbase

# Comma-separated list of HBase Thrift servers for clusters in the format of ‘‘.# If using Kerberos we assume GSSAPI SASL, not P

gengwx00 2020-06-11

HBase安装部署

在slave01上运行jps，确认DataNode, NodeManager进程启动。分别在master，slave01，slave02上启动zookeeper. 查看解压后HBase目录中包含的文件。修改JAVA环境变量，去除export JAVA_HO

大而话之BigData 2020-06-10

在hadoop集群下启动hbase的方法

start-all.sh(前提是在bashrc中配置export PATH=$PATH:$HADOOP_HOME/sbin export PATH=$PATH:$HAOOP_HOME/bin)

鲸鱼写程序 2020-06-08

Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式：、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：。其实对文件来说，Spark支持Hadoop所支持的所有文件类型和文件存放位置。过往记忆博客，专注于hadoop

needyit 2020-06-04

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 2020-06-04

HBase的安装部署

　　副本数为1，取消权限。在启动前，先进行namenode格式化。这样hadoop就安装完成了。配置不使用自带的Zookeeper. # Tell HBase whether it should manage it‘s own instance of Z

WeiHHH 2020-05-30

Spark读取Mysql，Redis，Hbase数据（一）

"select * from TBLS where TBL_ID >= ?

needyit 2020-05-10

Spark 与 JDBC、Hbase之间的交互

"select id, name from user where id >= ?1,//对应第一个？10,//对应第二个？

ITwangnengjie 2020-05-09

1，pinpoint全链路监控

Pinpoint-Collector和Pinpoint-Web最好安装在一个机器上。在结尾修改成如下，这里我们指定Hbase本地来存储数据，生产环境将数据建议存入HDFS中。这个脚本不能直接wget，因为wget下载下来的是一个网页。执行pinpoint提

gengwx00 2020-05-08

HBase与Hive

用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。操作Hive可能对HBase产生影响，所以Hive需要持

gengwx00 2020-05-09

HBase与MapReduce交互

飞鸿踏雪0 2020-05-07

HBase原理总结

HBase分布式数据库，面向列存储，支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务，MapReduce 为 Hbase 提供高性能的计算能力，Zookeeper 为 Hbase 提供。稳定服务和Failover机制，因此，Hbas

大而话之BigData 2020-05-06

Hbase scan 查询命令大全，前缀，模糊，正则

Hbase scan 查询例子数据?https://java-er.com/blog/hbase-scan-all-command/stu 学生列族 base 存储学生姓名，身高基本信息列族 score 存储成绩c1_s1 c1 班级 s1 学生编号。Hb

Buerzhu 2020-05-01

Hbase API 创建表错误记录 for Docker 容器部署集群

最终我们看到成功了，然后我们是三台Docker容器，我们为了后面的不会再次出现这个错误，我们把 salve2 节点的 hbase 的HRegionServer机器主机名。应用程序对数据的读写操作都是通过和HRegion通信完成，16020端口是Region

gengwx00 2020-04-30

hbase设置ttl后出现坏块，重启后master abort 问题梳理

　　可以看到，问题是由于把某个region进行transit过程中出现了错。　　造成的原因很可能就是重新设置了ttl造成数据块中造成了部分损坏。　　在此版本中，当region在transition过程中出现了错误，但并不会影响master的正常启动。

gengwx00 2020-04-29

zjwcsdn

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号