为啥HBase需要搭建SQL引擎层

aphrodite

2016-02-19

现有的SQL解决方案通常都不是水平可伸缩的，因此当数据量变大时会遇到障碍。但是这样的情况，随着NoSQL的出现已经得到很大程度的缓解，并且随着NoSQL技术的完善与成熟，这种情况将会从根本上解决。

我们知道NoSQL区别于关系型数据库的一点就是NoSQL不使用SQL作为查询语言，至于为何在NoSQL数据存储HBase上提供SQL接口，有如下原因：

1.使用诸如SQL这样易于理解的语言，使人们能够更加轻松地使用HBase。

2.使用诸如SQL这样更高层次的语言来编写，减少了编写的代码量。

3.执行查询时，在数据访问与运行时执行之间加上SQL这样一层抽象可以进行大量优化。例如，对于GROUP BY查询来说，利用HBase中协同处理器，聚合可以在服务器上进行，而不必在客户端，这么做会极大减少客户端与服务器之间传输的数据量。此外，也可以在客户端并行执行GROUP BY，这是根据行健的范围来截断扫描而实现的。通过并行执行，结果会更快的返回。所有这些优化无需用户参与，只需执行查询即可。

基于HBase的SQL引擎实现

现阶段业内有一些关于HBase SQL引擎层的尝试，已经有一些比较稳定的解决方案和现实。

1.Hive整合HBase

Hive与HBase的整合功能从Hive0.6.0版本已经开始出现，利用两者对外的API接口互相通信，通信主要依靠hive_hbase-handler.jar工具包（Hive Storage Handlers）。由于HBase有一次比较大的版本变动，所以并不是每个版本的Hive都能和现有的HBase版本进行整合，所以在使用过程中特别注意的就是两者版本的一致性。

2.Phoenix

Phoenix由Salesforce.com开源，是构建在Apache HBase之上的一个SQL中间层，可以让开发者在HBase上执行SQL查询。Phoenix 完全使用Java编写，代码位于Github上，并且提供了一个客户端可嵌入的JDBC驱动。对于10w到100w行的简单查询来说，Phoenix要胜于Hive。

3.Kundera

Kundera 是一个JPA2.0兼容的NoSQL数据存储的对象映射框架。Kundera基于现有类库构建，封装出简易的API，其主要特性有：

1）支持交叉数据存储持久性，这意味着用户可以在不同的数据存储使用单一方法存储和获取相关实体。

2)能够很好地管理事务，同时支持EntityTransaction和Java Transaction API（JPA）。

3) 兼容JPA2.0，严格使用JPA注释对象映射到数据存储表。

4) 目前支持的NoSQL服务器包括: HBase,MongoDB,Redis,Neo4j等。

还有其它一些解决方案，例如：Lealone,hbase-sql,Impala等，要么不成熟，要么停止更新了，要么具有局限性。读者对其感兴趣，可以自行去了解。

HBase 的详细介绍：请点这里
HBase 的下载地址：请点这里

hbase nosql sql优化数据存储 hive sql语言

aphrodite

0 关注 0 粉丝 0 动态

相关推荐

全方位认识HBase：一个值得拥有的NoSQL数据库（一）

可对于HBase，我确实是带着某些感情在的。今日突然萌生了一个生趣的想法，想抛开技术的视角，从情感的角度，像写小说一样，写写这位老朋友，这可能会有点滑稽吧，不过我觉得很放松。《全方位认识HBase：一个值得拥有的NoSQL数据库》：从今天起，我们就暂且认为

chibangyuxun 2020-04-18

聊聊MySQL、HBase、ES的特点和区别

很少写技术博客，一是觉得自己技术有限，怕误人子弟；二是文笔较差，比较排斥写作之类的工作。话说不锻炼，哪会有进步呢，因为陌生而抵触，往往会陷入恶性循环，生活中其他事又何尝不是这样呢。明日复明日，明日何其多，时间不等人，有想法就要立马行动。

lclcsmart 2020-04-07

(写了一点写不下去了,虽然垃圾但又不想扔)hbase--大数据中的NoSql

hbase是一种分布式、可扩展、支持海量数据存储的NoSql数据库，可以对几十亿条数据进行秒级查询。逻辑上，hbase的数据模型和关系型数据库比较类似，数据存在一张表中，有行有列。但是从hbase的底层物理存储逻辑来看，hbase更像是一个multi-di

Woohome 2019-12-28

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

HBase与Hive

用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。操作Hive可能对HBase产生影响，所以Hive需要持

gengwx00 2020-05-09

HBase/TiDB都在用的数据结构：LSM Tree，不得了解一下？

LSM Tree广泛应用在HBase，TiDB等诸多数据库和存储引擎上，我们先来看一下它的一些应用：。这么牛X的名单，你不想了解下LSM Tree吗？装X之前，我们先来了解一些基本概念。设计数据存储系统可能需要考虑的一些问题有：ACID，RUM。读性能体现

晨曦之星 2020-08-14

hbase 基础 —— 架构

典型的主从架构。其中 RegionServers 负责与客户端的交互，访问数据 HMaster 负责 Region 分配，DDL 操作。hbase table 根据 RowKey 划分成多个 Region，Region 包含所划分范围的所有行数据。Regi

lwb 2020-07-26

hbase 建表数据类型

下面几个shell 命令在后续的hbase 操作中可以起到很到的作用，且主要体现在建表的过程中，看下面几个create 属性1、BLOOMFILTER 默认是NONE 是否使用布隆过虑使用何种方式布隆过滤可以每列族单独启用。对ROW，行键的哈希在每次插入行

大而话之BigData 2020-06-16

Hbase常见问题

Hbase的数据是按照字典排序的，当大量连续的rowkey集中写到个别的region，各个region之间实际分布不均衡；创建表已经提前预分区，但是设计的rowkey没有规律可循。随机数+业务主键，如果更好的让最近的数据get到，可以加上时间戳；加盐之后的

ITwangnengjie 2020-06-14

hue集成hbase

# Comma-separated list of HBase Thrift servers for clusters in the format of ‘‘.# If using Kerberos we assume GSSAPI SASL, not P

gengwx00 2020-06-11

HBase安装部署

在slave01上运行jps，确认DataNode, NodeManager进程启动。分别在master，slave01，slave02上启动zookeeper. 查看解压后HBase目录中包含的文件。修改JAVA环境变量，去除export JAVA_HO

大而话之BigData 2020-06-10

在hadoop集群下启动hbase的方法

start-all.sh(前提是在bashrc中配置export PATH=$PATH:$HADOOP_HOME/sbin export PATH=$PATH:$HAOOP_HOME/bin)

鲸鱼写程序 2020-06-08

Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式：、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：。其实对文件来说，Spark支持Hadoop所支持的所有文件类型和文件存放位置。过往记忆博客，专注于hadoop

needyit 2020-06-04

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 2020-06-04

HBase的安装部署

　　副本数为1，取消权限。在启动前，先进行namenode格式化。这样hadoop就安装完成了。配置不使用自带的Zookeeper. # Tell HBase whether it should manage it‘s own instance of Z

WeiHHH 2020-05-30

Spark读取Mysql，Redis，Hbase数据（一）

"select * from TBLS where TBL_ID >= ?

needyit 2020-05-10

Spark 与 JDBC、Hbase之间的交互

"select id, name from user where id >= ?1,//对应第一个？10,//对应第二个？

ITwangnengjie 2020-05-09

1，pinpoint全链路监控

Pinpoint-Collector和Pinpoint-Web最好安装在一个机器上。在结尾修改成如下，这里我们指定Hbase本地来存储数据，生产环境将数据建议存入HDFS中。这个脚本不能直接wget，因为wget下载下来的是一个网页。执行pinpoint提

gengwx00 2020-05-08

HBase与MapReduce交互

飞鸿踏雪0 2020-05-07

HBase原理总结

HBase分布式数据库，面向列存储，支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务，MapReduce 为 Hbase 提供高性能的计算能力，Zookeeper 为 Hbase 提供。稳定服务和Failover机制，因此，Hbas

大而话之BigData 2020-05-06

aphrodite

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号