盘点大数据Hive和HBase有哪些区别与联系及适用场景

fortunatelx

2018-03-16

在现如今，学习大数据分析的过程中，Hive和HBase是两个非常重要的内容，对于初学者而言容易混淆。所以比较两者的联系与差别，能够帮助我们对这两个组件有一个清晰的认识和定位。那么，Hive和HBase有哪些区别与联系以及适用于哪些场景呢?

首先还要从两者的概念入手。Hive是运行在Hadoop上的一个工具，准确地讲是一个搜索工具。当对海量数据进行搜索时，Hadoop的计算引擎是MapReduce。但是对MapReduce的操作和编程是非常复杂的。于是Hive的存在就让复杂的编程过程简化成了用SQL语言对海量数据的操作。这大大减轻了程序员的工作量。可以说，Hive的存在让海量数据的增删改查更加方便。其实从Hive的logo就可以看出Hive让大象变成了小蜜蜂，化繁为简是它最本质的亮点。

再来说说HBase，它是Hadoop的子项目，当然也可以理解为一个工具。Hadoop的数据运算是由MapReduce完成的，而数据存储是由HDFS完成的。HDFS是分布式存储，这是Hadoop存储数据的特点，但由此带来的问题就是数据的无序和散乱。HBase的产生，很好地解决了这一问题。HBase能够把这些数据映射成一张哈希表，那么，这些数据一旦成为具有实际存储意义的表之后，就由无序变得有序，从而对数据搜索和操作的效率大大提高了。

做一个总结，Hive和HBase都是Hadoop集群下的工具，Hive是对MapReduce的优化，而HBase则是HDFS数据存储的大管家。那么，这两者各适用于哪些场景呢?

1.Hive中的表为纯逻辑表，仅仅对表的元数据进行定义。Hive没有物理存储的功能，它完全依赖HDFS和MapReduce。尚学堂陈老师指出这样就可以将结构化的数据文件映射为为一张数据库表，并提供完整的SQL查询功能，并将SQL语句最终转换为MapReduce任务进行运行。HBase表则是物理表，适合存放非结构化的数据。

2.Hive是在MapReduce的基础上对数据进行处理，而MapReduce的数据处理依照行模式;而HBase为列模式，这样使得对海量数据的随机访问变得可行。

3.HBase的存储表存储密度小，因而用户可以对行定义成不同的列;而Hive是逻辑表，属于稠密型，即定义列数，每一行对列数都有固定的数据。

4.Hive使用Hadoop来分析处理数据，而Hadoop系统是批处理系统，所以数据处理存在延时的问题;而HBase是准实时系统，可以实现数据的实时查询。

5.Hive没有row-level的更新，它适用于大量append-only数据集(如日志)的批任务处理。而基于HBase的查询，支持和row-level的更新。

6.Hive全面支持SQL，一般可以用来进行基于历史数据的挖掘、分析。而HBase不适用于有join，多级索引，表关系复杂的应用场景。

两者使用场景的区别：

HBase的应用场景通常是采集网页数据的存储，因为它是key-value型数据库，从而可以到各种key-value应用场景，例如存储日志信息，对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP应用为主。

hive主要针对的是OLAP应用，其底层是hdfs分布式文件系统，重点是基于一个统一的查询分析层，支撑OLAP应用中的各种关联，分组，聚合类SQL语句。hive一般只用于查询分析统计，而不能是常见的CUD操作，要知道HIVE是需要从已有的数据库或日志进行同步最终入到hdfs文件系统中，当前要做到增量实时同步都相当困难。

大数据 hive hbase hdfs hadoop

安科网

盘点大数据Hive和HBase有哪些区别与联系及适用场景

fortunatelx

fortunatelx

相关推荐

为什么Java仍将是未来的主流语言？

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

fortunatelx