Cloudera Impala 介绍

穿裤衩的文叔

2013-08-03

Cloudera impala™ 直接在你的HDFS或HBase上提供快速、交互式SQL查询.impala 除了使用统一的存储平台，还是用了与hive相同的 Metastore ，SQL 语法 (Hive SQL),ODBC driver 和 user interface Hue Beeswax （Hive）。这些为批处理和实时查询提供了一个统一的常见的平台。

Cloudera Impala是一个有效的查询大叔据的工具，impala 并不替换建立在MapReduce的批处理框架如 Hive。Hive和其它建立在MapReduce上的框架适合需要长时间运行的批处理任务。例如那些批量提取，转化，加载（ETL）类型的job。

架构：

下面这张图表示了impala在Cloudera生态环境中的定位：
Cloudera Impala 介绍

整个impala的解决方案由以下组件组成：
Impala State Store -这个状态存储用于协调所有运行环境中的impalad实例 --类似namenode
impalad -这个进程运行在Datanodes 用于相应impala shell发过来的查询。impalad接受数据库连接层的请求，并对任务进行调度优化。impalad会定期更新它的name和address到Impala State Store。 --类似datanode
Impala shell - 这个工具用来管理任务和执行查询，例如：连接到impalad，基于odbc提供了一套标准化的查询接口。

impala通过下面几种步骤来执行查询
通过Hue Beeswax, the Impala shell, ODBC提交Hive sql
impala的分布式查询引擎会创建查询并在集群上将其分配
为了达到最佳性能，每个节点会直接读取本地的HDFS和HBase

impala的主要特点：
impala提供以下支持：
支持大多Hive提供的基于SQL-92的查询，包括select，join和一些统计函数
支持的文件格式是文本文件和SequenceFiles（可以压缩为Snappy、GZIP和BZIP，前者性能最好，据官方博客称其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni将在正式版中支持）
支持常见的Hive接口：如ODBC driver，Hue Beeswax（用户接口）
impala命令行接口
支持Kerberos 安全认证

impala能带给我们什么：
impala提供了：
数据分析师已经熟悉的SQL接口
以交互的方式在Hadoop上处理大叔据

为数据分析而生，避免用户仅仅为了数据分析而花费建模和ETL的成本

相关阅读：

Cloudera Impala 的详细介绍：请点这里
Cloudera Impala 的下载地址：请点这里

impala cloudera hive

安科网

Cloudera Impala 介绍

穿裤衩的文叔

穿裤衩的文叔

相关推荐

Cloudera Impala架构设计要点

Cloudera Impala架构设计要点

Hadoop文集收藏

Cloudera Impala 安装配置

Cloudera Impala源码编译

Hive/Impala批量插入数据

开源大数据查询分析引擎现状

开源大数据查询分析引擎现状

大数据之hive与impala

Impala/Hive现状分析与前景展望

Impala：新一代开源大数据分析引擎

单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

Hadoop生态圈列式存储系统--kudu介绍及安装配置

Apache Impala 身份验证绕过漏洞（CVE-2017-5640）

Hadoop上时实类SQL查询系统对比

yum安装CDH5.5 hive、impala的过程详解

自己动手写Impala UDF

Impala源码之资源管理与资源隔离

Impala 使用的端口

穿裤衩的文叔