大数据之hive与impala

在大数据处理的过程中hive为首选的数据仓库,hive基本兼容sql的查询语句,但是hive的响应速度非常慢只适合做非实时的数据挖掘任务,一般在集群规模小的情况下hive的延时会让人失去耐心,而impala则弥补了hive延时非常严重的这个问题,impala可以说是一个实时搜索引擎他必须依赖于hive,二者之间配合工作,impala在使用的过程中会发现很多问题,习惯使用mysql的人会发现hive和impala对sql的解析式严格的,尤其是group by和聚合函数的使用上。

impala是cloundera的产品,以前在项目中有使用过一段时间,后面用spark代替了impala的方案,spark相比impala来说有更大优势,本文关于impala不再补充,关于spark的使用的一些心得我后续会写相关记录文章。

相关推荐