大数据之hive与impala
在大数据处理的过程中hive为首选的数据仓库,hive基本兼容sql的查询语句,但是hive的响应速度非常慢只适合做非实时的数据挖掘任务,一般在集群规模小的情况下hive的延时会让人失去耐心,而impala则弥补了hive延时非常严重的这个问题,impala可以说是一个实时搜索引擎他必须依赖于hive,二者之间配合工作,impala在使用的过程中会发现很多问题,习惯使用mysql的人会发现hive和impala对sql的解析式严格的,尤其是group by和聚合函数的使用上。
impala是cloundera的产品,以前在项目中有使用过一段时间,后面用spark代替了impala的方案,spark相比impala来说有更大优势,本文关于impala不再补充,关于spark的使用的一些心得我后续会写相关记录文章。
相关推荐
archive 2020-07-30
成长之路 2020-07-28
eternityzzy 2020-07-19
taisenki 2020-07-05
tugangkai 2020-07-05
SignalDu 2020-07-05
zlsdmx 2020-07-05
tomson 2020-07-05
tugangkai 2020-07-04
tomson 2020-07-05
Zhangdragonfly 2020-06-28
genshengxiao 2020-06-26
成长之路 2020-06-26
tomson 2020-06-26
蜗牛之窝 2020-06-26
成长之路 2020-06-25