phpHiveAdmin是如何通过Hive/Hadoop工作的

一、用户的查询和管理需求通过浏览器提交给phpHiveAdmin。

二、phpHiveAdmin将HQL请求发送给HAproxy负载的Hive server集群。

三、phpHiveAdmin读取Metadata的数据,注意这里是只读,并不存在对Metadata的读写。因为元数据非常重要,涉及到底层数据的正确性,所以不能随意修改。

四、phpHiveAdmin目前可以通过Fuse-DFS的方式浏览HDFS中的文件

五、被分配到HQL任务的某个Hive Server,将HQL转换为Map/Reduce的job,并提交给HDFS,进行计算。

六、HDFS将job分配map,提交到大数据云,也就是datanode节点中进行计算,并将计算结果reduce,提交给Hive server,Hive server将结果返回给phpHiveAdmin。

七、phpHiveAdmin 执行ETL任务,将计算结果直接存储到Mysql中,提交给展示层应用查询,并生成用户友好的数据报表。

注释:

小云是HAProxy所做的Hive server集群,负载均衡以适应并发查询的要求。由于找不到合适的图标,就拿小云彩代替了。

大云是真正的数据云,是Hadoop datanode的物理集群。

phpHiveAdmin是如何通过Hive/Hadoop工作的

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

相关推荐