大数据技术学习——Hadoop生态体系

大数据的火爆是泡沫吗?想想大数据的作用,就立刻会打消这种想法。大数据是人工智能的数据基础,是企业预测的必备技术,是未来科技的发展方向!

当然了在这里,很多人会说,大数据同样会泄漏个人隐私,但你想想大数据仅仅是一门技术,肯定是有一定的双刃性的,如果利用好了,国泰民安,利用不好,后果不堪设想。但就国家的技术发展定向,必然会遏制弊端,让大数据技术更好的服务人类。

大数据技术人才在未来定是不可缺少的,学习的大数据技术必然会成为一股长久不息的浪潮。对于大数据技术而言,Hadoop是其核心技术之一,我们要学习大数据,先过Hadoop一关。

今天给大家分享的大数据技术是Hadoop生态体系,主要包含以下技术知识:

大数据技术学习——Hadoop生态体系

1、分布式文件系统-HDFS

提起hadoop文件系统,首先想到的是HDFS(Hadoop Distributed File System),HDFS是hadoop主要的文件系统,是Hadoop存储数据的平台,建立在网络上的分布式存储系统。hadoop还集成了其他文件系统,hadoop的文件系统是一个抽象的概念,HDFS只是其中的一种实现。

2、分布式计算框架-MapReduce

MapReduce是一种编程模型,是Hadoop处理数据的平台。用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

3、分布式开源数据库-Hbase

HBase – Hadoop Database,HBase是一个分布式的、面向列的开源数据库。适合于非结构化数据存储,保留数据多个时间段版本。Hbase极大的方便扩展了Hadoop对于数据的处理和应用。

4、Hive

Hive是基于Hadoop的一个数据仓库工具,处理结构化SQL查询功能。可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行并提交到集群上去执行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,不用使用Java编程,十分适合数据仓库的统计分析。

5、Zookeeper协调Hadoop生态圈各个模块共同工作

从英文含义上来看Hadoop是小象,Hive是蜜蜂,pig是猪,Zookeeper是动物管理员。那么很显然Zookeeper的作用是分布式应用程序协调服务,为各个模块提供一致性服务的。

6、数据导入导出框架Sqoop

Sqoop是一款开源的工具,英文含义是象夫,就是喂养大象的人,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

大数据技术——Hadoop生态体系主要技术知识点分享结束,欢迎大家一起交流学习!

相关推荐