Hdoop相关知识

引用

一:涉及到的东西

HDFS:filesystem用于管理文件,相当于资源管理系统

Mapreduce:Engine+Logic实现大量的计算

Nuts:框架

非结构化数据:如日志数据(flume,scribe)

结构化数据:有表结构等,如oracle和mysql。数据可以从HDFS中互相转换到关系型数据库中,采用的软件有Sqoop

OLTP:在线事务处理应用(HBASE),要求延时比较少。1024G=1p

Eclipse:管理。Ganglia监控集群,带宽等

JAQL高层次接口,采用sql语言

Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

Oozie:workflow

Mahout:morehighinterfaces,它封装了算法

二:Hadoop:适合大数据的分布式的存储和计算平台

1.HDFS:

主从结构:主节点:只有一个:namenode

从节点:有很多个:datanodes

namenode负责:

接收用户操作请求

维护文件系统的目录结构

管理文件与block之间的关系,block与datanode之间的关系

datanode负责:

存储文件

文件被分成block(默认大小为64M)存储在磁盘上

为保证数据安全,文件会有多个副本

2.MapReduce:

主从结构:

主节点:只有一个,JobTracker

从节点:有很多个:TaskTrackers

JobTracker负责:

接受客户提交的计算任务

把计算任务分给TaskTrackers执行

监控TaskTrackers的执行情况

TaskTrackers负责:

执行JobTracker分配的计算任务

3.Hadoop的特点:

扩容能力:能可靠的存储和处理千兆字节(PB)数据

成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达到千个节点。

高效率:通过分发数据,hadoop可以在数据所在的节点上并行的处理它们,这使得处理非常的快速。

可靠性:hadoop能自动的维护数据的多份副本,并且在任务失败后能自动的重新部署(redeploy)计算任务。

相关推荐