Hadoop杂记

xuplus

2012-07-31

Hadoop杂记

namenode（hdfs）+jobtracker（mapreduce）可以放在一台机器上，datanode+tasktracker可以在一台机器上，辅助namenode要单独放一台机器，jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上，一个目录对应一个磁盘)，namenode存储目录需要格式化，datanode存储目录不需要格式化，启动时自动创建

同一个datanode上的每个磁盘上的块不会重复，不同datanode之间的块才可能重复

一些文件的说明：

1、dfs.hosts记录即将作为datanode加入集群的机器列表

2、mapred.hosts记录即将作为tasktracker加入集群的机器列表

3、dfs.hosts.excludemapred.hosts.exclude分别包含待移除的机器列表

4、master记录运行辅助namenode的机器列表

5、slave记录运行datanode和tasktracker的机器列表

6、hadoop-env.sh记录脚本要用的环境变量，以运行hadoop

7、core-site.xmlhadoopcore的配置项，例如hdfs和mapreduce常用的i/o设置等

8、hdfs-site.xmlhadoop守护进程的配置项，包括namenode、辅助namenode和datanode等

9、mapred-site.xmlmapreduce守护进程的配置项，包括jobtracker和tasktracker

10、hadoop-metrics.properties控制metrics在hadoop上如何发布的属性

11、log4j.properties系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性

一、hdfs守护进程的关键属性

1、fs.default.name类型：uri默认值：file:///说明：默认文件系统，uri定义主机名称和namenode的rpc服务器工作的端口号，默认是8020，在core-site.xml中配置

2、dfs.name.dir类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/name说明：namenode存储永久性的元数据的目录列表，namenode在列表上的各个目录中均存放相同的元数据文件

3、dfs.data.dir类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/data说明：datanode存放数据块的目录列表，各个数据块分别存于某个目录中

4、fs.checkpoint.dir类型：以逗号分隔的目录名称默认值：${hadoop.tmp.dir}/dfs/namesecondary说明：辅助namenode存放检查点的目录列表，在所列的各个目录中分别存放一份检查点文件副本

二、mapreduce守护进程关键属性

1、mapred.job.tracker类型：主机名和端口默认值：local说明：jobtracker的rpc服务器所在的主机名称和端口号，如果设为默认值local，则运行一个mapreduce作业时，jobtracker即时以处理时模式运行（换言之，用户无需启动jobtracker；实际上试图在该模式下启动jobtracker会引发错误）

2、mapred.local.dir类型：逗号分割的目录名称默认值：${hadoop.tmp.dir}/mapred/local说明：存储作业中间数据的一个目录列表，作业终止时，数据被清除

3、mapred.system.dir类型：uri默认值：${hadoop.tmp.dir}/mapred/system说明：在作业运行期间存储共享文件的目录，相对于fs.default.name

4、mapred.tasktracker.map.tasks.maximum类型：int默认值：2说明：在任一时刻，运行在tasktracker之上的map任务的最大数

5、mapred.tasktracker.reduce.tasks.maximum类型：int默认值：2说明：在任一时刻，运行在tasktracker之上的reduce任务的最大数

6、mapred.child.java.opts类型：string默认值：-xmx200m说明：jvm选项，用于启动运行map和reduce任务的tasktracker子进程，该属性可以针对每个作业进行设置，例如，可以设置jvm的属性，以支持调试

7、mapred.child.ulimit限制由tasktracker发起的子进程的最大虚拟内存（单位千字节），该值设置一定要大于6设置项的值

三、rpc服务器属性

1、dfs.datanode.ipc.address默认值：0.0.0.0:50020说明：datanode的rpc服务器的地址和端口

2、mapred.job.tracker默认值：local说明：被设为主机名称和端口号时，该属性指定jobtracker的rpc服务器地址和端口，常用的端口号时8021

3、mapred.task.tracker.report.address默认值：127.0.0.1:0说明：tasktracker的rpc服务器地址和端口号，tasktracker的子jvm利用它和tasktracker通信，在本例中，可以使用任一空闲端口，因为服务器仅对会送地址隐藏，如果本机器没有会送地址，则需变更默认设置

datanode也运行tcp/ip服务器以支持块传输，默认由dfs.datanode.address设定，默认值是0.0.0.0:50010

三、http服务器属性

1、mapred.job.tracker.http.address默认值：0.0.0.0:50030说明：jobtracker的http服务器地址和端口

2、mapred.task.tracker.http.address默认值：0.0.0.0:50060说明：tasktracker的http服务器地址和端口

3、dfs.http.address默认值：0.0.0.0:50070说明：namenode的http服务器地址和端口

4、dfs.datanode.http.address默认值：0.0.0.0:50075说明：datanode的http服务器地址和端口

5、dfs.secondary.http.address默认值：0.0.0.0:50090说明：辅助namenode的http服务器地址和端口

可以选择某一个网络接口作为各个datanode和tasktracker的ip地址（针对http和rpc服务器）。相关属性项包括dfs.datanode.dns.interface和mapred.tasktracker.dns.interface，默认值都是default

四、安全模式属性说明

1、dfs.replication.min类型：int默认值：1说明：设置最小副本级别，成功执行写操作所需要创建的最少副本数目（也就是最小复本级别）

2、dfs.safemode.threshold.pct类型：float默认值：0.999说明：在namenode退出安全模式之前，系统中满足最小复本级别（由上一个选项定义）的块的比例，将这项值设为0或更小的比例会令namenode无法启动安全模式，设为高于1则永远不会退出安全模式

3、dfs.safemode.extension类型：int默认值：30000说明：在最小复本条件（由上一个选项定义）满足之后，namenode还需要处于安全模式的时间（以毫秒为单位），对于小型集群（十几个节点），这项值可以设为0

core-site.xml个别设置说明：

1、io.file.buffer.size设置缓冲区大小，默认4kb（64kb128kb）

2、fs.trash.interval设置回收站中的文件保留多久后删除，以分钟为单位，默认值是0，表示回收特性无效。该回收功能是用户级特性，启用后，每个用户都有自己独立的回收站目录，即home目录下的.trash目录，恢复时只要从该目录找到被删除的文件，将其移除就可以了。hdfs会自动删除回收站中的文件，其它文件系统不具备这个功能，需要使用下列命令自行删除hadoopfs-expunge

hdfs-site.xml个别设置说明：

1、dfs.block.size设置hdfs块大小，默认64mb（128mb256mb）

2、dfs.balance.bandwidthPerSec设置均衡器在不同节点之间复制数据的带宽

dfs.datanode.du.reserved设置保留空间的大小，以供其它程序使用,以字节为单位

fs.checkpoint.period设置辅助namenode每隔多久创建检查点，以秒为单位

fs.checkpoint.size设置当编辑日志（edits）大大小达到多少mb时，创建检查点，系统每5分钟检查一次编辑日志大小

dfs.datanode.numblocks设置datanode一个目录存放多少个块时，就重新创建一个子目录

dfs.datanode.scan.period.hours设置datanode块扫描的周期，默认三周（504小时）扫描一次

hadoop命令：

1、hadoopfs-mkdir/user/username创建用户

2、hadoopfs-chownuser:user/user/username设置权限

3、hadoopdfsadmin-setSpaceQuota1t/user/username限制空间容量

4、hadoopdfsadmin-saveNamespace创建检查点，将内存中的文件熊映射保存为一个新的fsimage文件，重置edits文件，该操作仅在安全模式下执行

5、hadoopdfsadmin-safemodeget查看namenode是否处于安全模式

6、hadoopdfsadmin-safemodewait在脚本中执行某条命令前namenode先退出安全模式

7、hadoopdfsadmin-safemodeenter进入安全模式

8、hadoopdfsadmin-safemodeleave离开安全模式

9、hadoopdfsadmin-report显示文件系统的统计信息，以及所连接的各个datanode的信息

10、hadoopdfsadmin-metasave将某些信息存储到hadoop日志目录中的一个文件中，包括正在被复制或删除的块信息，以及已连接的datanode列表

11、hadoopdfsadmin-refreshNodes更新允许连接到namenode的datanode列表

12、hadoopdfsadmin-upgradeProgress获取有关hdfs升级的进度信息或强制升级

13、hadoopdfsadmin-finalizeUpgrade移除datanode和namenode的存储目录上的旧版数据

14、hadoopdfsadmin-setQuota设置目录中包含的文件和子目录的个数的配额

15、hadoopdfsadmin-clrQuota清理指定目录的文件和子目录个数的配额

16、hadoopdfsadmin-clrSpaceQuota清理指定的空间大小配额

17、hadoopdfsadmin-refreshServiceAcl刷新namenode的服务级授权策略文件

18、hadoopfsck/检查hdfs中文件的健康状况，该工具会查找那些所有datanode中均缺失的块以及过少或过多复本的块

19、hadoopfsck/user/tom/part-007-files-blocks-racksfiles选项显示文件名称，大小，块数量，健康状况；block选项描述文件中各个块的信息，每个块一行；racks选项显示各个块的机架位置和datanode的地址

使Datanode节点datanodename退役bin/hadoopdfsadmin-decommissiondatanodename

解决主nemenode重启较慢的方法：（使用-importCheckpoint选项启动辅助namenode，可将辅助namenode用作新的主namenode）

1、辅助namenode请求主namenode停止使用edits（记录操作日志的文件）文件。暂时将新记录写操作记录到一个新文件中

2、辅助namenode从主namenode获取fsimage（元数据永久检查点文件）和edits文件（采用httpget）

3、辅助namenode将fsimage文件载入内存，逐一执行edits文件中的操作，创建新的fsimage文件

4、辅助namenode将新的fsimage文件发送回主namenode（使用httppost）

5、主namenode用从辅助namenode接收的fsimage文件替换旧的fsimage文件，用步骤一所产生的edits文件替换旧的edits文件，同时，还更新fstime文件来记录检查点执行的时间

均衡器程序：

start-balancer.sh-threshold参数指定阀值（百分比格式），默认值是10%，任何时刻，集群中都只能运行一个均衡器，均衡器在不同节点之间复制数据是有带宽限制的，默认值是1mb/s

hadoop 数据处理

安科网

Hadoop杂记

xuplus

xuplus

相关推荐

[AWS][大数据][Hadoop] 使用EMR做大数据分析

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

Hive安装，以及一些问题处理

hadoop 数据处理总结

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

xuplus