5,Hadoop中的文件

1,文件结构
· bin:脚本和命令目录。
· etc:配置文件目录。
· sbin:命令目录,主要包含HDFS和YARN中各类服务的启动和关闭,依赖于bin中的脚本。
· share:各个模块编译后的jar包,和示例代码。
· libexec:各个服务的shell配置文件目录,比如配置日志输出目录、启动参数等。
· include:对外提供的头文件,由C++定义。
· lib:对外的动态库,与include 对应。
 
2,core-default.xml
··· hadoop的默认配置文件,位于./share/doc/hadoop/hadoop-project-dist/hadoop-common/core-default.xml
其他的配置文件也一样
 
3,core-site.xml
··· fs.defaultFS
    · 设置运行时的文件系统,默认是 [file:///] 即本地文件系统。
    · 对于分布式Hadoop必须设置为 HDFS,[hdfs://hadoop11:9000],hadoop11:9000为NameNode所在的主机和端口
··· hadoop.tmp.dir
    · hadoop的临时文件夹,一般为 [/opt/app/hadoop/data/tmp]。会保存hdfs的NameNode的信息和DataNode的数据
 
4,hdfs-site.xml
··· dfs.replication
    · hdfs的副本个数,默认为3。在伪分布式中要设置为1。
··· dfs.namenode.http-address
    · NameNode的web访问地址,即在浏览器上查看NameNode上的信息。一般为 [hadoop11:50070]
··· dfs.namenode.secondary.http-address
    · SecondaryNameNode的web访问地址。一般为 [hadoop33:50090]
··· dfs.permissions.enabled
    · HDFS的文件系统权限。一般设为 [false]
 
5,yarn-site.xml
··· yarn.resourcemanager.hostname
    · 设置RM主机的位置。一般为 [hadoop22]
··· yarn.nodemanager.aux-services
    · 一般为 [mapreduce_shuffle],通知NodeManager实现名为mapreduce.shuffle的辅助服务
··· yarn.log-aggregation-enable
    · 设置日志聚集属性,一般打开,设为 [true]
··· yarn.log-aggragation.retain-seconds
    · 设置日志聚集的时间,单位秒,一般为7天,设为 [604800]
 
6,mapred-site.xml
··· mapreduce.framework.name
    · MapReduce的计算框架,可以是 local、classic、yarn,一般设为 yarn,默认是local
··· mapreduce.jobhistory.address
    · 历史服务器的地址,一般设为 [hadoop33:10020]
··· mapreduce.jobhistory.webapp.address
    · 历史服务器的web访问地址,一般设为 [hadoop33:19888]
 
7,slaves
··· 设置从主机的主机名(不能有空格)
    · 当启动 hdfs时,会在配置的主机中启动 DataNode进程。
    · 当启动 yarn时,会在配置的主机中启动 NodeManager进程。

相关推荐