2.Hadoop HDFS 安装配置
1.将hadoop包解压放到/opt/hadoop下
2.配置
2.1.进入hadoop目录
2.2.编辑hadoop.env.sh文件 配置jdk环境变量
#vi etc/hadoop/hadoop-env.sh
内容修改如下 具体地址根据服务器环境配置
export JAVA_HOME=/usr/lib/jvm/java/
3.配置yarn环境变量
3.1.编辑yarn-env.sh文件 配置jdk环境
#vi etc/hadoop/yarn-env.sh
内容修改如下 具体地址根据服务器环境配置
export JAVA_HOME=/usr/lib/jvm/java/
4.配置核心组件文件
4.1.编辑core-site.xml文件
#vi etc/hadoop/core-site.xml
文件内容
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoopdata</value> //hdfs数据存放地址 根据自己设置更改 </property> </configuration>
5.配置系统文件
5.1.编辑hdfs-site.xml文件
#vi etc/hadoop/hdfs-site.xml
内容如下
<configuration> <preperty> <name>dfs.http.address</name> //hdfs 网页监控地址配置 <value>master:50070</value> //http://master:50070 <name>dfs.replication</name> //hdfs 副本数量 最大不超过3 <value>1</value> </preperty> </configuration> .
6.配置yam-site.xml
6.1.编辑yam-site.xml
$vi etc/hadoop/yarn-site.xml 内容如下 <configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:18040</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>master:18030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>master:18025</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>master:18141</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>master:18088</value> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> ## 虚拟内存设置太少才造成类似的错误 <value>2000</value> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> ## 虚拟内存设置太少才造成类似的错误 <value>3000</value> </property> </configuration>
7.配置MapReduce计算矿建文件
7.1.将mapred-site.xml.template 文件复制一份 命名 mapred-site.xml
$cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
7.2.编辑mapred-site.xml 内容
$vi etc/hadoop/mapred-site.xml 内容如下 <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
8.配置Master 的slaves文件
8.1.编辑slaves文件
$vi etc/hadoop/slaves
内容更改为
slave0 //映射的子服务器1 slave1 //映射自服务器2
9.将hadoop 复制子节点
$scp -r Hadoop 登陆名@slave0:/opt/Hadoop $scp -r Hadoop 登陆名@slave1:/opt/Hadoop
10.配置环境变量
$sudo vi ~/.bash_profile
增加内容
//java环境变量 export JAVA_HOME=/usr/lib/jvm/java export PATH=$JAVA_HOME/bin:$PATH //hadoop环境变量 export HADOOP_HOME=/opt/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
10.2.刷新环境变量
$source ~/.bash_profile
11创建hadoop数据目录
11.1.在core-site.xml文件中有配置数据地址
$ sudo mkdir /opt/hadoopdata (所有服务器)
11.2.初始化文件系统
$hdfs namenode -format(master服务器)
12.开启关闭
12.1.使用sbin/start-all.sh 启动 sbin/stop-all.sh关闭 (不建议使用)
12.2.使用sbin/start-dfs.sh 启动hdfs
启动yarn
sbin/start-yarn.sh
关闭
sbin/stop-yarn.sh sbin/stop-dfs.sh (注意先后顺序)
测试启动是否成功
$jps
master服务器会出现
17728 SecondaryNameNode 18249 Jps 17455 NameNode 17951 ResourceManager
slave服务器会出现
16500 Jps 16121 DataNode 16284 NodeManager
这样属于启动成功
访问 http://master:50070 查看系统状况
访问http://master:18088 查看yarn 运行情况
13.hdfs基本命令
13.1.创建目录 在hdf容器中创建
$hdfs fs -mkdir /test
13.2.查看文件列表
$hdfs fs -ls /
13.3上传文件到hdfs
$hdfs fs -put 本地路径 hdfs路径
13.4.将hdfs文件下载到本地
$hdfs fs -get hdfs路径 本地路径
13.5.查看文件内容
$hdfs fs -cat 文件路径
13.6.删除文件
$hdfs fs -rm 路径
14在hadoop中运行程序
14.1.系统默认提供计算圆周率的java程序
路径:share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar 运行:$hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar pi 10 10