hadoop 配置集群centos6.7
每个节点都要安装jdk
#java environment
export JAVA_HOME=/export/server/jdk1.8.0_11
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${JAVA_HOME}/bin
设置主机名,每个主机都要设置
vi /etc/sysconfig/network 或 gedit /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=node-1
配置IP、主机名映射(ifconfig)
vi /etc/hosts 或 gedit /etc/hosts
192.168.153.131 node-1
192.168.153.132 node-2
192.168.153.133 node-3
关闭防火墙
service iptables stop
更新ssh
yum update
yum install openssh-server
查看ssh是否启动
sudo ps -e |grep ssh
ssh-keygen -t rsa -P ""(四个回车)
ssh-copy-id node-* //分别拷贝到其他节点,包括自己。ssh-copy-id node-1、ssh-copy-id node-2、ssh-copy-id node-3
授权
1.cd ~/.ssh
2.cat id_rsa.pub >> authorized_keys
开机关闭防火墙
chkconfig iptables off
二、hadoop配置文件配置
1.hadoop-env.sh
export JAVA_HOME=/export/server/jdk1.8.0_11
2.core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://node-1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/export/data/hddata</value>
</property>
3.hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node-2:50090</value>
</property>
4.mapred-site.xml (模板mv mapred-site.xml.template mapred-site.xml)
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5.yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node-1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<value></value>
</property>
6.slaves文件,里面写上从节点所在的主机名字
部署图---------------------------------------
node-1 NameNode DataNode ResourceManager
node-2 DataNode NodeManager SecondaryNameNode
node-3 DataNode NodeManager
---------------------------------------
vi slaves(覆盖)
node-1
node-2
node-3
7.将hadoop配置到环境中
export HADOOP_HOME=/export/server/hadoop-2.7.4/
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin/:$HADOOP_HOME/sbin
8.scp -r path(下发给其他节点)
scp -r /export/server/hadoop-2.7.4/ :/export/server/
环境变量文件页下发
scp -r /etc/profile :/etc/
记得source /etc/profile
三、格式化
首次启动需要进行格式化
格式化本质是进行文件系统的初始化操作 创建一些自己所需的文件
格式化之后 集群启动成功 后续再也不要格式化
格式化的操作在hdfs集群的主角色(namenode)
1.格式化namenode(本质:创建一些文件)
hdfs namenode -format (hadoop namenode -format)
2.启动hadoop
先启动HDFS
sbin/start-dfs.sh 或直接start-dfs.sh
再启动YARN 或直接start-yarn.sh
sbin/start-yarn.sh
3.验证是否启动成功
使用jps命令验证
登陆http://node-1:9000
能访问,一般是可以的