虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+

小李子栏

2015-03-20

系统： Ubuntu 14.04 64bit
Hadoop版本： Hadoop 2.5.2 (stable)
JDK版本： JDK 1.6

虚拟机及Ubuntu安装

1. 下载并安装 VMware workstation 11

下载地址：https://my.vmware.com/web/vmware/info/slug/desktop_end_user_computing/vmware_workstation/11_0?wd=%20VMware%20workstation%2011%20&issp=1&f=3&ie=utf-8&tn=baiduhome_pg&inputT=1321&rsp=1

2. 下载Ubuntu 14.04，注意在虚拟机上安装之前需要解压！

3.在Vmware中新建虚拟机：虚拟机安装向导，标准，安装盘镜像文件：指向ubuntu 14.04解压的wubi.exe的路径。

4.虚拟机命名，注意保存路径，默认分配磁盘空间20G，虚拟磁盘拆分成多个文件。

虚拟机安装完成后自动启动安装

创建hadoop用户

如果你安装Ubuntu的时候不是用的hadoop用户，那么需要增加一个名为hadoop的用户，并将密码设置为hadoop。

创建用户

sudo useradd hadoop

修改密码为hadoop，按提示输入两次密码

sudo passwd hadoop

给hadoop用户创建目录，方可登陆

sudo mkdir /home/hadoop
sudo chown hadoop /home/hadoop

可考虑为 hadoop 用户增加管理员权限，方便部署，避免一些权限不足的问题：

sudo adduser hadoop sudo

最后注销当前用户，使用hadoop用户进行登陆。

JDK1.6的安装及配置

1.通过火狐浏览器下载jdk-6u45-linux-x64.bin（以下操作在虚拟机中进行）

sudo cp/home/moweiyang01/Downloads/jdk-6u45-linux-x64.bin /home/hadoop/

sudo chomd u+x jdk-6u45-linux-x64.bin

运行jdk,在/home/hadoop$下：./ jdk-6u45-linux-x64.bin

mv jdk1.6.0_45 jdk 1.6

sudo gedit /etc/profile

加入以下java的配置信息

export JAVA_HOME=/home/hadoop/jdk1.6

export JRE_HOME=/home/hadoop/jdk1.6/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

保存profile文件

在hadoop下运行 source /etc/profile

输入java -version检查java是否配置成功。

在 /etc/environment 中配置：

sudo vim /etc/environment

PATH=“/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games: /home/hadoop/jdk1.6/bin”

SSH的配置

输入命令： sudo apt-get install ssh

ssh localhost

然后按提示输入密码hadoop，这样就登陆到本机了。但这样的登陆是需要密码的，需要配置成无密码登陆。

先退出刚才的ssh，然后生成ssh证书：

exit                           # 退出 ssh localhost
cd ~/.ssh                      # 如果没有该目录，先执行一次ssh localhost
ssh-keygen -t rsa              # 一直按回车就可以
cp id_rsa.pub authorized_keys

安装Hadoop 2.5.2

下载后,解压到/usr/local/中。

sudo tar -zxvf ~/Downloads/hadoop-2.5.2.tar.gz -C /usr/local   # 解压到/usr/local中
sudo mv /usr/local/hadoop-2.5.2/ /usr/local/hadoop      # 将文件名改为hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop       # 修改文件权限

Hadoop解压后即可使用。输入如下命令Hadoop检查是否可用，成功则会显示命令行的用法：

/usr/local/hadoop/bin/hadoop

Hadoop单机配置

Hadoop默认配置是以非分布式模式运行，即单Java进程，方便进行调试。可以执行附带的例子WordCount来感受下Hadoop的运行。例子将Hadoop的配置文件作为输入文件，统计符合正则表达式dfs[a-z.]+的单词的出现次数。

cd /usr/local/hadoop
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
cat ./output/*

执行成功后如下所示，输出了作业的相关信息，输出的结果是符合正则的单词dfsadmin出现了1次

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+ Hadoop单机WordCount输出结果

再次运行会提示出错，需要将./output删除。

rm -R ./output

Hadoop伪分布式配置

Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点即是NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xml和etc/hadoop/hdfs-site.xml。Hadoop的配置文件是xml格式，声明property的name和value。

修改配置文件etc/hadoop/core-site.xml，将

<configuration>
</configuration>

修改为下面配置：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改配置文件etc/hadoop/hdfs-site.xml为

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

关于配置的一点说明：上面只要配置 fs.defaultFS 和 dfs.replication 就可以运行，不过有个说法是如没有配置 hadoop.tmp.dir 参数，此时 Hadoop 默认的使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在每次重启后都会被干掉，必须重新执行 format 才行（未验证），所以伪分布式配置中最好还是设置一下。此外也需要显式指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则下一步可能会出错。

配置完成后，首先初始化文件系统 HDFS:

bin/hdfs namenode -format

成功的话，最后的提示如下，Exitting with status 0 表示成功，Exitting with status 1: 则是出错。若出错，可试着加上 sudo, 既 sudo bin/hdfs namenode -format 试试看。

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+ 初始化HDFS文件系统

接着开启NaneNode和DataNode守护进程。

sbin/start-dfs.sh

若出现下面SSH的提示，输入yes即可。

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+ 启动Hadoop时的SSH提示

有可能会出现如下很多的warn提示，下面的步骤中也会出现，特别是native-hadoop library这个提示，可以忽略，并不会影响hadoop的功能。想解决这些提示可以看后面的附加教程(最好还是解决下，不困难，省得看这么多无用提示)。

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+ 启动Hadoop时的warn提示

成功启动后，可以通过命令jps看到启动了如下进程NameNode、DataNode和SecondaryNameNode。

通过查看启动日志分析启动失败原因

有时Hadoop无法正确启动，如 NameNode 进程没有顺利启动，这时可以查看启动日志来排查原因，不过新手可能需要注意几点：

启动时会提示形如 “Master: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.out”，其中 Master 对应你的机器名，但其实启动日志信息是记录在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.log 中，所以应该查看这个 .log 的文件；
每一次的启动日志都是追加在日志文件之后，所以得拉到最后面看，这个看下记录的时间就知道了。
一般出错的提示在最后面，也就是写着 Fatal、Error 或者 Java Exception 的地方。

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+ 通过jps查看启动的Hadoop进程

此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+ Hadoop的Web界面

Hadoop伪分布式实例-WordCount

首先创建所需的几个目录

bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/hadoop

接着将etc/hadoop中的文件作为输入文件复制到分布式文件系统中，即将/usr/local/hadoop/etc/hadoop复制到分布式文件系统中的/user/hadoop/input中。上一步创建的 /user/hadoop 相当于 HDFS 中的用户当前目录，可以看到复制文件时无需指定绝对目录，下面的命令的目标路径就是 /user/hadoop/input:

bin/hdfs dfs -put etc/hadoop input

运行MapReduce作业，执行成功的话跟单机模式相同，输出作业信息。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'

查看运行结果

bin/hdfs dfs -cat output/*

也可以将运行结果取回到本地。

rm -R ./output
bin/hdfs dfs -get output output
cat ./output/*

结果如下，注意到跟单机模式中用的不是相同的数据，所以运行结果不同（换成原来的数据，结果是一致的）。

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+ Hadoop伪分布式运行WordCout结果

可以看到，使用bin/hdfs dfs -命令可操作分布式文件系统，如

bin/hdfs dfs -ls /user/hadoop           # 查看`/user/hadoop`中的文件
bin/hdfs dfs -rm -R /user/hadoop/input/*    # 删除 input 中的文件
bin/hdfs dfs -rm -R /user/hadoop/output     # 删除 output 文件夹

运行程序时，输出目录需不存在

运行 Hadoop 程序时，结果的输出目录（如output）不能存在，否则会提示错误，因此运行前需要先删除输出目录。建议在程序中加上如下代码进行删除，避免繁琐的命令行操作：

Configuration conf = new Configuration();
Job job = new Job(conf);
...
/* 删除输出目录 */
Path outputPath = new Path(args[1]);
outputPath.getFileSystem(conf).delete(outputPath, true);
...

结束Hadoop进程，则运行

sbin/stop-dfs.sh

注意

下次再启动hadoop，无需进行HDFS的初始化，只需要运行 sbin/stop-dfs.sh 就可以！

--------------------------------------分割线 --------------------------------------

虚拟机 linux系统 font font-size margin hadoop helvetica

安科网

虚拟机下Linux系统Hadoop单机/伪分布式配置:Hadoop2.5.2+

小李子栏

Hadoop单机配置

Hadoop伪分布式配置

Hadoop伪分布式实例-WordCount

小李子栏

相关推荐

如何在Fedora中安装VirtualBox

10分钟快速掌握Docker必备基础知识

vmware扩展跟分区

hadoop 3.2.x 高可用集群搭建

程序员也需了解的主流云计算网络架构

虚拟机发展依然强劲，但会被容器取代吗？

虚拟机克隆镜像service network restart 报错处理

再见！虚拟机。Windows和Linux终于合体了

Linux下Shell日期的格式，你知道几种？

JVM中必须要掌握的java的.class文件的加载过程

nao机器人在虚拟机上搭建编译环境总结

Linux系统安装(虚拟机)

Windows10电脑和虚拟器如何共享蓝牙简单两步快速解决

Windows系统的Hyper-V 出现了严重的代码漏洞-利联科技

简单实现虚拟机备份上云

Docker系列之常用命令操作手册

经典面试题：聊一聊垃圾回收算法

KVM 实现虚拟机在线热迁移

vmware中虚拟机的网络连接设置

Cent os 7之KVM虚拟化基础管理

小李子栏