在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

xiaoqing000

2015-08-02

关注关注

近几年大数据越来越火热。由于工作需要以及个人兴趣，最近开始学习大数据相关技术。学习过程中的一些经验教训希望能通过博文沉淀下来，与网友分享讨论，作为个人备忘。

第一篇，在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境。

1. 所需要的软件

使用VMware 11.0搭建虚拟机，安装Ubuntu 14.04.2系统。

Jdk 1.7.0_80

Hadoop 2.6.0

2. 安装VMware和Ubuntu

3. 在Ubuntu中安装JDK

将jdk解压缩到目录：/home/vm/tools/jdk

在~/.bash_profile中配置环境变量，并通过source ~/.bash_profile生效。

#java

export JAVA_HOME=/home/vm/tools/jdk

export JRE_HOME=/home/vm/tools/jdk/jre

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

检验jdk安装是否成功。

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

4. 配置ssh信任关系，实现无密码登录

4.1 安装ssh

Ubuntu默认安装了ssh客户端，但没有安装ssh服务端，因此可以通过apt-get安装。

安装ssh-server：sudo apt-get install openssh-server

如果没有ssh客户端，也可以通过apt-get安装。

安装ssh-client：sudo apt-get install openssh-client

启动ssh-server：sudo service ssh start

启动以后，通过ps –aux | grep sshd查看ssh服务器是否安装成功。

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

4.2 配置ssh信任关系

生成机器A的公私密钥对：ssh-keygen -t rsa，之后一路回车。在~/.ssh目录下生成公钥id_rsa.pub，私钥id_ras。

拷贝机器A的id_rsa.pub到机器B的认证文件中：

cat id_rsa.pub >> ~/.ssh/authorized_keys

这时候机器A到机器B的信任关系就建立好了，此时在机器A可以不需要密码直接ssh登录机器B了。

本例中机器A和B是同一台机器，配置ssh信任关系以后可以使用ssh localhost或者ssh 机器IP地址来验证。

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

5. 安装Hadoop2.6.0

5.1 解压Hadoop2.6.0

从官网下载hadoop-2.6.0.tar.gz，解压到目录/home/vm/tools/hadoop，并配置~/.bash_profile环境变量。通过source ~/.bash_profile生效。

#hadoop

export HADOOP_HOME=/home/vm/tools/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

5.2 修改配置文件

修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh和yarn-evn.sh，配置JAVA_HOME路径：

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

修改$HADOOP_HOME/etc/hadoop/slaves，增加本机IP地址：

cat "192.168.62.129" >> slaves

修改$HADOOP_HOME/etc/hadoop/下的几个重要的*-site.xml：

core-site.xml 192.168.62.129是我虚拟机的IP地址

<name>fs.defaultFS</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/vm/app/hadoop/tmp</value>

<description>a base for other temporary directories.</description>

</property>

</configuration>

hdfs-site.xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/vm/app/hadoop/dfs/nn</value>

</property>

<name>dfs.namenode.data.dir</name>

<value>file:/home/vm/app/hadoop/dfs/dn</value>

</property>

<name>dfs.permissions</name>

<value>false</value>

permission checking is turned off

</description>

</property>

</configuration>

mapred-site.xml

<name>mapred.job.tracker</name>

</property>

<name>mapreduce.framework.name</name>

</property>

</configuration>

yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

5.3 格式化文件系统

在$HADOOP_HOME下执行bin/hdfs namenode –format格式化文件系统

5.4 启停

在$HADOOP_HOME下执行sbin/start-dfs.sh和sbin/start-yarn.sh启动hadoop集群，执行sbin/stop-dfs.sh和sbin/stop-yarn.sh停止hadoop集群。

启动过程例如：

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

启动完毕进程如下：

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

6. 查询集群信息

8088端口，查看All Applications信息：

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

50070端口，查看hdfs信息：

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

7. 验证hadoop环境搭建是否成功

7.1 验证hdfs是否正常

可以使用各种hdfs命令测试。例如：

hdfs dfs -ls ./

hdfs dfs -put file.1 ./

hdfs dfs -get ./file1

hdfs dfs -rm -f ./file.1

hdfs dfs -cat ./file1

hdfs dfs -df -h

7.2 验证map/reduce计算框架是否正常

在$HADOOP_HOME目录下执行：bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount ./count_in/ ./count_out/

其中./count_in/提前在hdfs集群创建，统计该目录下所有文件的单词数量，输出到./count_out/目录。

执行过程示例如下：

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

执行完毕生成结果：

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

至此，Hadoop2.6.0的伪分布式环境搭建完成。

虚拟机 font-size ssh jdk apt-get

xiaoqing000

0 关注 0 粉丝 0 动态

关注关注

10分钟快速掌握Docker必备基础知识

带着心里的一点点疑问，让我们一起来学习Docker吧。我们仔细想想，在没有计算虚拟化技术的“远古”年代，如果我们要部署一个应用程序，一般的步骤是怎么样的？第一步肯定是先要准备一台物理服务器，然后在物理服务器上安装一个操作系统，有了操作系统之后，便在操作系统

VFCSDN 10评论 2020-10-14

hadoop 3.2.x 高可用集群搭建

配置 hadoop 高可用集群的原因：如果集群只有一个 NameNode，若NameNode 节点出现故障，那么整个集群都无法使用，也就是存在单点故障的隐患，hadoop 高可用集群能够实现 standby NameNode 自动切换为 active。HA

飞鸿踏雪0 2020-06-12

ubuntu下快速安装rabbitmq

安装rabbitmqsudo apt-get updatesudo apt-get upgradesudo apt-get install rabbitmq-server. 当我们在创建用户时，会指定用户能访问一个虚拟机，并且该用户只能访问该虚拟机下的队列

liym 2020-07-20

如何在Fedora中安装VirtualBox

如果你对 Fedora Linux 感兴趣，这有几种方式可以尝试它。最简单还不影响你操作系统的方式是制作 Fedora 的 USB 临场启动盘。在 Linux 发行版的使用方式上，有一种可以无需安装而通过光盘或 USB 存储棒直接在计算机上启动完整的 Li

星愿心愿 5评论 2020-11-24

程序员也需了解的主流云计算网络架构

当前越来越多的企业将自己的业务迁移至云端，云计算的发展势头不可阻挡，身边好多朋友也纷纷购买云主机用来学习测试。有那么一波小伙伴们肯定好奇这么多的云主机是通过怎样的网络架构来承载的呢，本篇文章就为大家带来一一揭晓主流的云计算网络架构。随着企业业务的快速扩展，

ruancw 2020-11-10

虚拟机发展依然强劲，但会被容器取代吗？

现在，许多IT创新都源于虚拟机以及软硬件的分离，比如云计算，边缘计算和微服务等领先技术概念都源于虚拟机，将操作系统和软件实例与物理计算机分离。从根本上讲，VM是运行程序而无需绑定到物理机的软件。在VM实例中，一台或多台客户机可以在物理主机上运行。VM通常在

somyjun 2020-09-29

虚拟机克隆镜像service network restart 报错处理

做ssh实验，需要两台服务器，因此再原来虚拟机的基础上克隆了一个虚拟机。ifconfig出现如下图信息：。因此我需要配置ip信息。我本机的网关再192.168.109这个网段。设置之后本地ping新增虚拟机的情况如下：。嗯，写这篇文章就是想说明一个开端，这

longjing 2020-09-18

再见！虚拟机。Windows和Linux终于合体了

Linux在程序员中属于高逼格的存在，当然安装了图形界面的程序员要减分，毕竟你需要用鼠标了！程序员的桌面不能比谁的更酷更炫，要比谁的屏幕多，桌面颜色少！Windows向来是没有这种光圈的，因为它的目标是白痴用户。微软最近几年终于要照顾一下苦逼的开发者了。两

KINGJENSEN 2020-09-14

Linux下Shell日期的格式，你知道几种？

不管是哪种语言，日期/时间都是一个非常重要的值。比如我们保存日志的时候，往往是某个前缀再加上当前时间，这样日志文件名称就可以做到唯一。在Shell环境里，我们获取时间的命令是date，但date出来的时间日期格式、内容可能不是我们所想要的，所以我们可能需要

85251846 2020-09-14

vmware扩展跟分区

进行的操作：在 windows 下运行 CMD , 转到 vmware 的安装目录,可执行vmware-vdiskmanager.exe；在Linux下，直接敲入vmware-vdiskmanager ,可执行该指令扩充使用的指令: vmware-vdis

周公周金桥 2020-09-06

JVM中必须要掌握的java的.class文件的加载过程

昨天和一个同事吃了一个饭，他要离职去深圳了，当时一起来到这个公司，还是我介绍他来这里的，辗转一年多了，我们才聚了一次，各自都在忙碌各自的生活。想想就让自己觉得特别丧。接下来的额后半年，自己的算法题，可能也需要安排一下了。Java 语言通过字

lxttiger 2020-08-18

nao机器人在虚拟机上搭建编译环境总结

还有，这里的1.4小节中有三个选项，新手选择第一种就可以了，就是在虚拟机的ubuntu上搭建安装ROS包，然后远程控制nao机器人。第二和第三种是在nao机器人上面搭建ROS。

ARMOTO机器人 2020-08-18

Linux系统安装(虚拟机)

新CD/DVD--使用ISO静态文件--浏览：；至此，Ubuntu Server 16.04安装完成。输入root用户的密码即可。su "king" 或者 exit回到用户权限以后用普通账号登陆，用su进入root权限；

atb 2020-08-17

Windows10电脑和虚拟器如何共享蓝牙简单两步快速解决

Windows10电脑和虚拟器如何共享蓝牙？win10系统功能强大，程序齐全，在一些工作中需要用到虚拟机的时候，特别是一些编程检测人员检测的时候，就需要用到虚拟机，那该怎么把win10和虚拟机共享蓝牙呢？其实共享蓝牙非常简单，只需要两步即可解决，具体方法请

SeetyST 2020-08-13

Windows系统的Hyper-V 出现了严重的代码漏洞-利联科技

近日小编在使用利联科技的无锡BGP服务器升级系统补丁的时候发现了Hyper-V 严重的错误代码漏洞，后通过查看对方。Hyper-V是微软提出的一种系统管理程序虚拟化技术，能够实现桌面虚拟化。当主机服务器上的Hyper-V RemoteFX vGPU无法

85206633 2020-08-15

简单实现虚拟机备份上云

对于某些特定行业，例如政府、金融、医疗和教育等，为了符合规定要求，需要对一些数据移到一个单独的存储或设备来进行长期保存，即数据归档。数据归档可以有效地管理数据，实现数据的保留和长期的访问与检索。云祺容灾备份系统为用户的数据归档需求提供本地归档与云归档两种方

yunna0 2020-08-15

Docker系列之常用命令操作手册

Docker系列之常用命令操作手册继上一篇博客Docker系列之原理简单介绍之后，本博客对常用的Docker命令进行实践。安装虚拟机之后，就要安装Docker，Docker要求内核版本必须大于3.10，所以要先检查内核版本：。Job for docker.

young依然 2020-08-06

经典面试题：聊一聊垃圾回收算法

可以看出，使用OopMap数据结构存储了普通对象的指针引用。目前所有商用虚拟机全部采用主动式中断。转发朋友圈，是对我最大的支持。

ustbfym 2020-08-02

KVM 实现虚拟机在线热迁移

KVM虚拟机的迁移有两种方法：1、静态迁移（冷迁移）：对于冷迁移，就是在虚拟机关闭状态下，将虚拟机的磁盘文件及.xml配置文件复制到要迁移到的目标主机上，然后在目标主机上使用“virsh define *.xml”命令重新定义虚拟机即可。

成长路上 2020-07-29

vmware中虚拟机的网络连接设置

vmware中的虚拟机的网络连接1、桥接模式不勾选“复制物理网络连接状态”。有MAC地址冲突的风险。运行的虚拟操作系统开启后获得的IP地址和物理机不在同一网段。此种方式比较安全。

xiaogoua 2020-07-29

安科网

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

xiaoqing000

xiaoqing000

相关推荐

10分钟快速掌握Docker必备基础知识

hadoop 3.2.x 高可用集群搭建

ubuntu下快速安装rabbitmq

如何在Fedora中安装VirtualBox

程序员也需了解的主流云计算网络架构

虚拟机发展依然强劲，但会被容器取代吗？

虚拟机克隆镜像service network restart 报错处理

再见！虚拟机。Windows和Linux终于合体了

Linux下Shell日期的格式，你知道几种？

vmware扩展跟分区

JVM中必须要掌握的java的.class文件的加载过程

nao机器人在虚拟机上搭建编译环境总结

Linux系统安装(虚拟机)

Windows10电脑和虚拟器如何共享蓝牙简单两步快速解决

Windows系统的Hyper-V 出现了严重的代码漏洞-利联科技

简单实现虚拟机备份上云

Docker系列之常用命令操作手册

经典面试题：聊一聊垃圾回收算法

KVM 实现虚拟机在线热迁移

vmware中虚拟机的网络连接设置

xiaoqing000