Hadoop2.7.2集群搭建详解（单机）

surpassli

2017-03-22

最新版本Hadoop2.7,如果安装过以前Hadoop2.2或则其他版本，那么集群的安装都是通用的。

参考：http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html

下载安装Hadoop

1、下载地址

http://hadoop.apache.org/releases.html

Hadoop2.7.2集群搭建详解（单机）

我下载的是2.7.2，官网在2.5之后默认提供的就是64位的，这里直接下载下来用即可

2、安装Hadoop

cd /opt/soft/hadoop-2.7.2/lib/native
file libhadoop.so.1.0.0

Hadoop2.7.2集群搭建详解（单机）

4、配置/etc/hosts

vi /etc/hosts

Hadoop2.7.2集群搭建详解（单机）

配置启动Hadoop

1、修改hadoop2.7.2/etc/hadoop/hadoop-env.sh指定JAVA_HOME

# The java implementation to use.
export JAVA_HOME=/opt/soft/jdk1.8.0_91

2、修改hdfs的配置文件

修改hadoop2.7.2/etc/hadoop/core-site.xml 如下：

<configuration>
    <!-- 指定HDFS老大（namenode）的通信地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://singlenode:9000</value>
    </property>
    <!-- 指定hadoop运行时产生文件的存储路径 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/soft/hadoop-2.7.2/tmp</value>
    </property>
</configuration>

这里fs.defaultFS的value最好是写本机的静态IP当然写本机主机名，再配置hosts是最好的，如果用localhost，然后在windows用java操作hdfs的时候，会连接不上主机。

修改hadoop2.7.2/etc/hadoop/hdfs-site.xml 如下：

<configuration>
    <!-- 设置hdfs副本数量 -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

3、配置SSH免密码登录

配置前：

ssh localhost

Hadoop2.7.2集群搭建详解（单机）

会出现如上效果，要求我输入本机登录密码

配置方法：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

配置后，不用密码可以直接登录了

Hadoop2.7.2集群搭建详解（单机）

4、hdfs启动与停止

第一次启动得先格式化（最好不要复制）：

./bin/hdfs namenode –format

启动hdfs

./sbin/start-dfs.sh

看到如下效果表示成功：

Hadoop2.7.2集群搭建详解（单机）

测试用浏览器访问：（如果没响应，则开发50070端口）

firewall-cmd --zone=public --add-port=50070/tcp --permanent
firewall-cmd --reload

http://192.168.2.100:50070/

效果如下：
Hadoop2.7.2集群搭建详解（单机）

停止hdfs

sbin/stop-dfs.sh

5、常用操作：
HDFS shell
查看帮助

hadoop fs -help <cmd>

上传

hadoop fs -put <linux上文件>  <hdfs上的路径>

查看文件内容

hadoop fs -cat <hdfs上的路径>

查看文件列表

hadoop fs -ls /

下载文件

hadoop fs -get <hdfs上的路径>  <linux上文件>

上传文件测试
创建一个words.txt 文件并上传

vi words.txt

Hello World
Hello Tom
Hello Jack
Hello Hadoop
Bye   hadoop

将words.txt上传到hdfs的根目录

bin/hadoop fs -put words.txt /

可以通过浏览器访问：http://192.168.2.100:50070/

Hadoop2.7.2集群搭建详解（单机）

这里的words.txt就是我们上传的words.txt

配置启动YARN

Hadoop2.7.2集群搭建详解（单机）

从上图看看出我们的MapReduce是运行在YARN上的，而YARN是运行在HDFS之上的，我们已经安装了HDFS现在来配置启动YARN，然后运行一个WordCount程序。

1、配置etc/hadoop/mapred-site.xml：

mv mapred-site.xml.template mapred-site.xml

<configuration>
    <!-- 通知框架MR使用YARN -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

2、配置etc/hadoop/yarn-site.xml:

<configuration>
    <!-- reducer取数据的方式是mapreduce_shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

3、YARN的启动与停止

启动

./sbin/start-yarn.sh

如下：

Hadoop2.7.2集群搭建详解（单机）

测试用浏览器访问：（如果没响应，则开发8088端口）

Hadoop2.7.2集群搭建详解（单机）

停止

sbin/stop-yarn.sh

现在我们的hdfs和yarn都运行成功了，我们开始运行一个WordCount的MP程序来测试我们的单机模式集群是否可以正常工作。

运行一个简单的MP程序

我们的MapperReduce将会跑在YARN上，结果将存在HDFS上：

./bin/hadoop jar /opt/soft/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar  wordcount hdfs://localhost:9000/words.txt hdfs://localhost:9000/out

用hadoop执行一个叫 hadoop-mapreduce-examples.jar 的 wordcount 方法，其中输入参数为 hdfs上根目录的words.txt 文件，而输出路径为 hdfs跟目录下的out目录，运行过程如下：

Hadoop2.7.2集群搭建详解（单机）

我们通过浏览器访问和下载查看结果：

Hadoop2.7.2集群搭建详解（单机）

这里下载的时候会跳转到另一个地址如下：

http://singlenode:50075/webhdfs/v1/out/part-r-00000?op=OPEN&namenoderpcaddress=localhost:9000&offset=0

1、需把singlenode换成192.168.2.100或是在hosts里加入 192.168.2.100 singlenode 隐射关系

2、需开放50075端口。

下载下来结果如下：

Bye 1
Hadoop  2
Hello   4
Jack    1
Tom 1
World   1

说明我们已经计算出了，单词出现的次数。

至此，我们Hadoop的单机模式搭建成功。

下面关于Hadoop的文章您也可能喜欢，不妨看看：

hadoop hdfs hadoop集群搭建

surpassli

0 关注 0 粉丝 0 动态

关注关注

hadoop伪分布式环境搭建

core-site.xml文件主要配置了访问Hadoop集群的主要信息，其中master代表主机名称，也可以使用IP替换，9000代表端口。外部通过配置的hdfs：//master：9000信息，就可以找到Hadoop集群。hdfs-site.xml配置文

WeiHHH 2020-09-23

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

hadoop集群的启动与停止

漫长的启动时间…………思考：每次都一个一个节点启动，如果节点数增加到1000个怎么办？早上来了开始一个一个节点启动，到晚上下班刚好完成，下班？这些名称是我的三台机器的主机名，各位请改成自己的主机名！如果集群是第一次启动，需要格式化NameNode，这里使用

飞鸿踏雪0 2020-07-09

hadoop创建目录

//1.vm arguments中添加后面的参数来修改用户 -DHADOOP_USER_NAME=hadoop

硅步至千里 2020-06-25

[AWS][大数据][Hadoop] 使用EMR做大数据分析

创建一个存储桶比如hadoop202006…这里我解释一下Hadoop集群中的一些组件，了解大数据的同学直接忽略就好。Apache Hadoop：在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。Ap

swazerz 2020-06-22

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

大数据期末复习重点

系统上安装 jdk环境.基于/usr/local/ 目录下解压安装.注: 可检查目录大小: df-h/usr/local/　　。解压压缩包tar -zxvf jdk-7u80-linux.tar.gz 改名: mv jdk-7u80-linux jdk7　

ViMan0 2020-06-21

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

tackoverflow的解释Hadoop fs：使用面最广，可以操作任何文件系统。hadoop dfs与hdfs dfs：只能操作HDFS文件系统相关，前者已经Deprecated，一般使用后者。Following are the three comma

zzjmay 2020-06-08

hadoop两个namenode都是standby问题

经过不断地排查，发现在自己进行关闭和重启namenode的组件的时候，没有通过pip文件正常关闭，只能挨个关闭，这个也不是重点。经过修改pip文件的路径，解决了这个批量关闭启动的问题，原因是/tmpe目录系统会定期清理，导致进程号对不上了。关闭再启动hdf

sujins 2020-06-05

Hadoop之HDFS入门实战

某一个副本丢失后，它可以自动恢复。数据规模，可以达到PB级。文件规模，能够处理百万规模的文件数量。可构建在廉价机器上，通过多副本保证可靠性。不适合低延时数据访问。存储大量小文件，他会占用NameNode大量内存存储目录和块信息，这样不可取，因为NameNo

strongyoung 2020-06-01

hadoop 数据处理总结

最近工作中用了了Hadoop，比如用Hadoop来处理广告的一些pv量数据、点击数据等，最后统计后给运营展示每个广告的数据报表。hadoop平台提供了分布式存储，分布式计算，任务调度、对象存储、和组件支撑服务。Hadoop主要用来存储以及处理大量并且复杂的

sujins 2020-05-30

Hadoop简介

要求被注入的属性 , 必须有set方法 , set方法的方法名由set + 属性首字母大写 , 如果属性是boolean类型 , 没有set方法 , 是 is .

sujins 2020-05-29

hadoop hdfs csv导入hive表

row format delimited fields terminated by ‘,‘ stored as textfile;

archive 2020-05-28

Hadoop3.2.0集群搭建常见注意事项

hadoop-env.sh中不光需要配置java-home,还需要声明下面这些用户变量,不然无法启动:. 如果出现这个说明连接配置有问题,查看core-site.xml配置,这个是配置datanode和namnode通信的:. hdfs应该配置成namno

changjiang 2020-11-16

hadoop 3.2.x 高可用集群搭建

配置 hadoop 高可用集群的原因：如果集群只有一个 NameNode，若NameNode 节点出现故障，那么整个集群都无法使用，也就是存在单点故障的隐患，hadoop 高可用集群能够实现 standby NameNode 自动切换为 active。HA

飞鸿踏雪0 2020-06-12

为什么Java仍将是未来的主流语言？

Java是一种通用编程语言，1995年由Sun Micro-systems公司开发。尽管已经有25年的历史，但它仍然统治着整个世界。根据Stack-overflow的开发者调查，它在2019年最受欢迎的语言中排名第5。超过41%的调查用户将Java标记为

minerd 2020-10-28

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

datanode会主动Namenode请求。这样服役新的节点就做完了。添加到白名单的主机节点，都允许访问NameNode，不在白名单的主机节点，都会被退出。在NameNode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建

Aleks 2020-08-19

Hadoop（一）安装

################ hadoop fs 文件系统 ####################. ################ hadoop mapreduce 计算框架 ####################. #############

WeiHHH 2020-08-17

第四周练习

13、添加用户bash,testbash,basher,nologin,而后找出当前系统上其用户名和默认shell相同的用户的信息

jackydai 2020-07-28

安科网

Hadoop2.7.2集群搭建详解（单机）

surpassli

下载安装Hadoop

配置启动Hadoop

配置启动YARN

运行一个简单的MP程序

surpassli

相关推荐

hadoop伪分布式环境搭建

hadoop框架三大组件hdfs、mapreduce、yarn 内容

hdfs、hive、hbase的搭建总结

hadoop集群的启动与停止

hadoop创建目录

[AWS][大数据][Hadoop] 使用EMR做大数据分析

Hadoop

大数据期末复习重点

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

hadoop两个namenode都是standby问题

Hadoop之HDFS入门实战

hadoop 数据处理总结

Hadoop简介

hadoop hdfs csv导入hive表

Hadoop3.2.0集群搭建常见注意事项

hadoop 3.2.x 高可用集群搭建

为什么Java仍将是未来的主流语言？

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

surpassli