Hadoop2.2 单机测试程序WordCount

陈先森

2013-11-30

Hadoop wordcount程序是经典的hadoop入门测试程序，主要根据给出一堆文件file1、file2...，统计出file1、file2...中单词出现的次数。
我们在单机上测试运行这个程序，我的测试系统是Mac OS。
1 下载hadoop包，地址：http://www.apache.org/dyn/closer.cgi/hadoop/common/
2 安装到任意目录，我安装在 /usr/local, 解压。
3 配置环境变量：
vi /etc/profile
将下面ADD进去。

#export JAVA_HOME=`/usr/libexec/java_home -v 1.7`
export HADOOP_HOME=/usr/local/hadoop-2.2.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK -Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk"
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

4 新建namenode、datanode目录，目录路径随便指定。
mkdir -p /urs/local/hadoop/mnode/namenode

mkdir -p /urs/local/hadoop/mnode/dataname
5 开始配置hadoop文件（xml）：
a）进入Hadoop文件配置目录，cd /usr/local/hadoop/etc/hadoop
b) 更改 hadoop-env.sh
把JAVA_HOME指定：export JAVA_HOME=`/usr/libexec/java_home -v 1.7`
c）更改 yarn-site.xml

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

d）更改 core-site.xml

<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>

e）更改 hdfs-site.xml

<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/mnode/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/mnode/datanode</value>
</property>

f）更改 mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

6 格式化NameNode：
hadoop namenode -format

7 启动
start-all.sh

8 查看所有JAVA进程：
Jps

此时可以看到如下：

2234 Jps
1989 ResourceManager
2023 NodeManager
1856 DataNode
2060 JobHistoryServer
1793 NameNode
2049 SecondaryNameNode

9 此时可以查看hadoop的运行状态：

查看 NameNode ：http://localhost:50070/
查看 ResourceManager： http://localhost:8088/cluster

10 新建一个文件夹用于存放原始数据（随便指定）：
mkdir /Usrs/apple/hadoop/tmp
然后在此目录下，新建两个文件：file1、file2，编辑file1: hello world，编辑file2： hello hadoop，保存。

11 拷贝到HDFS
hadoop dfs -copyFromLocal /Users/apple/hadoop/tmp/ /in
(或者：hadoop fs -put /Users/apple/hadoop/tmp/ /input)
查看输入目录：hadoop fs -ls /

12 RUN
首先进入example目录：cd /usr/local/hadoop/share/hadoop/mapreduce
然后run：hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount /in /out

13 查看程序运行结果：

hadoop fs -cat /out/part-r-00000
hadoop 1
hello 2
world 1

hadoop 程序测试

安科网

Hadoop2.2 单机测试程序WordCount

陈先森

陈先森

相关推荐

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

【赵强老师】大数据工作流引擎Oozie

Hadoop

入门大数据---Spark开发环境搭建

hadoop创建目录

陈先森