hadoop集群部署(yarn)

seenq

2018-11-05

伴随着各大互联网公司开源自己的大数据框架，大数据处理领域的框架已经比较完善。到现在所谓大数据的框架已经用过habase（后来换成了elasticsearch）、zookeeper、kafka、storm，根据项目计划，接下来还要使用spark。虽然在众多框架中仅仅几个，但是也是已经涉及多个方面：数据存储、分布式协调、消息、实时计算等。没有找到任何一个框架能够完美解决所有问题，也就应了那句话，开发领域根本就没有银色子弹。所以即使是比较年长的hadoop（2004年到现在已经12年了，年纪也比较大了），也有能够体现其价值的地方。

最近用了storm，部署topology的时候总是感觉资源使用不平衡，于是想到了yarn能够对hadoop实现资源的协调，那是不是可以扩展一下，对storm也提供资源协调呢。google一下，果然yahho!已经开源了一个storm-yarn组件，于是学习一下，同时也把hadoop的部署复习了一遍。（关于hadoop的单机部署、伪分布式部署可以查看Hadoop环境部署）

hadoop集群部署(yarn)

1. 基础操作

这里说的基础操作是指对hadoop环境最基本的修改，比如提供java环境、指定JAVA_HOME、格式化namenode数据、免密码登录等，这些在Hadoop环境部署中都有提到。不得不说的是，Hadoop部署虽然简单，但是如果配置不正确，可能出现这种那种奇奇怪怪的错误。（这样一想，hadoop真的比较娇气。）

2. 文件配置

接下来就该对hadoop的文件进行修改，这是重头戏，修改好之后系统就能够顺利启动了。

注意：这里修改了几个默认端口，如果没有特殊需要，可以不做修改。

2.1 服务器

建议修改hostname，设置成比较容易记忆的，比如：hadoop01.xxx.com或者resourcemanager.xxx.com等，我这里偷懒，直接使用之前设置的。

这里使用了公司的4台服务器：

- s107：yarn的ResourceManager

- s108：hdfs的NameNode；yarn的NodeManager；历史服务器JobHistoryServer

- s109：hdfs的SecondaryNameNode；yarn的NodeManager

- s110：hdfs的DataNode；yarn的NodeManager

- s111：hdfs的DataNode；yarn的NodeManager

因为Secondary NameNode做日志合并的时候需要占用大量CPU和内存，所以这里将Secondary NameNode与NameNode分布在两台机器上。

另外，这里的NameNode和ResourceManager都没有做HA，在生产环境部署也是不完整的，后期会在这里补充。

2.2 core-site.xml

这个没有什么特别注意的，配置一下NameNode的host和端口、文件队列中io缓冲区大小、临时文件的路径就行：

<name>fs.defaultFS</name>

<description>NameNode的URI</description>

</property>

<name>io.file.buffer.size</name>

<description>文件队列中io缓冲区大小</description>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/data/hadoop/data</value>

</property>

</configuration>

2.3 hdfs-site.xml

这个文件是NameNode的相关配置：

<name>dfs.namenode.http-address</name>

</property>

<name>dfs.namenode.rpc-address</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:///data/hadoop/data/dfs/name</value>

<description>NameNode在本地文件系统中存储命名空间和持久化日志的位置</description>

</property>

<name>dfs.blocksize</name>

<description>HDFS文件块大小：256MB</description>

</property>

<name>dfs.namenode.handler.count</name>

<description>NameNode服务中处理DataNode的RPC调用的线程数</description>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:///data/hadoop/data/dfs/data</value>

<description>DataNode存储数据的位置，如果是用逗号隔开的多个路径，每个路径都存一份</description>

</property>

<name>dfs.replication</name>

<description>复制因子，数据复制数</description>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

2.4 mapred-site.xml

这个文件是配置MapReduce任务的配置：

<name>mapreduce.framework.name</name>

<description>设置执行job的是Yarn框架</description>

</property>

<name>mapreduce.map.memory.mb</name>

<description>map的最大可使用资源</description>

</property>

<name>mapreduce.map.java.opts</name>

<description>map的堆内存</description>

</property>

<name>mapreduce.reduce.memory.mb</name>

<description>reduce的最大可使用资源</description>

</property>

<name>mapreduce.reduce.java.opts</name>

<description>reduce堆内存</description>

</property>

<name>mapreduce.task.io.sort.mb</name>

<description>数据排序时的内存大小</description>

</property>

<name>mapreduce.task.io.sort.factor</name>

<description>数据排序时合并多个数据流</description>

</property>

<name>mapreduce.reduce.shuffle.parallelcopies</name>

<description>当map数量多于reduce数量时，增加reduce并行副本数量。</description>

</property>

<name>mapreduce.jobhistory.address</name>

<description>JobHistoryServer的URI</description>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<description>JobHistoryServer web服务的URI</description>

</property>

<name>yarn.app.mapreduce.am.staging-dir</name>

<value>/data/hadoop/yarn/staging</value>

<description>job数据存储位置</description>

</property>

<name>mapreduce.jobhistory.intermediate-done-dir</name>

<value>${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate</value>

<description>job的历史数据的临时位置</description>

</property>

<name>mapreduce.jobhistory.done-dir</name>

<value>${yarn.app.mapreduce.am.staging-dir}/history/done</value>

<description>job的历史数据的归档位置</description>

</property>

</configuration>

2.5 yarn-site.xml

这个是配置ResourceManager和NodeManager的：

<name>yarn.acl.enable</name>

<value>false</value>

<description>使用使用ACL，默认是false</description>

</property>

<name>yarn.admin.acl</name>

<description>集群中的管理员，用逗号隔开，默认是*，表示谁都可以</description>

</property>

<name>yarn.log-aggregation-enable</name>

<value>false</value>

<description>是否开启日志聚类运算</description>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<description>客户端提交任务的ResourceManager的URI/description>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<description>向调度器协调资源的URI</description>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<description>为NodeManager提供的URI</description>

</property>

<name>yarn.resourcemanager.admin.address</name>

<description>给管理命令的URI</description>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<description>ResourceManager的web服务URI</description>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

2.6 master文件

该文件需要自己创建，用于将NameNode与Secondary NameNode分别部署：

s109

2.7 salves文件

该文件用于指定DataNode的节点，默认是localhost，可以自己填写hostname或ip，每行一个：

s110

s111

至此，可以算是配置结束，还有一些调优的参数，可以根据实际情况进行调整。

3. 测试

先在每个服务器上执行hdfs namenode -format，然后在s107上执行start-yarn.sh启动YARN，在s108上执行start-dfs.sh启动HDFS，在s108上通过mr-jobhistory-daemon.sh start historyserver启动历史服务器。使用jps查看进程，可以得到文章开头所列出的进程列表。然后就使用举世闻名的wordcount进行测试。

mkdir input

echo "this is test" >> input/file

echo "this is a test" >> input/file

hadoop dfs -copyFromLocal input /input

hadoop jar ../default/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.3.jar wordcount /input /output

注意：

1. hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir三个参数指定的文件夹需要提前创建

2. 可以在${PATH}中添加hadoop的sbin目录，将hadoop的脚本或程序添加到PATH中

3. 需要保证hdfs的根目录中没有output文件夹，否则可以改个名字：output2…

4. 因为使用使用Yarn管理任务，可以在浏览器访问http://s107:8088/查看执行状态

yarn hadoop 大数据 hdfs 数据处理科技新闻

安科网

hadoop集群部署(yarn)

seenq

seenq

相关推荐

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop Yarn工作机制 Job提交流程

Hadoop

大数据 Hadoop

搭建HDFS集群和Yarn集群

Hadoop：Hadoop的学习路线

在Ubuntu和其他Linux发行版上使用Yarn

三、大数据组件之Yarn

yarn 查看资源 core 内存

第一个Vue页面

Hive llap服务安装说明及测试（二）

Vue开发中cnpm,yarn,npm,nodejs 区别与关系

Yarn架构

使用Taro实现小程序商城的购物车功能模块的实例代码

[email protected]配合antd UI使用，自定义主题

Yarn 和 NPM 国内快速镜像（淘宝镜像）

记学习react-native

如何在Ubuntu 20.04上安装Yarn

查看npm和yarn 的镜像源和配置淘宝镜像源

create-react-app + Typescript脚手架搭建

seenq