Apache Hadoop 2.2.0 HDFS HA + YARN多机部署

FireFox

2014-09-07

关注关注

部署逻辑架构：

Apache Hadoop 2.2.0 HDFS HA + YARN多机部署

HDFS HA部署物理架构

Apache Hadoop 2.2.0 HDFS HA + YARN多机部署

注意：

JournalNode使用资源很少，即使在实际的生产环境中，也是把JournalNode和DataNode部署在同一台机器上；

生产环境中，建议主备NameNode各单独一台机器。

YARN部署架构：

Apache Hadoop 2.2.0 HDFS HA + YARN多机部署

个人实验环境部署图：

Apache Hadoop 2.2.0 HDFS HA + YARN多机部署

Ubuntu12 32bit

apache Hadoop 2.2.0

jdk1.7

===============================================

准备工作：

1.在4台机器都配置hosts；

2.配置NameNode节点可以免密码登录到其余所有节点，只需要单向免密登录即可，无需双向；

免密码登录仅仅在启动、停止集群时使用。

3.安装jdk

4.创建专门的账号，不要用root账号部署、管理hadoop

部署hadoop：

第一步：把hadoop安装包解压到每一个节点（可以解压到一个节点，然后完成后续第2步的配置后，再scp拷贝到其余节点）的固定目录下（各节点目录统一），比如/home/yarn/Hadoop/hadoop-2.2.0

第二步：修改配置文件（只需在一个节点上配置，配置好后再用scp分发到其余节点）

配置文件路径：etc/hadoop/

hadoop-env.sh

修改JDK路径，在文件中搜索以下行，将JAVA_HOME设置为JDK安装路径即可：

# The java implementation to use.

export JAVA_HOME=/usr/lib/jvm/java-6-sun

core-site.xml

指定Active NameNode的host名/ip和端口号，端口号可以根据自己的需要修改：

<name>fs.defaultFS</name>

</property>

</configuration>

注意：以上配置的SY-0217是固定host，只适用于手动切换主备NameNode的场景，如果需要通过ZooKeeper来自动切换，则需要配置逻辑名称，后面会详述。

mapred-site.xml

<name>mapreduce.framework.name</name>

<description>The runtime framework for executing MapReduce jobs.

Can be one of local, classic or yarn.

</description>

</property>

<!--

jobhistory properties

jobhistory server，可以通过它查看已经运行完的应用程序的信息。

-->

<name>mapreduce.jobhistory.address</name>

<description>MapReduce JobHistory Server IPC host:port</description>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<description>MapReduce JobHistory Server Web UI host:port</description>

</property>

</configuration>

hdfs-site.xml

非常关键的配置文件！

<name>dfs.nameservices</name>

<value>hadoop-test</value>

指定命名空间名称，可随意起名

Comma-separated list of nameservices.

</description>

</property>

<name>dfs.ha.namenodes.hadoop-test</name>

在命名空间下指定NameNode逻辑名

The prefix for a given nameservice, contains a comma-separated

list of namenodes for a given nameservice (eg EXAMPLENAMESERVICE).

</description>

</property>

<name>dfs.namenode.rpc-address.hadoop-test.nn1</name>

为“命名空间名.NameNode逻辑名”配置rpc地址

RPC address for nomenode1 of hadoop-test

</description>

</property>

<name>dfs.namenode.rpc-address.hadoop-test.nn2</name>

为“命名空间名.NameNode逻辑名”配置rpc地址

RPC address for nomenode2 of hadoop-test

</description>

</property>

<name>dfs.namenode.http-address.hadoop-test.nn1</name>

为“命名空间名.NameNode逻辑名”配置http地址

The address and the base port where the dfs namenode1 web ui will listen on.

</description>

</property>

<name>dfs.namenode.http-address.hadoop-test.nn2</name>

为“命名空间名.NameNode逻辑名”配置http地址

The address and the base port where the dfs namenode2 web ui will listen on.

</description>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:///home/dongxicheng/hadoop/hdfs/name</value>

配置NameNode元数据存放的路径；

如果机器上有多块硬盘的话，推荐配置多个路径，用逗号分隔。

Determines where on the local filesystem the DFS name node

should store the name table(fsimage). If this is a comma-delimited list

of directories then the name table is replicated in all of the

directories, for redundancy. </description>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:///home/dongxicheng/hadoop/hdfs/data</value>

配置DataNode数据存放的路径；

如果机器上有多块硬盘的话，推荐配置多个路径，用逗号分隔。

Determines where on the local filesystem an DFS data node

should store its blocks. If this is a comma-delimited

list of directories, then data will be stored in all named

directories, typically on different devices.

Directories that do not exist are ignored.

</description>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://SY-0355:8485;SY-0225:8485;SY-0226:8485/hadoop-journal</value>

配置JournalNode，包含三部分：

（1）qjournal是协议，无需修改；

（2）然后就是三台部署JournalNode的主机host/ip：端口，三台机器之间用分号分隔；

（3）最后的hadoop-journal是journalnode的命名空间，可以随意取名。

A directory on shared storage between the multiple namenodes

in an HA cluster. This directory will be written by the active and read

by the standby in order to keep the namespaces synchronized. This directory

does not need to be listed in dfs.namenode.edits.dir above. It should be

left empty in a non-HA cluster.

</description>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/home/dongxicheng/hadoop/hdfs/journal/</value>

journalnode的本地数据存放目录，指定一个路径就够。

</description>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

<value>false</value>

是否自动切换。由于没有配置ZooKeeper，所以不能实现自动切换，所以这里配置的是false。

Whether automatic failover is enabled. See the HDFS High

Availability documentation for details on automatic HA

configuration.

</description>

</property>

</configuration>

yarn-site.xml

指定ResourceManager

The hostname of the RM.</description>

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

<description>The address of the applications manager interface in the RM.</description>

<name>yarn.resourcemanager.address</name>

<value>${yarn.resourcemanager.hostname}:8032</value>

</property>

<description>The address of the scheduler interface.</description>

<name>yarn.resourcemanager.scheduler.address</name>

<value>${yarn.resourcemanager.hostname}:8030</value>

</property>

<description>The http address of the RM web application.</description>

<name>yarn.resourcemanager.webapp.address</name>

<value>${yarn.resourcemanager.hostname}:8088</value>

</property>

<description>The https adddress of the RM web application.</description>

<name>yarn.resourcemanager.webapp.https.address</name>

<value>${yarn.resourcemanager.hostname}:8090</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>${yarn.resourcemanager.hostname}:8031</value>

</property>

<description>The address of the RM admin interface.</description>

<name>yarn.resourcemanager.admin.address</name>

<value>${yarn.resourcemanager.hostname}:8033</value>

</property>

指定fairscheduler调度器

The class to use as the resource scheduler.

</description>

<name>yarn.resourcemanager.scheduler.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>

</property>

指定fairscheduler调度器配置文件路径

fair-scheduler conf location

</description>

<name>yarn.scheduler.fair.allocation.file</name>

<value>${yarn.home.dir}/etc/hadoop/fairscheduler.xml</value>

</property>

指定nodemanager的本地工作目录，推荐配置多个路径，用逗号分隔

List of directories to store localized files in. An

application's localized file directory will be found in:

${yarn.nodemanager.local-dirs}/usercache/${user}/appcache/application_${appid}.

Individual containers' work directories, called container_${contid}, will

be subdirectories of this.

</description>

<name>yarn.nodemanager.local-dirs</name>

<value>/home/yarn/Hadoop/yarn/local</value>

</property>

<description>Whether to enable log aggregation</description>

<name>yarn.log-aggregation-enable</name>

</property>

<description>Where to aggregate logs to.</description>

<name>yarn.nodemanager.remote-app-log-dir</name>

<value>/home/yarn/Hadoop/yarn/tmp/logs</value>

</property>

每个nodemanager上可以用的内存大小

Amount of physical memory, in MB, that can be allocated for containers.

注意：我的NM虚拟机是1G内存，1核CPU，当该值配置小于1024时，NM是无法启动的！会报错：

NodeManager from slavenode2 doesn't satisfy minimum allocations, Sending SHUTDOWN signal to the NodeManager.

</description>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

每个nodemanager上可用的CPU核数

Number of CPU cores that can be allocated

for containers.</description>

<name>yarn.nodemanager.resource.cpu-vcores</name>

</property>

<description>the valid service name should only contain a-zA-Z0-9_ and can not start with numbers</description>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

yarn hdfs hadoop apache

FireFox

0 关注 0 粉丝 0 动态

关注关注

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

大数据 Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。Hadoop的框架最核心的设计就是：HDFS

strongyoung 2020-05-09

搭建HDFS集群和Yarn集群

1.得安装我们的hadoop--java

硅步至千里 2020-04-19

Hadoop Yarn工作机制 Job提交流程

MR程序提交到客户端所在的节点。YarnRunner向ResourceManager申请一个Application。RM将该应用程序的资源路径返回给YarnRunner。RM将用户的请求初始化成一个Task。其中一个NodeManager领取到Task任务

xieting 2020-07-04

在Ubuntu和其他Linux发行版上使用Yarn

本速成教程向你展示了在 Ubuntu 和 Debian Linux 上安装 Yarn 包管理器的官方方法。你还将学习到一些基本的 Yarn 命令以及彻底删除 Yarn 的步骤。Facebook 声称 Yarn 比 npm 更快、更可靠、更安全。与 npm

yegen00 2020-10-21

三、大数据组件之Yarn

YARN是Hadoop2.0中的资源管理系统，它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务：一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceMana

Notzuonotdied 2020-09-17

yarn 查看资源 core 内存

这个命令句就可以 , 查看集群的资源情况 , 包括正在使用的情况.

xieting 2020-08-17

第一个Vue页面

安装完后，打开cmd命令行界面。安装yarn(fackbook依赖管理工具与Npm功能一样，推荐使用！！！--- 是否安装vue路由 -->. --- 是否启动ESLint代码检测 -->. --- 是否设置单元测试 -->. --- 是

hline 2020-07-29

Hive llap服务安装说明及测试（二）

因为Apache Slider 已经不维护了，下面介绍不使用 Slider 的 LLAP使用方式。

xieting 2020-06-28

Vue开发中cnpm,yarn,npm,nodejs 区别与关系

yarn是Facebook公司出品的用于管理nodejs包的一款软件。yarn是为了弥补 npm 的一些缺陷而出现的，建议使用yarnnpm是随同nodejs一起安装的包管理工具。cnpm是淘宝 npm镜像，更快。

YarnSup 2020-06-28

Yarn架构

资源的分配与调度。管理单个节点上的资源。为应用程序申请资源并分配给内部任务。任务的监控和容错。Container：封装了每个节点的多维度资源

tomli 2020-06-21

使用Taro实现小程序商城的购物车功能模块的实例代码

Taro是一套遵循React语法规范的多端开发解决方案。现如今市面上端的形态多种多样，Web、React-Native、微信小程序等各种端大行其道，当业务要求同时在不同的端都要求有所表现的时候，针对不同的端去编写多套代码的成本显然非常高，这时候只编写一套代

flyingbird 2020-06-14

[email protected]配合antd UI使用，自定义主题

// 使用react-app-rewired customize-cra就不用暴露webpack等配置文件。const { override, fixBabelImports, addLessLoader } = require;// style: tru

Notzuonotdied 2020-06-13

Yarn 和 NPM 国内快速镜像（淘宝镜像）

如果在前端开发使用 NPM 或者 YARN 下载过程中碰到网速非常慢，可以配置国内淘宝镜像来提升下载速度。

HJWZYY 2020-06-07

记学习react-native

　　根据文档中的内容，安装Node,Python2,JDK, Android Studio,npm全局安装Yarn。具体配置和环境变量配置也按文档来的。　　不过在创建新项目的时候使用react-native init项目名时一直报错，有报ETIMEOUT，

xieting 2020-05-29

如何在Ubuntu 20.04上安装Yarn

在Ubuntu上安装Yarn非常简单。我们将启用官方的Yarn存储库，导入存储库GPG密钥，然后安装该软件包。该存储库得到了一致的维护，并提供了最新版本。如果您通过nvm安装了Node槽，请使用以下命令跳过Node.js的安装：。系统上安装的版本可能与上面

tomli 2020-05-27

查看npm和yarn 的镜像源和配置淘宝镜像源

#npm：npm config get registry #yarn：yarn config get registry

xieting 2020-05-26

create-react-app + Typescript脚手架搭建

在react-app-env.d.ts文件中新增（否则将无法正常使用less module！！！

tomli 2020-05-25

设置yarn源修改为淘宝源

和npm修改淘宝源的的步骤差不多

tomli 2020-05-14

安科网

Apache Hadoop 2.2.0 HDFS HA + YARN多机部署

FireFox

FireFox

相关推荐

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop

大数据 Hadoop

搭建HDFS集群和Yarn集群

Hadoop Yarn工作机制 Job提交流程

在Ubuntu和其他Linux发行版上使用Yarn

三、大数据组件之Yarn

yarn 查看资源 core 内存

第一个Vue页面

Hive llap服务安装说明及测试（二）

Vue开发中cnpm,yarn,npm,nodejs 区别与关系

Yarn架构

使用Taro实现小程序商城的购物车功能模块的实例代码

[email protected]配合antd UI使用，自定义主题

Yarn 和 NPM 国内快速镜像（淘宝镜像）

记学习react-native

如何在Ubuntu 20.04上安装Yarn

查看npm和yarn 的镜像源和配置淘宝镜像源

create-react-app + Typescript脚手架搭建

设置yarn源修改为淘宝源

FireFox