用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

harryptter

2012-08-14

用 Hadoop 进行分布式数据处理，第 2 部分: 进阶
安装和配置多节点集群

简介：本系列的用 Hadoop 进行分布式数据处理，第 1 部分：入门展示了如何在一个单节点集群中使用 Hadoop。本文在此基础之上继续介绍一个更加高级的设置，即使用多个节点进行并行处理。展示了多节点集群所需的各种节点类型，并探讨了一个并行环境中的 MapReduce 功能。本文还深入探究了 Hadoop 的管理方面 — 同时基于命令行和 Web。

相关阅读：

用 Hadoop 进行分布式数据处理，第 1 部分：入门 http://www.linuxidc.com/Linux/2012-08/68177.htm
用 Hadoop 进行分布式数据处理，第 2 部分：进阶 http://www.linuxidc.com/Linux/2012-08/68178.htm
用 Hadoop 进行分布式数据处理，第 3 部分：应用程序开发 http://www.linuxidc.com/Linux/2012-08/68179.htm

Hadoop 分布式计算架构的真正实力在于其分布性。换句话说，向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式 Hadoop 架构进行分解，然后探讨分布式配置和使用。

分布式 Hadoop 架构

根据用 Hadoop 进行分布式数据处理，第 1 部分：入门，所有 Hadoop 守护进程都在同一个主机上运行。尽管不运用 Hadoop 的并行性，这个伪分布式配置提供一种简单的方式来以最少的设置测试 Hadoop 的功能。现在，让我们使用机器集群探讨一下 Hadoop 的并行性。

根据第 1 部分，Hadoop 配置定义了让所有 Hadoop 守护进程在一个节点上运行。因此，让我们首先看一下如何自然分布 Hadoop 来执行并行操作。在一个分布式 Hadoop 设置中，您有一个主节点和一些从节点（见图 1）。

图 1. Hadoop 主从节点分解
用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

如图 1 所示，主节点包括名称节点、从属名称节点和 jobtracker 守护进程（即所谓的主守护进程）。此外，这是您为本演示管理集群所用的节点（使用 Hadoop 实用程序和浏览器）。从节点包括 tasktracker 和数据节点（从属守护进程）。两种设置的不同之处在于，主节点包括提供 Hadoop 集群管理和协调的守护进程，而从节点包括实现 Hadoop 文件系统（HDFS）存储功能和 MapReduce 功能（数据处理功能）的守护进程。

对于该演示，在一个 LAN 上创建一个主节点和两个从节点。设置如图 2 所示。现在，我们来探讨用于多节点分布的 Hadoop 的安装和配置。

图 2. Hadoop 集群配置
用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

为简化部署，要运用虚拟化技术，该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势，但是它可以创建一个 Hadoop 安装，然后为其他节点克隆该安装。为此，您的 Hadoop 集群应显示如下：在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机（VM）运行（见图 3）。

图 3. 虚拟环境中的 Hadoop 集群配置
用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

大数据数据处理 hadoop 分布式处理分布式架构分布式开发 font

安科网

用 Hadoop 进行分布式数据处理，第 2 部分: 进阶

harryptter

harryptter

相关推荐

为什么Java仍将是未来的主流语言？

分布式文档存储数据库之MongoDB分片集群的问题

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

harryptter