Hadoop实战之分布式模式

刘振锋

2012-01-30

关注关注

1. 首先为Hadoop的集群准备几台机器，这里机器名如下：

[plain]

fkongnix0 (master)
fkongnix1 (slave1)
fkongnix2 (slave2)

2. 修改每个机器的/etc/hosts文件，确保每个机器都可以通过机器m名互相访问；

3. 在上面每个机器上的相同位置分别安装hadoop，这里安装的都是hadoop-0.20.203.0rc1.tar.gz包，并且假定安装路径都是/data/fkong/hadoop-0.20.203.0；

4. 修改所有机器上的${HADOOP_HOME}/conf/hadoop-env.sh文件，将JAVA_HOME指定到正确的jdk路径上；

5. 修改master机器上的${HADOOP_HOME}/conf/slaves文件，修改后文件内容如下：

[plain]

fkongnix1
fkongnix2

6. 修改和部署配置文件

6.1 编辑${HADOOP_HOME}/conf/core-site.xml文件，内容修改如下：

[plain]

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://fkongnix0:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/fkong/hadoop-0.20.203.0/hadoop-${user.name}</value>
</property>
</configuration>

6.2 编辑${HADOOP_HOME}/conf/hdfs-site.xml文件，内如修改如下：

[plain]

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

6.3 编辑${HADOOP_HOME}/conf/mapred-site.xml文件，内如修改如下：

[plain]

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>fkongnix0:9001</value>
</property>
</configuration>

6.4 将以上三个配置文件分别部署的每个slave节点上；

7. 格式化一个新的分布式文件系统:

[plain]

$ bin/hadoop namenode -format

分布式部署 hadoop

刘振锋

0 关注 0 粉丝 0 动态

关注关注

Hadoop基础（三十三）：Zookeeper 分布式安装部署

在 hadoop102、hadoop103 和 hadoop104 三个节点上部署 Zookeeper。A 是一个数字，表示这个是第几号服务器；就是 A 的值，Zookeeper 启动时读取此文件，拿到里面的数据与 zoo.cfg 里面的配置信息比。较从而

deyu 2020-07-21

hadoop 伪分布式单机部署练习hive

usermod -a -G hadoop haddop 第一个hadoop是组名，-a 防止其他用户组的hadoop离开，保持旧的用户组拥有hadoop用户状态。但事实上在生产系统里，NameNode、DataNode等进程都应单独配置目录，而且配置的应该

taisenki 2020-05-27

13张图彻底搞懂分布式系统服务注册与发现原理

本文转载自微信公众号「爱笑的架构师」，可以通过以下二维码关注。在微服务架构或分布式环境下，服务注册与发现技术不可或缺，这也是程序员进阶之路必须要掌握的核心技术之一，本文通过图解的方式带领大家轻轻松松掌握。但在现实的创业环境中一个项目可能是九死一生，如果一开

地平线 2020-11-02

分布式系统的一些基础理论

在一年前我曾经有做过一些 Zookeeper 的相关总结，现在我们再把它捡回来，重新的把一些前因后果都扯得更加明白。我们先从服务部署架构的发展历程说起，其实无非就是集中式和分布式，集中式就是说，什么我都是由一台机器搞定的。分布式就是多台服务器联合

ptmagic 2020-10-31

聊聊分布式下的WebSocket解决方案

最近自己搭建了个项目，项目本身很简单，但是里面有使用WebSocket进行消息提醒的功能，大体情况是这样的。发布消息者在系统中发送消息，实时的把消息推送给对应的一个部门下的所有人。这里面如果是单机应用的情况时，我们可以通过部门的id和用户的id组成一个唯一

joynet00 2020-09-23

分布式系统的代码检视清单

微服务架构是目前在软件工程界广泛采用的一种做法。采用这种体系结构样式的组织发现自己正在处理分布式故障的增加的复杂性。分布式计算的谬论有据可查，但难以发现。为了处理这种情况，应始终检查以下内容。仅当您的API安全重试且不会引起意外副作用时，调用方才可以重试。

互联网架构之路 2020-09-17

微服务的战争：选型？分布式链路追踪

本文转载自微信公众号「脑子进煎鱼了」，作者陈煎鱼。“微服务的战争” 是一个关于微服务设计思考的系列题材，主要是针对在微服务化后所出现的一些矛盾/冲突点，不涉及具体某一个知识点深入。如果你有任何问题或建议，欢迎随时交流。在经历微服务的战争：级联故障和雪崩

阿义 2020-09-11

程序员过关斩将--解决分布式session问题

session说到 session，我相信每个程序员都不陌生，或多或少在项目中使用过。session 这个词，其实是一个抽象的概念，它不像 Cookie 那样有着明确的定义。当大多数程序员谈论 session 的时候，可能指的是服务端存储数据的 sess

思君夜未眠 2020-08-25

深入了解MongoDB 分布式集群

在分布式应用系统中，mongodb 已经成为 NoSQL 经典数据库。要想很好的使用 mongodb，仅仅知道如何使用它是不够的。只有对其架构原理等有了充分认识，才能在实际运用中使其更好地服务于应用，遇到问题知道怎么处理，而不是抓瞎抹黑。这篇文章就带你进入

zyshappy 2020-08-16

如何在Linux下安装部署分布式全文搜索引擎

Elasticsearch是一个开源的分布式全文本搜索和分析引擎。它支持RESTful操作，并允许您实时存储，搜索和分析大量数据。Elasticsearch是最流行的搜索引擎之一，可为具有复杂搜索要求的应用程序提供动力，例如大型电子商务商店和分析应用程序。

liangwenrong 2020-07-31

干掉xxl-job：elastic-job王者归来？

调度在计算机领域是个庞大概念，CPU 调度、内存调度、进程调度等都可称之为调度。分布式调度云平台产品的缺失，使得 ElasticJob 从出现伊始便备受关注。ElasticJob Lite 定位为轻量级无中心化解决方案，使用 jar 的形式提供分布式任务

唐亚杰 2020-07-17

分布式爬虫部署基于scrapy和scrapy-redis

安装一个scrapy-redis的组件。原生的scrapy是不可以实现分布式爬虫，必须要让scrapy结合着scrapy-redis组件一起实现分布式。scrapy-redis组件的作用可以给原生的scrapy框架提供可以被共享的管道和调度器。结合配置文件

zhangll00 2020-07-05

一致性HASH算法在分布式应用场景使用

比如redis集群场景下，原本我们分3主3从部署。如果有一种算法，无论遇到扩容、缩容问题，最终受影响面足够小，即只有部分数据可能需要重新落DB，其他还是能正确找到对应缓存机器节点，那这是最好的。

Cheetahcubs 2020-07-05

分布式锁讲解

首先，分布式锁和我们平常讲到的锁原理基本一样，目的就是确保在多个线程并发时，只有一个线程在同一刻操作这个业务或者说方法、变量。想想双十一和大年三十晚上十点，瓜分支付宝红包等业务场景，自然需要用到多台服务器去同时处理这些业务，这些服务可能会有上百台同时处理。

憧憬 2020-07-04

集群与分布式

我想大家最最最熟悉的就是单机结构，一个系统业务量很小的时候所有的代码都放在一个项目中就好了，然后这个项目部署在一台服务器上就好了。整个项目所有的服务都由这台服务器提供。我想缺点是显而易见的，单机的处理能力毕竟是有限的，当你的业务增长到一定程度的时候，单机的

middleware0 2020-06-27

Zookeeper分布式过程协同技术 - 部署及设置

Zookeeper支持单机模式、伪集群模式、集群模式三种部署方式。演示部署环境为CentOS、jdk版本为1.8、Zookeeper版本为3.4.9。单机模式适合入门学习使用，只需要一台机器就可以轻松搭建Zookeeper服务用于学习和测试。tickTim

joynet00 2020-06-26

如何设计高性能的分布式锁

什么是分布式锁？在 JVM 中，在多线程并发的情况下，我们可以使用同步锁或 Lock 锁，保证在同一时间内，只能有一个线程修改共享变量或执行代码块。但现在我们的服务都是基于分布式集群来实现部署的，对于一些共享资源，在分布式环境下使用 Java 锁的方式就失

亦碎流年 2020-06-18

如此通俗的分布式锁讲解，如果还搞不定那就...

wqbala 2020-06-14

分布式爬虫

什么是分布式爬虫？分布式爬虫是将多台电脑构建成一个机群，然后将爬虫程序部署在机群内的每台电脑上进行执行爬取任务，最终将所有的数据进行。由于原生scrapy的五大组件的不能实现共享，数据无法整合，所以必须通过scrapy和scrapy_redis组件结合进行

亦碎流年 2020-06-09

【从单体架构到分布式架构】（二）请求增多，单点变集群(1)：负载均衡

上一个章节，我们搭建了一个最简单的单体服务项目，单体架构就是把所有的功能都放在一个工程项目中。但是当访问量不断增加，我们只部署一套环境就有些吃不消了，这时候有什么解决方案么？如果我们去一个超市购物，当客户数量不多的时候，超市只开通一个结账通道就可以满足需要

魏莉的微 2020-06-07

安科网

Hadoop实战之分布式模式

刘振锋

刘振锋

相关推荐

Hadoop基础（三十三）：Zookeeper 分布式安装部署

hadoop 伪分布式单机部署练习hive

13张图彻底搞懂分布式系统服务注册与发现原理

分布式系统的一些基础理论

聊聊分布式下的WebSocket解决方案

分布式系统的代码检视清单

微服务的战争：选型？分布式链路追踪

程序员过关斩将--解决分布式session问题

深入了解MongoDB 分布式集群

如何在Linux下安装部署分布式全文搜索引擎

干掉xxl-job：elastic-job王者归来？

分布式爬虫部署基于scrapy和scrapy-redis

一致性HASH算法在分布式应用场景使用

分布式锁讲解

集群与分布式

Zookeeper分布式过程协同技术 - 部署及设置

如何设计高性能的分布式锁

如此通俗的分布式锁讲解，如果还搞不定那就...

分布式爬虫

【从单体架构到分布式架构】（二）请求增多，单点变集群(1)：负载均衡

刘振锋