大数据项目实践（一）——之HDFS集群配置

whulovely

2019-06-28

一、服务节点规划设计

	机器1	机器2	机器3	机器4	机器5
hdfs	NameNode	NameNode	DataNode	DataNode	DataNode
YARN	ResourceManager	ResourceManager	NodeManager	NodeManager	NodeManager
Zookeeper	Zookeeper	Zookeeper	Zookeeper	Zookeeper	Zookeeper
Kafka			Kafka	Kafka	Kafka
Hbase	master	master	RegionServer	RegionServer	RegionServer
flume	flume			flume	flume
hive		hive
mysql		mysql
spark	spark
hue	hue

二、Linux环境准备与配置

1.Linux系统常规配置

设置IP地址
创建用户
```
adduser bigdata
passwd 123456
```
文件中设置主机名
```
vi /etc/sysconfig/network
```

主机名映射

vi /etc/hosts
192.168.10.131 bigdata-pro01.mars.com bigdata-pro01

关闭防火墙

vi /etc/sysconfig/selinux
SELINUX=disabled
重启

卸载本身自带jdk

rpm -qa | grep java
rpm -e --nodeps [jdk进程名称1 jdk进程名称2]

root用户下设置无密码用户切换

ls -l /etc/sudoers
vi /etc/sudoers
加一行
bigdata ALL=(root)NOPASSWD:ALL

验证机器的防火墙是不是关了

sudo service iptables status
sudo service iptables start 
sudo service iptables stop 
chkconfig iptables off ##永久关闭防火墙

2.克隆虚拟机并进行相关的配置

3.对集群中的机器进行基本配置

虚拟机设置固定IP地址
设置无秘钥登录
首先在主节点上生成公钥
ssh-keygen -t rsa
生成的秘钥对存放在当前用户的家目录下的 .ssh 文件内
cd ~/.ssh
然后将公钥拷贝到各个子节点上
```
ssh-copy-id bigdata-pro02.mars.com
ssh-copy-id bigdata-pro03.mars.com
ssh-copy-id bigdata-pro04.mars.com
ssh-copy-id bigdata-pro05.mars.com
```
注意，这个相当于把公钥拷贝到从节点（追加的方式）[cat id_rsa.pub >> authorized_keys]
同步机器时间，使用ntpdate
主节点设置时间，首先选择时区，可以使用 tzselect 命令，将时区选择好
然后使用date -s 设置
```
date -s 2018-08-18
date -s 15:03:02
```
从节点同步主节点的时间，使用crontab 定时任务
```
0-59/10 * * * * /usr/sbin/ntpdate bigdata-pro01.mars.com
```

三、HDFS 集群配置

hadoop版本下载
cdh版本:下载地址 http://archive.cloudera.com/c...
官网版本：下载地址 http://archive.apache.org/dist/

需要配置的文件
$HADOOP_HOME/etc/hadoop/

1) hadoop-env.sh

#只要修改一个地方：
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/opt/modules/jdk1.8.0_171

2) core-site.xml

<configuration>
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://bigdata-pro01.mars.com:9000</value>
</property>
<property>
        <name>hadoop.http.staticuser.user</name>
        <value>bigdata</value>
</property>

<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/modules/hadoop-2.6.0-cdh5.10.2/data/tmp</value>
</property>

</configuration>

3) hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>

    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
</configuration>

4) slaves

bigdata-pro03.mars.com
bigdata-pro04.mars.com
bigdata-pro05.mars.com

四、HDFS HA 配置

配置完成后，先启动journalnode服务
$HADOOP_HOME/sbin/hadoop-daemon.sh start journalnode

hdfs td

whulovely

0 关注 0 粉丝 0 动态

关注关注

hadoop伪分布式环境搭建

core-site.xml文件主要配置了访问Hadoop集群的主要信息，其中master代表主机名称，也可以使用IP替换，9000代表端口。外部通过配置的hdfs：//master：9000信息，就可以找到Hadoop集群。hdfs-site.xml配置文

WeiHHH 2020-09-23

HDFS分布式存储中NameNode 和DataNode 有什么区别？

随着互联网不断得突飞猛进，数据就逐渐演变为科技和经济发展的核心。更是对于互联网时代的人类和企业来说，是至关重要的，可能对于普通人来说没有太大影响，但是对于国家和大型企业来说，数据就是其命脉，人工智能就是对数据海量化的最好证明之一。所以，数据存储的稳定在一定

憧憬 2020-08-21

2020年首个存储挖矿项目HDFS是什么？

2020年首个存储挖矿项目HDFS是什么？通过去中心化金融DEFI已经积累了数十亿美元的市值，另一边以Fecoin为代表的存储挖矿项目却一直处于雷声大雨点小的状态，因为Fecoin已经连续跳票数次，对于矿工而言则颇为扫兴，好在HDFS及时出现补上了Feco

ViMan0 2020-08-14

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

hadoop集群的启动与停止

漫长的启动时间…………思考：每次都一个一个节点启动，如果节点数增加到1000个怎么办？早上来了开始一个一个节点启动，到晚上下班刚好完成，下班？这些名称是我的三台机器的主机名，各位请改成自己的主机名！如果集群是第一次启动，需要格式化NameNode，这里使用

飞鸿踏雪0 2020-07-09

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 2020-07-05

HDFS

hdfs dfs -put [-f] [-p] [-l] <本地路径> <目标路径>hdfs dfs -put /opt/a.txt /usr/root//txtdir. 本人已经设置了环境变量，则可以在任意的路径下可直接使用hdf

zzjmay 2020-07-04

hadoop创建目录

//1.vm arguments中添加后面的参数来修改用户 -DHADOOP_USER_NAME=hadoop

硅步至千里 2020-06-25

[AWS][大数据][Hadoop] 使用EMR做大数据分析

创建一个存储桶比如hadoop202006…这里我解释一下Hadoop集群中的一些组件，了解大数据的同学直接忽略就好。Apache Hadoop：在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。Ap

swazerz 2020-06-22

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

大数据期末复习重点

系统上安装 jdk环境.基于/usr/local/ 目录下解压安装.注: 可检查目录大小: df-h/usr/local/　　。解压压缩包tar -zxvf jdk-7u80-linux.tar.gz 改名: mv jdk-7u80-linux jdk7　

ViMan0 2020-06-21

HDFS【概述、数据流】

能处理PB级别数据、能处理百万的文件数据量。1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。4）NameNode返回3个DataNode节点，分别为dn1

sujins 2020-06-14

HDFS【shell操作hdfs命令】

-moveFromLocal：从本地剪切粘贴到HDFS. -copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去。-appendToFile：追加一个文件到已经存在的文件末尾。2）-get：等同于copyToLocal，就是从HDFS下载文

sujins 2020-06-14

hdfs读数据流程

1，客户端通过Distributed FileSystem 向namenode请求下载文件，namenode 通过查找元数据，返回文件块所在datanode的地址。2，客户端挑选一台datanode服务器，建立连接，请求读取数据；如果dn异常，则从第二优先

Cloudeep 2020-06-14

hdfs写数据流程

1，客户端向nn请求上传文件，nn检查该文件和父目录是否存在。4，nn根据副本原则，返回给客户端块上传的dn节点信息。5，客户端和dn1建立连接，请求上传数据，dn1接着和dn2建立连接，dn2和dn3建立连接，通信管道就建立完成。6，dn1，dn2，dn

ViMan0 2020-06-14

HDFS【Java API操作】

* conf > 工程下的xxx-site.xml > 集群中xxx-site.xml > 集群中xxx-default.xml. //配置副本数 - 该配置只针对本次的操作有效。* boolean overwrite --如果

sujins 2020-06-13

15.HA高可用

HA即高可用，实现高可用最关键的策略就是消除单点故障。HA严格地来说应该分成各个组件的HA机制，HDFS的HA和YARN的HA。Hadoop2.0之前，在HDFS集群中NameNode存在单点故障。HDFS HA功能通过配置Active/Standby两个

sujins 2020-06-10

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

tackoverflow的解释Hadoop fs：使用面最广，可以操作任何文件系统。hadoop dfs与hdfs dfs：只能操作HDFS文件系统相关，前者已经Deprecated，一般使用后者。Following are the three comma

zzjmay 2020-06-08

flume

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。a)Source：采集组件，用于跟数据源对接，以获取数据。c)Channel：传输通道组件，用于从source将数据传递到sink. #因为要存到hdfs上，所以下沉组件位hdfs.

zzjmay 2020-06-07

安科网

大数据项目实践（一）——之HDFS集群配置

whulovely

一、服务节点规划设计

二、Linux环境准备与配置

1.Linux系统常规配置

2.克隆虚拟机并进行相关的配置

3.对集群中的机器进行基本配置

三、HDFS 集群配置

四、HDFS HA 配置

whulovely

相关推荐

hadoop伪分布式环境搭建

HDFS分布式存储中NameNode 和DataNode 有什么区别？

2020年首个存储挖矿项目HDFS是什么？

hadoop框架三大组件hdfs、mapreduce、yarn 内容

hdfs、hive、hbase的搭建总结

hadoop集群的启动与停止

Spark RDD

HDFS

hadoop创建目录

[AWS][大数据][Hadoop] 使用EMR做大数据分析

Hadoop

大数据期末复习重点

HDFS【概述、数据流】

HDFS【shell操作hdfs命令】

hdfs读数据流程

hdfs写数据流程

HDFS【Java API操作】

15.HA高可用

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

flume

whulovely