ganglia集群版搭建（支持hadoop和spark）

renzeGIS

2018-11-27

spark源码解读系列环境：spark-1.5.2、hadoop-2.6.0、scala-2.10.4，ganglia-3.6.1

系统：ubuntu 14.04

1.理解

1.1 ganglia的概述

Ganglia是UC Berkeley发起的一个开源集群监视项目，设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能起到重要作用。

ganglia是一个集群监控工具，hadoop和spark已经支持

ganglia有论文，“The ganglia distributed monitoring system:

design, implementation, and experience”。

1.2 Ganglia architecture：

ganglia集群版搭建（支持hadoop和spark）

1.3 集群配置

1.3.1 准备

需要先配置apache2和php

安装 Apache2：

sudo apt-get install apache2

安装PHP模块：

sudo apt-get install php5

其他模块安装：

sudo apt-get install libapache2-mod-php5

sudo apt-get install libapache2-mod-auth-mysql

具体请参考【5】或者搜索，网上有很多

1.3.2 安装ganglia单节点

打开终端，运行以下命令：

sudo apt-get install ganglia-monitor rrdtool gmetad ganglia-webfrontend

在安装过程中，你应该会看到安装后与apache2服务器重启选择，直接 Yes，然后按Enter键。

需要复制 Ganglia webfrontend Apache 配置，使用下面的命令来正确的位置：

sudo cp /etc/ganglia-webfrontend/apache.conf /etc/apache2/sites-enabled/ganglia.conf

需要重启服务：

sudo /etc/init.d/ganglia-monitor start

sudo /etc/init.d/gmetad start

sudo /etc/init.d/apache2 restart

现在你可以使用以下命令访问gnglia webinterface：

http://serverip/ganglia/

可以参考【6】

1.3.3 安装ganglia集群

主节点：Mcnode7

客户端：Master Mcnode1 Mcnode2 Mcnode3 Mcnode4 Mcnode5 Mcnode6 Mcnode7

主节点(一个)

现在需要使用以下命令来编辑 Ganglia 元守护程序的配置文件：

sudo vi /etc/ganglia/gmetad.conf

更改如下：

data_source "Spark" 10 Mcnode7:8649

通过以上列出机器服务的数据源，IP：端口或服务器名称：端口。如果未指定端口号8649（默认gmond端口）。

case_sensitive_hostnames 0

设置为1，则不会将hostname中大写变成小写

需要重启服务：

sudo /etc/init.d/ganglia-monitor restart

sudo /etc/init.d/gmetad start

sudo /etc/init.d/apache2 restart

现在你可以使用以下命令访问ganglia webinterface：

http://192.168.1.50/ganglia/

客户端（8个）

（1） ganglia 客户端安装

你需要安装以下所有服务器要监视客户端包

sudo apt-get install ganglia-monitor

（2）客户端配置：

使用了单播模式，需要使用下面的命令编辑主节点的配置文件：

sudo vi /etc/ganglia/gmond.conf

更改如下：（—-注释为改动）

/* If a cluster attribute is specified, then all gmond hosts are wrapped inside

* of a <CLUSTER> tag. If you do not specify a cluster tag, then all <HOSTS> will

* NOT be wrapped inside of a <CLUSTER> tag. */

cluster {

name = "Spark" ------集群名称

owner = "unspecified"

latlong = "unspecified"

url = "unspecified"

}

/* The host section describes attributes of the host, like the location */

host {

location = "unspecified"

}

/* Feel free to specify as many udp_send_channels as you like. Gmond

used to only support having a single channel */

udp_send_channel {

#mcast_join = 239.2.11.71 ------注释掉组播

host = Mcnode7 ------发送给安装gmetad的机器

port = 8649

ttl = 1

}

/* You can specify as many udp_recv_channels as you like as well. */

udp_recv_channel {

#mcast_join = 239.2.11.71 ------注释掉组播

port = 8649

#bind = 239.2.11.71 ------注释掉

}

保存并关闭文件。

（3）客户端生效

重启 ganglia monitor 服务

sudo /etc/init.d/ganglia-monitor restart

具体参考【6】【7】

效果：

ganglia集群版搭建（支持hadoop和spark）

1.3.4 配置hadoop metrics设置，连接ganglia集群

修改Hadoop的配置文件hadoop/etc/hadoop/hadoop-metrics.properties（适用于Ganglia老版本）

dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

dfs.period=10

dfs.servers=192.168.1.50:8649

mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

mapred.period=10

mapred.servers=192.168.1.50:8649

jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

jvm.period=10

jvm.servers=192.168.1.50:8649

rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

rpc.period=10

rpc.servers=192.168.1.50:8649

ugi.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

ugi.period=10

ugi.servers=192.168.1.50:8649

(2) 修改Hadoop的配置文件hadoop/etc/hadoop/hadoop-metrics2.properties（适用于Ganglia新版本）

*.sink.file.class=org.apache.hadoop.metrics2.sink.FileSink

*.period=10

*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31

*.sink.ganglia.period=10

*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both

*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40

namenode.sink.ganglia.servers=192.168.1.50:8649

datanode.sink.ganglia.servers=192.168.1.50:8649

resourcemanager.sink.ganglia.servers=192.168.1.50:8649

nodemanager.sink.ganglia.servers=192.168.1.50:8649

maptask.sink.ganglia.servers=192.168.1.50:8649

reducetask.sink.ganglia.servers=192.168.1.50:8649

所有的servers都修改为安装为gmetad的机器IP（Spark-Master），保存完以后将配置文件分发到各个Slave节点的${HADOOP_HOME}/etc/hadoop目录下，重启Hadoop集群即可。

效果：

dfs.datanode.BlocksRead：

ganglia集群版搭建（支持hadoop和spark）

参考见【8】

1.3.5 配置spark metrics设置，连接ganglia集群

（1）配置环境

由于license问题，spark的bin里面没有自带ganglia，需要自己弄

方法1：编译的时候自己加上

mvn -DskipTests -Pspark-ganglia-lgpl -Phadoop-2.6 -Dhadoop.version=2.6.0 clean package

方法2：运行的时候用jar形式加入（参考【11】）

–jars lib/spark-ganglia-lgpl_2.10-x.x.x.jar …

（2）设置spark metrics

自行部署spark集群，编辑$SPARK_HOME/conf/metrics.properties文件（没有可以拷贝metrics.properties.template），添加以下内容：

复制代码

*.sink.ganglia.class=org.apache.spark.metrics.sink.GangliaSink

*.sink.ganglia.host=Mcnode7 --host（可以是ip）

*.sink.ganglia.port=8649

*.sink.ganglia.period=10

*.sink.ganglia.unit=seconds

*.sink.ganglia.ttl=1

*.sink.ganglia.mode=unicast --单播

*.sink.ganglia.name=Spark --名字

*.sink.console.class=org.apache.spark.metrics.sink.ConsoleSink

*.sink.console.period=10

*.sink.console.unit=seconds

master.source.jvm.class=org.apache.spark.metrics.source.JvmSource

worker.source.jvm.class=org.apache.spark.metrics.source.JvmSource

driver.source.jvm.class=org.apache.spark.metrics.source.JvmSource

executor.source.jvm.class=org.apache.spark.metrics.source.JvmSource

更改后scp到其它spark节点，启动spark集群。

(3) 启动服务进行监控

启动ganglia的gmetad,gmond以及httpd服务：

service gmond start

service gmetad start

service httpd start

参考见【9】

(3) 效果

常用的监控指标有：

DAGScheduler.job.allJobs

driver.BlockManager.memory.maxMem_MB

master.works

spark集群的监控：

ganglia集群版搭建（支持hadoop和spark）

单个节点的监控：

ganglia集群版搭建（支持hadoop和spark）

控制台输出时间信息：

ganglia集群版搭建（支持hadoop和spark）

ganglia spark sudo hadoop 集群服务器 apt-get hadoop集群搭建

安科网

ganglia集群版搭建（支持hadoop和spark）

renzeGIS

renzeGIS

相关推荐

flume安装及ganglia使用

Ganglia的安装

Ganglia是一款非常优秀的开源的监控框架

CentOS 5.5 Final下Ganglia安装详解

使用容器方式部署Ganglia

Ganglia：分布式监控系统（开源）

ganglia 安装

编写ganglia python插件

ubuntu ganglia 配置.

记录下Ganglia本地测试环境的搭建

Ganglia单播模式配置

开源服务内部监控系统（二） ganglia简介

转：ganglia监控mysql

linux下ganglia监控系统搭建

云计算平台管理的三大利器Nagios、Ganglia和Splunk

Ubuntu10.04 Ganglia安装配置

集群监控软件Ganglia在Ubuntu Server上的部署

云计算平台管理的三大利器Nagios、Ganglia和Splunk

centos5.2上ganglia安装步骤

Ganglia的安装

renzeGIS