HDFS中的通信协议
通过对org.apache.Hadoop.ipc包中,Hadoop实现了基于IPC模型的RPC机制,可以不需要像Java中实现的RMI机制一样,在RPC调用的C/S两端分别创建Stub和Skeleton,而是通过一组协议来进行RPC调用就可以实现通信。这主要是由于Hadoop所采用的序列化机制简化了RPC调用的复杂性。Hadoop定义了自己的通信协议,这些协议都是建立在TCP/IP协议之上的,规范了通信两端的约定。
为了阅读分析org.apache.hadoop.hdfs.DFSClient类的实现,我们还需要对Hadoop定义的通信协议簇来进行了解,因为DFSClient所执行的操作都是基于协议的规定来实现的,了解协议的内容可能会对DFSClient实例连接到HDFS执行的任务更好理解一点。
首先,了解一下Hadoop定义的通信双方需要遵循的一组协议,下面是协议接口的继承层次关系,并作简单介绍:
- 。org.apache.hadoop.ipc.VersionedProtocol
- 。org.apache.hadoop.hdfs.protocol.ClientProtocol
- 。org.apache.hadoop.hdfs.protocol.ClientDatanodeProtocol
- 。org.apache.hadoop.hdfs.server.protocol.NamenodeProtocol
- 。org.apache.hadoop.hdfs.server.protocol.DatanodeProtocol
- 。org.apache.hadoop.hdfs.server.protocol.InterDatanodeProtocol
VersionedProtocol协议是Hadoop的最顶层协议接口的抽象;
ClientProtocol协议是用户进程(包括客户端进程与Datanode进程)与Namenode进程之间进行通信所使用的协议,例如,(1)客户端进程需要向Datanode数据结点复制数据块,需要与Namenode进程通信,获取Datanode结点列表;(2)Datanode进程向Namenode进程发送心跳状态报告和块状态报告需要与Namenode进程交互;
ClientDatanodeProtocol协议是客户端进程与Datanode进程之间进行通信所使用的协议;
DatanodeProtocol协议是当Datanode进程需要与NameNode进程进行通信是需要基于此协议,例如发送心跳报告和块状态报告;
InterDatanodeProtocol协议是Datanode进程之间进行通信的协议,例如客户端进程启动复制数据块,此时可能需要在Datanode结点之间进行块副本的流水线复制操作。
下面我们一个一个来看:
- VersionedProtocol协议
该接口的定义如下:
- package org.apache.hadoop.ipc;
- import java.io.IOException;
- /**
- * 使用Hadoop RPC机制的所有协议的超类
- * 该接口的子类同样支持具有一个static final long的版本属性字段
- */
- public interface VersionedProtocol {
- /**
- * 返回与指定协议protocol相关的协议版本
- * @param protocol 协议接口的类名
- * @param clientVersion 客户端欲与服务器进行交互,它所使用的协议版本
- * @return 返回服务器将要与客户端进行交互,所需要使用的协议版本
- */
- public long getProtocolVersion(String protocol, long clientVersion) throws IOException;
- }