HDFS中的通信协议

通过对org.apache.Hadoop.ipc包中,Hadoop实现了基于IPC模型的RPC机制,可以不需要像Java中实现的RMI机制一样,在RPC调用的C/S两端分别创建Stub和Skeleton,而是通过一组协议来进行RPC调用就可以实现通信。这主要是由于Hadoop所采用的序列化机制简化了RPC调用的复杂性。Hadoop定义了自己的通信协议,这些协议都是建立在TCP/IP协议之上的,规范了通信两端的约定。

为了阅读分析org.apache.hadoop.hdfs.DFSClient类的实现,我们还需要对Hadoop定义的通信协议簇来进行了解,因为DFSClient所执行的操作都是基于协议的规定来实现的,了解协议的内容可能会对DFSClient实例连接到HDFS执行的任务更好理解一点。

首先,了解一下Hadoop定义的通信双方需要遵循的一组协议,下面是协议接口的继承层次关系,并作简单介绍:

  1. 。org.apache.hadoop.ipc.VersionedProtocol  
  2.     。org.apache.hadoop.hdfs.protocol.ClientProtocol  
  3.     。org.apache.hadoop.hdfs.protocol.ClientDatanodeProtocol  
  4.     。org.apache.hadoop.hdfs.server.protocol.NamenodeProtocol  
  5.     。org.apache.hadoop.hdfs.server.protocol.DatanodeProtocol  
  6.     。org.apache.hadoop.hdfs.server.protocol.InterDatanodeProtocol  
上述协议接口的基本含义简述如下:

VersionedProtocol协议是Hadoop的最顶层协议接口的抽象;

ClientProtocol协议是用户进程(包括客户端进程与Datanode进程)与Namenode进程之间进行通信所使用的协议,例如,(1)客户端进程需要向Datanode数据结点复制数据块,需要与Namenode进程通信,获取Datanode结点列表;(2)Datanode进程向Namenode进程发送心跳状态报告和块状态报告需要与Namenode进程交互;

ClientDatanodeProtocol协议是客户端进程与Datanode进程之间进行通信所使用的协议;

DatanodeProtocol协议是当Datanode进程需要与NameNode进程进行通信是需要基于此协议,例如发送心跳报告和块状态报告;

InterDatanodeProtocol协议是Datanode进程之间进行通信的协议,例如客户端进程启动复制数据块,此时可能需要在Datanode结点之间进行块副本的流水线复制操作。

下面我们一个一个来看:

  • VersionedProtocol协议

该接口的定义如下:

  1. package org.apache.hadoop.ipc;  
  2.   
  3. import java.io.IOException;  
  4.   
  5. /** 
  6.  * 使用Hadoop RPC机制的所有协议的超类 
  7.  * 该接口的子类同样支持具有一个static final long的版本属性字段 
  8.  */  
  9. public interface VersionedProtocol {  
  10.     
  11.   /** 
  12.    * 返回与指定协议protocol相关的协议版本 
  13.    * @param protocol 协议接口的类名 
  14.    * @param clientVersion 客户端欲与服务器进行交互,它所使用的协议版本 
  15.    * @return 返回服务器将要与客户端进行交互,所需要使用的协议版本 
  16.    */  
  17.   public long getProtocolVersion(String protocol, long clientVersion) throws IOException;  
  18. }  
该接口是所有与Hadoop RPC调用相关的协议的最高层抽象。

相关推荐