Hadoop作业引用第三方jar文件

陈先森

2014-02-05

在eclipse中写mapreduce程序, 引用第三方jar文件, 可以利用eclipse Hadoop插件直接run on hadoop提交, 很方便. 不过插件版本要和eclipse匹配, 不然总是local执行, 在50070是没有job产生的.

如果希望将程序发布成jar文件, 在namenode上通过命令行方式执行, 缺少了eclipse帮忙自动配置jar文件, 会遇到java.lang.ClassNotFoundException, 这个问题可分成两种情况讨论.

一. hadoop命令式如何执行的？

其实$HADOOP_HOME/bin/hadoop是一个脚本文件. 以下wordcount命令为例

bin/hadoop jar wordcount.jar myorg.WordCount /usr/wordcount/input /usr/wordcount/output

脚本文件解析参数, 配置类路径等, 最终执行的是如下命令:

exec java -classpath $CLASSPATH org.apache.hadoop.util.RunJar $@

其中$CLASSPATH : 包含${HADOOP_CONF_DIR}, $HADOOP_HOME下的*.jar以及$HADOOP_CLASSPATH;

$@ : 所有脚本参数, 此处为jar后面的参数;
RunJar : 这个类的功能比较简单, 将jar文件解压到“hadoop.tmp.dir”目录下, 然后执行我们指定的类, 此处即为myorg.WordCount

有RunJar执行WordCount后, 就进入我们的程序了, 需要配置mapper, reducer以及输出输出路径等等, 最终通过执行job.waitForCompletion(true)向JobTracker提交这个作业.

到目前可知, 已经完成了本地执行部分, 如果这段时期发生ClassNotFoundException, 则可以在自己的脚本文件中配置$HADOOP_CLASSPATH, 包含需要的第三方jar文件, 再执行hadoop命令, 此为情况一.

二. JobTracker和TaskTracker如何获得第三方jar文件?

有时候提交job之后, 在map或者reduce函数中也会产生ClassNotFoundException. 这是因为map或reduce可能在其他机器上执行, 那些机器没有需要的jar文件, mapreduce作业交由JobTracker和TaskTracker执行, 两者如何获得第三方jar文件呢? 即为情况二.

我们首先来分析下mapreduce提交过程, 如下图所示.

Hadoop作业引用第三方jar文件

step 1.和2. 通过Job类提交作业, 获得一个作业号, 并根据conf决定作业时提交给LocalJobRunner还是JobTracker

step 3. copy job resource

client将作业所需资源上传到hdfs上, 如job split, jar文件等. JobClient通过configureCommandLineOptions函数处理jar文件, 该方法中通过job获得这些参数内容

files = job.get("tmpfiles"); // 对应参数项-files
libjars = job.get("tmpjars"); // 对应-libjars
archives = job.get("tmparchives"); // 对应-archives

如果jar文件有配置, 则将其加入到分布式缓存DistributedCache中, -libjars为例:

if (libjars != null) {
    FileSystem.mkdirs(fs, libjarsDir, mapredSysPerms);
    String[] libjarsArr = libjars.split(",");
    for (String tmpjars: libjarsArr) {
        Path tmp = new Path(tmpjars);
        Path newPath = copyRemoteFiles(fs, libjarsDir, tmp, job, replication);
        DistributedCache.addArchiveToClassPath(newPath, job);
    }
}

另外, 在mapreduce程序的配置中总是需要job.setJarByClass来指定运行的类, 如此hadoop就可以根据该class定位到所在的jar文件, 就是我们打包的jar, 将其上传到hdfs上. 到此jobClient完成了资源复制过程, 这些资源可供JobTracker和TaskTracker使用.

三. 总结

要想让mapreduce程序引用第三方jar文件, 可以采用如下方式:

通过命令行参数传递jar文件, 如-libjars等;
直接在conf中设置, 如conf.set(“tmpjars”,*.jar), jar文件用逗号隔开;
利用分布式缓存, 如DistributedCache.addArchiveToClassPath(path, job), 此处的path必须是hdfs, 即自己讲jar上传到hdfs上, 然后将路径加入到分布式缓存中;
第三方jar文件和自己的程序打包到一个jar文件中, 程序通过job.getJar()将获得整个文件并将其传至hdfs上. (很笨重)
在每台机器的$HADOOP_HOME/lib目录中加入jar文件. (不推荐)

p.s. 如果通过上面方法1.或2., 需要注意Configuration问题, 需要通过getConf()函数获得, 而不要自己new一个对象.

line-height font-family hadoop em

安科网

Hadoop作业引用第三方jar文件

陈先森

陈先森

相关推荐

Ubuntu 安装Docker

jackson gson

linux下安装与卸载JDK1.6

centos 内网校时

Linux查看目录大小及文件数量命令

lfs 编译错误总结

Solr入门之SolrServer实例化方式

Nginx+Tomcat+Terracotta的Web服务器集群实做

window下Nginx怎么安装启动

关于分布式系统的数据一致性问题

Js中对外部js文件的引用顺序直接影响到未定义的问题

freemarker中整数格式定义

log4j配置日志文件log4j.appender.R.File相对路径方法

web页面重构怎么操作？

javaScript的性能优化

Android 众多的布局属性详解

20个CSS快速提升技巧

spring cloud 知识点

HTML中怎么使文字各种居中对齐？（代码示例）

css中元素垂直居中的n种方法

陈先森