Hadoop on Windows With Eclipse(伪分布式)
1介绍
Hadoop是一个强大的架构,用于自动并行化的计算任务。不幸的是某些编程对于它是个挑战。Hadoop程序让人难以理解和调试。有一种方法可以在开发人员的机器上本地运行一个简化版的Hadoop集群使之更容易一些。本教程描述如何设置这样一个集群运Windows平台上。它还描述了如何使用Eclipse集成这个集群,一个主要的Java开发环境。
2.安装前的准备
在我们开始之前,要确保以下组件安装在了你的机器上。
l Java 1.7.0_17
l Eclipse-SDK-4.2.2
注:本教程测试环境是Hadoop1.0.4版本,如果你使用的是其他版本可以酌情去安装
为了确保不出现问题,建议都使用最新版本,我这两个版本都是最新下载的。
2.1 安装Cygwin
安装完预安装软件后,下一步就是安装Cygwin环境。Cygwin是一个组从Unix上移植到Windows的包。因为Hadoop都是写在Unix平台上的,所以用Cygwin提供Hadoop的运行环境。
安装cygwin环境有以下步骤:
1) 首先从http://www.cygwin.com网站下载所需的安装文件
2) 点击下载文件,你会看到如下的截图-本教程版本为1.7.17-1版本
CygwinInstaller
3) 当你看到上面的截图的时候,点击下一步按钮你会看到屏幕上有选择包的界面。要确保你选择了net category里的”openssh”。这个包是确保Hadoop集群正常运作和Eclipse的插件。
4)你选择完这些包后,点击下一步,完成安装。
3.设置环境变量
下一步是设置路径环境变量,以至于Eclipse IDE可以访问Cygwin命令。
设置环境变量需要以下步骤:
1) 我的计算机右键->属性
2)当你看到这个属性对话框,点击环境变量按钮如下所示
3)当环境变量对话框出现时,单击路径变量位于系统变量栏,然后单击Edit按钮。
4)当编辑对话框在Path末尾添加以下文本
$ ;d:\cygwin\bin;d:\cygwin\usr\sbin
注:这个路径要根据你cygwin安装到那个目录
5)OK!!!
4 设置SSH守护进程
两个Hadoop的脚本和Eclipse的插件需要无密码的SSH来操作。本节描述了在Cygwin环境如何设置。