Nutch-2.0集群配置
应该在一个机器中配置好所有的文件,然后执行简单的拷贝,这样能减少错误的发生。在配置所有java的文件之前,应该先配置用户环境:可以新建一个用户,取名为nutch或者其他的名字,但是一定要保证所有的集群中的机器的用户名一致。
然后就是/etc/hosts文件,这个文件必须要设置,尽管对于Hadoop不是必须的,但是对于hbase却是必须的
/etc/hosts:
127.0.0.1 localhost.localdomain localhost
ip master's hostname
ip slave1's hostname
ip slave2's hostname
......
/home/username/.bashrc:
export JAVA_HOME=/home/sychen/nutchok/jdk1.7.0_06
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin
1.hadoop
1>hadoop-env.sh
export JAVA_HOME=...
2>masters
master's hostname
3>slaves
slave1's hostname
slave2's hostname
......
4>core-site.xml
<property>
<name>fs.default.name</name>
<!-- 此处写: hdfs://master's hostname:8020 -->
<value>hdfs://SYE:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<!-- 注意: /home/username/... -->
<value>/home/sychen/nutchok/hadoop-0.20.2/hdfs_root</value>
<description>A base for other temporary directories.
此处设为你自己想要的Hadoop根目录</description>
</property>
5>hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
<description>副本个数,不配置默认是 3,应小于 datanode 机器数量</description>
</property>
6>mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<!-- 此处写: hdfs://master's hostname:8000 -->
<value>SYE:8000</value>
<description>jobtracker 标识:端口号,不是 URI</description>
</property>
2.hbase
首先从hadoop-0.20.2中复制hadoop-0.20.2-core.jar到hbase-0.90.5/lib目录下,并将hadoop-core-0.20-append-r1056497.jar重命名或者删除。
1>hbase-env.sh
export JAVA_HOME=/home/sychen/nutchok/jdk1.7.0_06
export HBASE_CLASSPATH=/home/sychen/nutchok/hadoop-0.20.2/conf
2>hbase-site.xml
<property>
<name>hbase.rootdir</name>
<!--
注意:此处不能设为ip
<value>hdfs://192.168.20.215/hbase_root</value>
-->
<value>hdfs://SYE/hbase_root</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>UBT</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/sychen/nutchok/hbase-0.90.5/zookeeper_data</value>
</property>
3>regionservers
UBT
3.nutch-2.0
将hbase-0.90.5/conf/hbase-site.xml拷贝到hadoop-0.20.2/conf/下面,即可执行