nutch分布式搭建

whspringer

2010-04-06

关注关注

如何在eclipse中跑nutch：http://jiajun.iteye.com/blog/612023 这里没有翻译，不过应该能看懂

那么如何分布式搭建nutch1.0呢？

如果进行到这篇文章，就很容易了：hadoop搭建进阶，多台机器分布式搭建：http://jiajun.iteye.com/blog/624559

具体如何做呢，参看：How to Setup Nutch and Hadoop：http://wiki.apache.org/nutch/NutchHadoopTutorial

可惜的是现在的nutch-1.0使用的hadoop架构不是0.20.2，而是使用的0.19.1，配置文件上有些差别。

注意：如果要本地调试nutch1.0，那么需要把conf/hadoop-site.xml删除或者改为其他名字，否则的话就是配置好的环境下跑的nutch，某些在从机器上运行的程序不能够调试。

下面说说，如何搭建nutch1.0

一些环境这里就不介绍了，这篇文章是接着上面几篇文章的。

一、下载安装文件

1、下载目前最新版本 nutch-1.0：http://lucene.apache.org/nutch

2、下载tomcat6.0:http://tomcat.apache.org

3、解压下载的两个压缩文件到 /home/java

二、配置文件

1、修改conf/hadoop-site.xml （配置文件和前面的hadoop-0.20.2不一样，这里的版本0.19.1不够先进）

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

        <property>
                <name>fs.default.name</name>
                <value>hdfs://home0.hadoop:9000</value>
        </property>

        <property>
                <name>mapred.job.tracker</name>
                <value>home0.hadoop:9001</value>
     </property>

        <property>
                <name>dfs.name.dir</name>
                <value>/home/lighttpd/hadoopfs/name_0,/home/lighttpd/hadoopfs/name_1</val       ue>
                 <description>Determines where on the local filesystem the DFS name node
                        should store the name table. If this is a comma-delimited list of        directories
                        then the name table is replicated in all of the directories,
                        for redundancy.
                </description>
        </property>

        <property>
                <name>dfs.data.dir</name>
                <value>/home/lighttpd/hadoopfs/data_0,/home/lighttpd/hadoopfs/data_1</val       ue>
                <description>
                        Determines where on the local filesystem an DFS data node
                        should store its blocks. If this is a comma-delimited list of dir       ectories,
                        then data will be stored in all named directories, typically on d       ifferent devices.
                        Directories that do not exist are ignored.
                </description>
        </property>


</configuration>

2、修改 JAVA_HOME变量指向

在这个文件中hadoop-env.sh修改，前面配置hadoop已经讲过了。

4、设定主从节点 修改 conf/masters 文件，将其中的 localhost 改为 home0.hadoop 。

修改 conf/slaves 文件。删掉其中的localhost, 将我们的另两台机器 home1.hadoop、home2.hadoop 加入, 注意每个机器一行。

masters里面的是主机节点，slaves里面是从机节点。

5、同样的配置拷贝到其他两台机器上去

scp -r nutch1.0 home1.hadoop:/home/yourname/

注意：可能您每台机器的JAVA安装位置不一样，记得修改conf/hadoop-env.sh,设置export JAVA_HOME=正确路径

三、启动hadoop服务

1、格式化一个新的分布式文件系统

bin/hadoop namenode -format

2、启动hadoop进程

$ bin/start-all.sh

四、抓取、建立索引

1、配置抓取入口

在nutch1.0目录下新建文件夹：urls，在该文件夹下新建文件：urllist.txt，在该文件中写入抓取列表，比如：

http://lucene.apache.org

写入分布式文件系统

bin/hadoop fs -put urls urls

2、设置URL过滤规则

编辑conf/crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://([a-z0-9]*\.)*apache.org

3、执行抓取命令

bin/nutch crawl urls -dir crawledDir -depth 3 -threads 10

五、搜索环境

1、把上面索引后的文件拷贝到本地，速度会好些，也可在分布式系统中，参考文档中讲到

bin/hadoop fs -copyToLocal crawledDir  /home/yourname/nutch-1.0/crawledData

2、把 nutch-1.0.war 文件拷贝到tomcat下webapps目录，启动tomcat解压文件,再关闭服务

$ cp nutch-1.0.war /home/yourname/java/apache-tomcat-6.0.18/
$ cd  /home/lighttpd/java/apache-tomcat-6.0.18/
$ bin/startup.sh
浏览器输入：http://locahost:8080/nutch-1.0 
$ bin/shutdown.sh

3、修改/WEB-INF/classes/nutch-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->
<!--  /home/lighttpd/nutch-1.0/conf/search-dir/sina.com.cn -->
<configuration>

        <property>
                <name>searcher.dir</name>
                <value>/home/yourname/nutch-1.0/crawledDir</value>
        </property>

</configuration>

4、支持中文，在server.xml的 Connector中加入属性

URIEncoding="UTF-8" 
useBodyEncodingForURI="true"

5、启动tomcat

$ cd  /home/lighttpd/java/apache-tomcat-6.0.18/
$ bin/startup.sh

6、浏览器输入：http://locahost:8080/nutch-1.0 搜索试试

六、注意：

1、这里搜索的索引文件是拷贝到本地的文件，也可以搭建分布式索引文件

2、还可以搭建索引文件在不同的机器上，搜索时候从各个索引文件合并搜索结果

3、eclipse工程中的对应配置文件，都做设置的话，会运行在分布式系统中，如想调试运行在从机器上程序，需要采用本地运行方式，把hadoop-site.xml文件挪走，或者改名。

nutch 分布式架构 hadoop

whspringer

0 关注 0 粉丝 0 动态

关注关注

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。Nutch的开发人员完成了相应的开源实现HDFS和

tanxinwhu 2019-08-26

二次开发nutch的恩恩怨怨

今天下午，总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在，一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以随意的修改满足自己的需求，心理历程不可谓不复杂。

crazyhulu 2014-09-29

开源搜索引擎

开源搜索引擎，或者准确的说开源爬虫系统，目前有nutch和heritrix等，nutch基于hadoop架构，分为1.x和2.x分支。nutch目前用得相对比较多一些。

ach 2014-03-16

运行nutch报错：unzipBestEffort returned null

2014-03-12 16:48:38,031 ERROR http.Http - Failed to get protocol output. nutch1.7\src\plugin\protocol-http\src\java\org\apache\n

Junzizhiai 2014-03-12

开源爬虫框架的优缺点？

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch. 3)Nutch虽然有一套插件机制，而且作为亮点

wawaboss 2017-03-22

nutch 2.1 分布式hbase部署

现在网上针对nutch2.0以上版本的部署内容很残缺。经过两天奋战，终于把nutch2.1在hbase上部署成功了！在此与网友分享。保险起见还是采用推荐的hbase0.90.x版本吧。我觉得是因为gora的原因，因为gora的版本已经很久没有更新。-- P

zxiaozhuT 2013-02-28

nutch0.9实现抓取动态网页部署笔记

hanwentan 2011-06-13

NUTCH中的not in gzip format异常处理

此页面采用这个是一个分段传输，而nutch爬虫则默认采用了非分段式处理，导致构造GZIP时出错，从而影响了后面的GZIP解压失败。是否是分段传输可以在Http headers里面看到，如果是分段传输则有：transfer-encoding：chunked这

liubang000 2011-06-10

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:. 　　Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。在这种情况下，最好的方式

繌子 2011-04-17

Lucene+Nutch搜索引擎开发一：介绍

本系列文章是Lucene+Nutch学习、实现的记录，适用于有java开发经验以及对搜索引擎有初步了解的读者。Lucene实现了文档编目、建立索引、对内容的检索实现。Nutch是一个开源的第二代Web搜索引擎，实现了网页自动爬去，内容编目，存储，查询，提取

喜糖 2011-02-22

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?今天浪费了一天的时间花费在这上面,一开始是用Nutch1.1导入在MyEclipse与Eclipse中的,不断的尝试,不断的调试,上网查阅了太多的文章了,发现按他们每一种的方式

shgege 2011-01-21

web爬虫

web爬虫主要功能是从web中发现，下载以及存储内容。广泛应用于各种搜索引擎中。这个模块还要提取网页中的URL和一些对于索引有用的数据。规范化URL模块，把URL转成标准的格式。URL过滤器，爬虫可以过滤掉不需要的URL。爬虫读取没有访问过的URL，来确定

xiajlxiajl 2010-11-20

Nutch 是一个开源Java 实现的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的架构，采用了非常灵活的插件模式，大部分的核心功能，都可以通过组装插件的方式的来完成。1，下载nutch编码，进行编译。2，进

superdullwolf 2016-10-31

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

2，安装完cygwin，确定配置好环境变量，可以输入cygcheck -c cygwin查看版本 [img][/img]，正确之后就可以进行下一步了。3，到nutch官网下载nutch1.6的版本，1.6的自带编译好的bin，所以可以省去像nutch2.

kuihan0 2016-10-28

全文搜索引擎

本文转载自xum2008的博客，主要介绍13款现有的开源搜索引擎，你可以将它们用在你的项目中以实现检索功能。Xapian是一个用C++编写的全文检索程序，它的api和检索原理和lucene在很多方面都很相似，算是填补了lucene在C++中的一个空缺.Nu

leshem 2016-02-17

Google式的搜索引擎实现

Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了

Harper 2014-12-16

搜索引擎 Nutch

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

ShareCode 2013-12-31

Nutch中MapReduce的分析

Nutch是最早用MapReduce的项目，Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表，生成抓取列表，抓取内容，分析处理内容，更新Craw

文洲 2013-08-04

linux nutch1.0安装配置

2，上传到服务器。上传位置：/home/www/，解压nutch-1.0.tar.gz. 3，修改配置文件。在/home/www/nutch目录下新建urls. 新建seed.txt文件，写入要抓去的网站地址。把上面两个文件末尾+都改成+^http://*

陈小冬的技术 2013-03-03

安科网

nutch分布式搭建

whspringer

whspringer

相关推荐

Hadoop

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

二次开发nutch的恩恩怨怨

开源搜索引擎

运行nutch报错：unzipBestEffort returned null

开源爬虫框架的优缺点？

nutch 2.1 分布式hbase部署

nutch0.9实现抓取动态网页部署笔记

NUTCH中的not in gzip format异常处理

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Lucene+Nutch搜索引擎开发一：介绍

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

web爬虫

Nutch 是一个开源Java 实现的搜索引擎

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

全文搜索引擎

Google式的搜索引擎实现

搜索引擎 Nutch

Nutch中MapReduce的分析

linux nutch1.0安装配置

whspringer