Nutch2.1分布式抓取

心中永远的正能量

2014-01-25

关注关注

1准备环境：Hadoop集群、java、mysql数据库，代码可以在eclipse中运行，可以单机模式下插入数据到mysql数据库。

2修改配置文件nutch-site.xml：

<name>plugin.folders</name>

<value>./plugins</value>

<description>Directories where nutch plugins are located. Each

element may be a relative or absolute path. If absolute, it is used

as is. If relative, it is searched for on the classpath.</description>

</property>

在eclipse中选中buil.xml，run as ant，运行runtime，运行成功会产生文件夹runtime。

3 把runtime文件夹上传到hadoop集群中的master服务器（没有验证其他服务器是不是可以），我上传之后的位置是:/home/hadoop/nutch/runtime，设置环境变量：

在/etc/profile中：export NUTCH_HOME=/home/hadoop/nutch/runtime/local source /etc/profile使得修改起作用。

4应该是把url种子文件上传到hadoop。我的种子文件始终没有成功，这一步略过。

5在/home/hadoop/nutch/runtime/deploy目录下运行：

./bin/nutch crawl -dir crawl -depth 2 -threads 4 -topN 50

一点心得：nutch2之后不需要把配置文件（conf）分发到集群中的每台机器，但是修改配置文件以后需要重新用ant打包，配置才能生效。

Nutch的详细介绍：请点这里
Nutch的下载地址：请点这里

相关阅读：

nutch runtime hadoop

心中永远的正能量

0 关注 0 粉丝 0 动态

关注关注

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。Nutch的开发人员完成了相应的开源实现HDFS和

tanxinwhu 2019-08-26

二次开发nutch的恩恩怨怨

今天下午，总算用脚本把自己二次开发的nutch跑起来了。从第一次接触nutch到现在，一年半接近两年的时间了。从开始的一无所知、凑合着用到后来的尝试梳理、阅读源码、放弃使用再到今年的坚定信念来攻克以至今日可以随意的修改满足自己的需求，心理历程不可谓不复杂。

crazyhulu 2014-09-29

开源搜索引擎

开源搜索引擎，或者准确的说开源爬虫系统，目前有nutch和heritrix等，nutch基于hadoop架构，分为1.x和2.x分支。nutch目前用得相对比较多一些。

ach 2014-03-16

运行nutch报错：unzipBestEffort returned null

2014-03-12 16:48:38,031 ERROR http.Http - Failed to get protocol output. nutch1.7\src\plugin\protocol-http\src\java\org\apache\n

Junzizhiai 2014-03-12

开源爬虫框架的优缺点？

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch. 3)Nutch虽然有一套插件机制，而且作为亮点

wawaboss 2017-03-22

nutch 2.1 分布式hbase部署

现在网上针对nutch2.0以上版本的部署内容很残缺。经过两天奋战，终于把nutch2.1在hbase上部署成功了！在此与网友分享。保险起见还是采用推荐的hbase0.90.x版本吧。我觉得是因为gora的原因，因为gora的版本已经很久没有更新。-- P

zxiaozhuT 2013-02-28

nutch0.9实现抓取动态网页部署笔记

hanwentan 2011-06-13

NUTCH中的not in gzip format异常处理

此页面采用这个是一个分段传输，而nutch爬虫则默认采用了非分段式处理，导致构造GZIP时出错，从而影响了后面的GZIP解压失败。是否是分段传输可以在Http headers里面看到，如果是分段传输则有：transfer-encoding：chunked这

liubang000 2011-06-10

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:. 　　Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。在这种情况下，最好的方式

繌子 2011-04-17

Lucene+Nutch搜索引擎开发一：介绍

本系列文章是Lucene+Nutch学习、实现的记录，适用于有java开发经验以及对搜索引擎有初步了解的读者。Lucene实现了文档编目、建立索引、对内容的检索实现。Nutch是一个开源的第二代Web搜索引擎，实现了网页自动爬去，内容编目，存储，查询，提取

喜糖 2011-02-22

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?今天浪费了一天的时间花费在这上面,一开始是用Nutch1.1导入在MyEclipse与Eclipse中的,不断的尝试,不断的调试,上网查阅了太多的文章了,发现按他们每一种的方式

shgege 2011-01-21

web爬虫

web爬虫主要功能是从web中发现，下载以及存储内容。广泛应用于各种搜索引擎中。这个模块还要提取网页中的URL和一些对于索引有用的数据。规范化URL模块，把URL转成标准的格式。URL过滤器，爬虫可以过滤掉不需要的URL。爬虫读取没有访问过的URL，来确定

xiajlxiajl 2010-11-20

Nutch 是一个开源Java 实现的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的架构，采用了非常灵活的插件模式，大部分的核心功能，都可以通过组装插件的方式的来完成。1，下载nutch编码，进行编译。2，进

superdullwolf 2016-10-31

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

2，安装完cygwin，确定配置好环境变量，可以输入cygcheck -c cygwin查看版本 [img][/img]，正确之后就可以进行下一步了。3，到nutch官网下载nutch1.6的版本，1.6的自带编译好的bin，所以可以省去像nutch2.

kuihan0 2016-10-28

全文搜索引擎

本文转载自xum2008的博客，主要介绍13款现有的开源搜索引擎，你可以将它们用在你的项目中以实现检索功能。Xapian是一个用C++编写的全文检索程序，它的api和检索原理和lucene在很多方面都很相似，算是填补了lucene在C++中的一个空缺.Nu

leshem 2016-02-17

Google式的搜索引擎实现

Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了

Harper 2014-12-16

搜索引擎 Nutch

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

ShareCode 2013-12-31

Nutch中MapReduce的分析

Nutch是最早用MapReduce的项目，Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表，生成抓取列表，抓取内容，分析处理内容，更新Craw

文洲 2013-08-04

linux nutch1.0安装配置

2，上传到服务器。上传位置：/home/www/，解压nutch-1.0.tar.gz. 3，修改配置文件。在/home/www/nutch目录下新建urls. 新建seed.txt文件，写入要抓去的网站地址。把上面两个文件末尾+都改成+^http://*

陈小冬的技术 2013-03-03

安科网

Nutch2.1分布式抓取

心中永远的正能量

心中永远的正能量

相关推荐

Hadoop

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

二次开发nutch的恩恩怨怨

开源搜索引擎

运行nutch报错：unzipBestEffort returned null

开源爬虫框架的优缺点？

nutch 2.1 分布式hbase部署

nutch0.9实现抓取动态网页部署笔记

NUTCH中的not in gzip format异常处理

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Lucene+Nutch搜索引擎开发一：介绍

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

web爬虫

Nutch 是一个开源Java 实现的搜索引擎

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

全文搜索引擎

Google式的搜索引擎实现

搜索引擎 Nutch

Nutch中MapReduce的分析

linux nutch1.0安装配置

心中永远的正能量