windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

kuihan0

2016-10-28

1，在windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境，cygwin在这里的安装就不多说了，可以到http://www.cygwin.com/下下载，直接点击setup.exe即可下载，然后就点下一步下一步安装就可以了。

2，安装完cygwin，确定配置好环境变量，可以输入cygcheck -c cygwin查看版本
[img][/img]，正确之后
就可以进行下一步了。

3，到nutch官网下载nutch1.6的版本(目前最新的版本为2.1)，1.6的自带编译好的bin，所以可以省去像nutch2.1配置的时候，需要用Ant进行编译。

4，在cygwin的根目录下建一个urls文件夹，里面把你想要抓取的url地址写上即可，可以是txt后缀名，也可以无后缀，然后再建一个抓取网页后生成数据的文件夹xxx。

5,然后在在cygwin中找到nutch1.6的根目录，执行bin/nutch
如果正确无误，则会在cygwin中打印一系列nutch命令，

6,下一步就可以抓取网页了执行 bin/nutch crawl urls -dir xxx -depth 2 -threads 2 -topN 2 会在xxx文件夹中生成3个文件夹crawldb，linkdb，segments，里面放的是数据信息
另外需要注意的是在1.2后的版本之后没有index，indexing文件夹，以及打包好的war包，关于这一点，笔者认为，可能是为了让nutch跟solr更专注自己的业务，nutch主要爬取数据，而solr主要用来搜索数据。

7,在抓取成功之后，会有上面一步的3个文件夹生成，然后就可以映射成solr索引了，笔者使用的是solr3.6的，4.x的solr笔者还没测试，在cygwin中执行bin/nutch solrindex http://localhost:8080/solr/ myfile/crawldb -linkdb myfile/linkdb myfile/segments/* 即可，在这之前，一定要确保自己的solr服务是启动的，并可以正常访问，如果出现某些失败，最大的原因可能是映射的字段不一致造成的，检查nutch下面的的solrindex-mapping.xml文件把相对应的字段配置在solr的scheaml.xml中即可.

8,映射成功后即可以访问了solr主页，点击查询，会看到刚才抓取的结果!

nutch cygwin linux系统

安科网

windows平台下，使用nutch，得需要cygwin工具作为其模拟linux的运行环境

kuihan0

kuihan0

相关推荐

Nutch1.0或者Nutch1.1如何导入MyEclipse与Eclipse?

Hadoop

你的大数据之Hadoop是如何去学习的？Hadoop300集了解一下

二次开发nutch的恩恩怨怨

开源搜索引擎

运行nutch报错：unzipBestEffort returned null

开源爬虫框架的优缺点？

nutch 2.1 分布式hbase部署

nutch0.9实现抓取动态网页部署笔记

NUTCH中的not in gzip format异常处理

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Lucene+Nutch搜索引擎开发一：介绍

web爬虫

Nutch 是一个开源Java 实现的搜索引擎

全文搜索引擎

Google式的搜索引擎实现

搜索引擎 Nutch

Nutch中MapReduce的分析

linux nutch1.0安装配置

nutch 2.0 search accumulo solr

kuihan0