windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境

1,在windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境,cygwin在这里的安装就不多说了,可以到http://www.cygwin.com/下下载,直接点击setup.exe即可下载,然后就点下一步下一步安装就可以了。

2,安装完cygwin,确定配置好环境变量,可以输入cygcheck -c cygwin查看版本
[img][/img],正确之后
就可以进行下一步了。

3,到nutch官网下载nutch1.6的版本(目前最新的版本为2.1),1.6的自带编译好的bin,所以可以省去像nutch2.1配置的时候,需要用Ant进行编译。

4,在cygwin的根目录下建一个urls文件夹,里面把你想要抓取的url地址写上即可,可以是txt后缀名,也可以无后缀,然后再建一个抓取网页后生成数据的文件夹xxx。

5,然后在在cygwin中找到nutch1.6的根目录,执行bin/nutch
如果正确无误,则会在cygwin中打印一系列nutch命令,

6,下一步就可以抓取网页了执行 bin/nutch crawl urls -dir xxx -depth 2 -threads 2 -topN 2 会在xxx文件夹中生成3个文件夹crawldb,linkdb,segments,里面放的是数据信息
另外需要注意的是在1.2后的版本之后没有index,indexing文件夹,以及打包好的war包,关于这一点,笔者认为,可能是为了让nutch跟solr更专注自己的业务,nutch主要爬取数据,而solr主要用来搜索数据。

7,在抓取成功之后,会有上面一步的3个文件夹生成,然后就可以映射成solr索引了,笔者使用的是solr3.6的,4.x的solr笔者还没测试,在cygwin中执行bin/nutch solrindex http://localhost:8080/solr/ myfile/crawldb -linkdb myfile/linkdb myfile/segments/*   即可,在这之前,一定要确保自己的solr服务是启动的,并可以正常访问,如果出现某些失败,最大的原因可能是映射的字段不一致造成的,检查nutch下面的的solrindex-mapping.xml文件把相对应的字段配置在solr的scheaml.xml中即可.

8,映射成功后即可以访问了solr主页,点击查询,会看到刚才抓取的结果!

相关推荐