Nutch 是一个开源Java 实现的搜索引擎
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch的架构,采用了非常灵活的插件模式,大部分的核心功能,都可以通过组装插件的方式的来完成。如果想熟悉具体的nutch插件运行的机制,可以参考下nutch的官方wiki,今天散仙,主要来介绍下,怎么在nutch里,添加我们自己的插件。
1,下载nutch编码,进行编译。
2,进入到nutch的根目录的src/plugin/下,新建一个index-self的文件夹,这个文件夹名字,可以随便起,散仙在这里,只是一个例子。
3,进入index-self文件夹下,新建\src\java\org\apache\nutch\myplugin\文件夹,存放自己的源码类
4,回到index-self根目录下,新建build.xml,ivy.xml,plugin.xml,这个是仿照其他的插件结构格式写的,如果不理解可以看下其他插件的结构
5,然后到src/plugin/的根目录下,修改build.xml注意路径
6,接下来,我需要修改nutch的根目录下的build.xml
7,当上面的所有都完成了,我们就可以进入到nutch的根目录下进行ant编译了,编译后我们可以在build/plugin/index-self目录下,找到编译后jar包和类文件。
8,最后一步,我们需要在nutch-default.xml里面,配置我们的插件生效.
9,上面的所有步骤,执行完,就完成了,我们在local或deploy模式运行,测试自己的插件是否被激活。