Lucene里面Collector
我们先来回顾下,一个基本的搜索流程是怎么完成的
1,得到一个索引目录Directory(可能基于内存的或者磁盘的)。
2,得到一个DirectoryReader。
3,实例化查询组件IndexSearcher。
4,检索得到TopDoc查询结果集
5,遍历ScoresDocs处理结果
我们看下这个检索的流程,大概可以分这5步,前1,2,3算是准备工作,后面的2步是我们经常需要进行数据处理的地方,那么我们Collector到底工作在哪一步呢?,其实Collector真正的起作用是在3-4步之间的。
那么Collector的作用是干什么的?为什么需要使用Collector?
在这之前先分析下TopDocs这个类,这个类的工作原理,其实在后台使用的也是一个收集器,收收集我们检索的结果,通过TopDocsCollector这个基类下面的2个子类收集器,来收集一次我们检索的命中数据。
所以collector的作用就是收集某些我们需要定制化的结果集,某些情况下使用collector可以可以极大的提升我们程序的性能,通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作,当然前提是在我们需要使用的情况下。
下面我们来看下collector基类的几个方法
方法说明
collect()检索时,每匹配上一个文档,都会调用此方法
acceptsDocsOutOfOrder()测试本collector是否能处理无序到达的docid
setScorer(Scorerscorer)处理检索结果的评分
setNextReader(AtomicReaderContextcontext)检索时,在多个索引段结构之间切换的方法
下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下.
Java代码复制代码收藏代码
1.packagecom.piaoxuexianjing;
2.
3.importjava.io.IOException;
4.importjava.util.ArrayList;
5.importjava.util.List;
6.
7.importorg.apache.lucene.index.AtomicReaderContext;
8.importorg.apache.lucene.search.Collector;
9.importorg.apache.lucene.search.ScoreDoc;
10.importorg.apache.lucene.search.Scorer;
11.
12./**
13.*@author三劫散仙
14.*@version1.0
15.*
16.*自定义收集器
17.*实现评分收集
18.***/
19.publicclassMyScoreCollectorextendsCollector{
20.//privateHashMap<String,String>documents=newHashMap<String,String>();
21.List<ScoreDoc>docs=newArrayList<ScoreDoc>();
22.privateScorerscorer;//scorer类
23.privateintdocBase;//全局相对段基数
24.
25.
26.@Override
27.publicbooleanacceptsDocsOutOfOrder(){
28.//TODOAuto-generatedmethodstub
29.//返回true是允许无次序的ID
30.//返回false必须是有次序的
31.returntrue;
32.}
33.
34.@Override
35.publicvoidcollect(intarg0)throwsIOException{
36./**
37.*匹配上一个文档
38.*就记录其docid与打分情况
39.*
40.**/
41.docs.add(newScoreDoc(arg0+docBase,scorer.score()));//
42.}
43.//BinaryDocValuesnames;//字符类型的内置存储
44.//BinaryDocValuesbookNames;//字符类型的内置存储
45.//BinaryDocValuesids;//字符类型的内置存储
46.//BinaryDocValuesprices;//字符类型的内置存储
47.//FieldCache.Doublesd;//数值类型的内置存储
48.//FieldCache.Intsints;//数值类型的内置存储
49.@Override
50.publicvoidsetNextReader(AtomicReaderContextarg0)throwsIOException{
51.this.docBase=arg0.docBase;//记录每个索引段结构的相对位置
52.}
53.
54.@Override
55.publicvoidsetScorer(Scorerarg0)throwsIOException{
56.//TODOAuto-generatedmethodstub
57.this.scorer=arg0;//记录改匹配的打分情况
58.
59.}
60.
61.
62.
63.
64.}
测试类的核心代码
Java代码复制代码收藏代码
1.//自定义收集器
2.MyScoreCollectorscoreCollector=newMyScoreCollector();
3.searcher.search(newMatchAllDocsQuery(),scoreCollector);
4./**
5.*自定义的收集类,实现效果===>ScoreDocs类
6.***/
7.List<ScoreDoc>s=scoreCollector.docs;
8.for(ScoreDocsc:s){
9.System.out.println(sc.doc+"===="+sc.score);
10.}
输出结果如下
Java代码复制代码收藏代码
1.0====1.0
2.1====1.0
3.2====1.0
4.3====1.0
5.4====1.0
6.5====1.0
7.6====1.0
8.7====1.0
至此,我们就利用自定义的collector完成了一个简单的收集评分功能,当然我们可以根据自己的业务,来实现各种各样的collector,灵活运用!