Lucene里面Collector

momomoniqwer

2015-12-21

关注关注

我们先来回顾下，一个基本的搜索流程是怎么完成的

1，得到一个索引目录Directory(可能基于内存的或者磁盘的)。

2，得到一个DirectoryReader。

3，实例化查询组件IndexSearcher。

4，检索得到TopDoc查询结果集

5,遍历ScoresDocs处理结果

我们看下这个检索的流程，大概可以分这5步，前1,2,3算是准备工作，后面的2步是我们经常需要进行数据处理的地方，那么我们Collector到底工作在哪一步呢？，其实Collector真正的起作用是在3-4步之间的。

那么Collector的作用是干什么的？为什么需要使用Collector？

在这之前先分析下TopDocs这个类，这个类的工作原理，其实在后台使用的也是一个收集器，收收集我们检索的结果，通过TopDocsCollector这个基类下面的2个子类收集器，来收集一次我们检索的命中数据。

所以collector的作用就是收集某些我们需要定制化的结果集，某些情况下使用collector可以可以极大的提升我们程序的性能，通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作，当然前提是在我们需要使用的情况下。

下面我们来看下collector基类的几个方法

方法说明

collect()检索时，每匹配上一个文档，都会调用此方法

acceptsDocsOutOfOrder()测试本collector是否能处理无序到达的docid

setScorer(Scorerscorer)处理检索结果的评分

setNextReader(AtomicReaderContextcontext)检索时，在多个索引段结构之间切换的方法

下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下.

Java代码复制代码收藏代码

1.packagecom.piaoxuexianjing;

3.importjava.io.IOException;

4.importjava.util.ArrayList;

5.importjava.util.List;

7.importorg.apache.lucene.index.AtomicReaderContext;

8.importorg.apache.lucene.search.Collector;

9.importorg.apache.lucene.search.ScoreDoc;

10.importorg.apache.lucene.search.Scorer;

11.

12./**

13.*@author三劫散仙

14.*@version1.0

15.*

16.*自定义收集器

17.*实现评分收集

18.***/

19.publicclassMyScoreCollectorextendsCollector{

20.//privateHashMap<String,String>documents=newHashMap<String,String>();

21.List<ScoreDoc>docs=newArrayList<ScoreDoc>();

22.privateScorerscorer;//scorer类

23.privateintdocBase;//全局相对段基数

24.

25.

26.@Override

27.publicbooleanacceptsDocsOutOfOrder(){

28.//TODOAuto-generatedmethodstub

29.//返回true是允许无次序的ID

30.//返回false必须是有次序的

31.returntrue;

32.}

33.

34.@Override

35.publicvoidcollect(intarg0)throwsIOException{

36./**

37.*匹配上一个文档

38.*就记录其docid与打分情况

39.*

40.**/

41.docs.add(newScoreDoc(arg0+docBase,scorer.score()));//

42.}

43.//BinaryDocValuesnames;//字符类型的内置存储

44.//BinaryDocValuesbookNames;//字符类型的内置存储

45.//BinaryDocValuesids;//字符类型的内置存储

46.//BinaryDocValuesprices;//字符类型的内置存储

47.//FieldCache.Doublesd;//数值类型的内置存储

48.//FieldCache.Intsints;//数值类型的内置存储

49.@Override

50.publicvoidsetNextReader(AtomicReaderContextarg0)throwsIOException{

51.this.docBase=arg0.docBase;//记录每个索引段结构的相对位置

52.}

53.

54.@Override

55.publicvoidsetScorer(Scorerarg0)throwsIOException{

56.//TODOAuto-generatedmethodstub

57.this.scorer=arg0;//记录改匹配的打分情况

58.

59.}

60.

61.

62.

63.

64.}

测试类的核心代码

Java代码复制代码收藏代码

1.//自定义收集器

2.MyScoreCollectorscoreCollector=newMyScoreCollector();

3.searcher.search(newMatchAllDocsQuery(),scoreCollector);

4./**

5.*自定义的收集类，实现效果===>ScoreDocs类

6.***/

7.List<ScoreDoc>s=scoreCollector.docs;

8.for(ScoreDocsc:s){

9.System.out.println(sc.doc+"===="+sc.score);

10.}

输出结果如下

Java代码复制代码收藏代码

1.0====1.0

2.1====1.0

3.2====1.0

4.3====1.0

5.4====1.0

6.5====1.0

7.6====1.0

8.7====1.0

至此，我们就利用自定义的collector完成了一个简单的收集评分功能，当然我们可以根据自己的业务，来实现各种各样的collector，灵活运用！

lucene 数据检索

安科网

Lucene里面Collector

momomoniqwer

momomoniqwer

相关推荐

Spring Boot 教程 - Elasticsearch

1.elasticsearch单节点部署

lucene和Elasticsearch

Lucene

Lucene、Solr、ElasticSearch、hibernate-search四部曲

Lucene的学习

Lucene入门精讲视频教程

厉害了，ES 如何做到几十亿数据检索 3 秒返回

Lucene系列二：Lucene（Lucene介绍、Lucene架构）

Lucene的索引文件格式(1)

十张图说清Elasticsearch原理！

MAC OS 10.15 Lucene 源码分析环境搭建

由于Elasticsearch是在 Lucene 基础上构建

全文搜索Lucene之倒排索引

Elasticsearch用得好，下班下得早！

Elasticsearch对垒8大竞品技术，孰优孰劣？

ES索引的一些长度限制

lucene&solr全文检索_7solr后台界面的介绍

lucene&solr全文检索_3查询索引

ElasticSearch

momomoniqwer