一个例子学懂搜索引擎(lucene)

aikaibo

2012-07-07

一个例子学懂搜索引擎(lucene)

来源：javaeye　作者：　jaker

其实，lucene是一个很容易上手的搜索引擎框架，传统的搜索引擎，涉及到爬虫，也就是爬取网页，然后对网页进行加工，也就是索引，最后用于搜索，lucene这个框架可以很方便的帮你做到后面两个步骤，也就是索引和搜索！本文尝试通过一个例子，使大家掌握lucene的使用核心方法，包括分词、索引、搜索不同的目录、搜索不同的域，希望大家通过这个实例，对lucene和搜索引擎能有比较全面的认识！

下面是这个例子的代码：

phz.LuceneTest.java

packagephz;

importorg.apache.lucene.analysis.standard.StandardAnalyzer;

importorg.apache.lucene.document.Document;

importorg.apache.lucene.document.Field;

importorg.apache.lucene.index.IndexWriter;

importorg.apache.lucene.queryParser.MultiFieldQueryParser;

importorg.apache.lucene.search.BooleanClause;

importorg.apache.lucene.search.Hits;

importorg.apache.lucene.search.IndexSearcher;

importorg.apache.lucene.search.MultiSearcher;

importorg.apache.lucene.search.Query;

/**

*这个实例包含了lucene所有核心用法

*@authorpanhuizi

publicclassLuceneTest{

publicstaticvoidmain(String[]args){

try{

LuceneTestluceneTest=newLuceneTest();

//创建索引

luceneTest.index();

//在索引所在目录下搜索"中国金牌"

luceneTest.search("中国金牌");

}catch(Exceptione){

e.printStackTrace();

}

System.out.println("ok");

}

publicvoidindex()throwsException{

/*创建索引初始化，执行这些语句将创建或清空d:\\save\\目录下所有索引*/

IndexWriterwriter1=newIndexWriter("d:\\save\\",

newStandardAnalyzer(),true);

writer1.close();

*往创建的初始化索引中添加索引内容，StandardAnalyzer表示用lucene自带的标准分词机制，

*false表示不覆盖原来该目录的索引，细心的读者可能已经发现，这句话和上面的那句就这个false不一样

IndexWriterwriter2=newIndexWriter("d:\\save\\",

newStandardAnalyzer(),false);

/*创建一份文件*/

Documentdoc1=newDocument();

*创建一个域ArticleTitle，并往这个域里面添加内容"Field.Store.YES"表示域里面的内容将被存储到索引

*"Field.Index.TOKENIZED"表示域里面的内容将被索引，以便用来搜索

Fieldfield1=newField("ArticleTitle","北京2008年奥运会",Field.Store.YES,

Field.Index.TOKENIZED);

/*往文件里添加这个域*/

doc1.add(field1);

/*同理：创建另外一个域ArticleText，并往这个域里面添加内容*/

Fieldfield2=newField("ArticleText","这是一届创造奇迹、超越梦想的奥运会.......",

Field.Store.YES,Field.Index.TOKENIZED);

doc1.add(field2);

//在这里还可以添加其他域

/*添加这份文件到索引*/

writer2.addDocument(doc1);

/*同理：创建第二份文件*/

Documentdoc2=newDocument();

field1=newField("ArticleTitle","中国获得全球赞誉",Field.Store.YES,

Field.Index.TOKENIZED);

doc2.add(field1);

field2=newField("ArticleText","中国所取得的金牌总数排行榜的榜首........",

Field.Store.YES,Field.Index.TOKENIZED);

doc2.add(field2);

writer2.addDocument(doc2);

//在这里可以添加其他文件

/*关闭*/

writer2.close();

}

publicvoidsearch(StringserchString)throwsException{

/*创建一个搜索，搜索刚才创建的d:\\save\\目录下的索引*/

IndexSearcherindexSearcher=newIndexSearcher("d:\\save\\");

/*在这里我们只需要搜索一个目录*/

IndexSearcherindexSearchers[]={indexSearcher};

/*我们需要搜索两个域"ArticleTitle","ArticleText"里面的内容*/

String[]fields={"ArticleTitle","ArticleText"};

/*下面这个表示要同时搜索这两个域，而且只要一个域里面有满足我们搜索的内容就行*/

BooleanClause.Occur[]clauses={BooleanClause.Occur.SHOULD,

BooleanClause.Occur.SHOULD};

*MultiFieldQueryParser表示多个域解析，

*同时可以解析含空格的字符串，如果我们搜索"中国金牌"，根据前面的索引，显然搜到的是第二份文件

Queryquery=MultiFieldQueryParser.parse(serchString,fields,clauses,

newStandardAnalyzer());

/*Multisearcher表示多目录搜索，在这里我们只有一个目录*/

MultiSearchersearcher=newMultiSearcher(indexSearchers);

/*开始搜索*/

Hitsh=searcher.search(query);

/*把搜索出来的所有文件打印出来*/

for(inti=0;i<h.length();i++){

/*打印出文件里面ArticleTitle域里面的内容*/

System.out.println(h.doc(i).get("ArticleTitle"));

/*打印出文件里面ArticleText域里面的内容*/

System.out.println(h.doc(i).get("ArticleText"));

}

/*关闭*/

searcher.close();

}

搜索引擎 lucene 索引

安科网

一个例子学懂搜索引擎(lucene)

aikaibo

aikaibo

相关推荐

由于Elasticsearch是在 Lucene 基础上构建

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

如何在Linux下安装部署分布式全文搜索引擎

全文搜索引擎 Elasticsearch

数据专家CNZZ简介

倒排索引

网站优化：分析网站的快照没有更新的原因是什么?

Elasticsearch到底哪点好？

1、网络爬虫

站长福利，分享一下今日头条搜索引擎提交及网站认证方法。

【汉文】SEO白帽和SEO黑帽的技术区别

信息搜集之搜索引擎

以图搜图【最佳实践】阿里云 Elasticsearch 向量检索4步搭建“以图搜图”搜索引擎，

Go语言中文分词技术使用技巧（一）

怎么防止优化好的关键词忽然排名下降

搜索引擎之倒排索引浅析

世界需要Cliqz，世界需要更多的搜索引擎

搜索引擎之倒排索引浅析

网站排名下降了怎么办？

做好网站优化，必须注意这些问题

aikaibo