lucence入门

exitzhang

2014-07-23

Lucene入门

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

以下模拟一个简单的Lucene入门案例

接下来为Lucene开发步骤：

1、新建一个java工程，导入Lucene所需jar，如下图

lucence入门

目录结构

lucence入门

其中：luceneds为数据源存储位置，luceneindex存放索引文件的位置，即索引库。如果索引库已被创建，那么luceneindex目录下会有索引文件，如下图：

lucence入门

代码

package com.ljq.lucene;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.NumberTools;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriter.MaxFieldLength;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Filter;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.junit.Test;

/**
* 开发lucene步骤：先创建索引，再搜索
*
* @author jiqinlin
*
*/
publicclass HelloWorld {
// 数据源路径
String dspath ="F:\\android\\luceneprj\\luceneds\\IndexWriter addDocument's a javadoc .txt";
//存放索引文件的位置，即索引库
String indexpath ="F:\\android\\luceneprj\\luceneindex";
//分词器
Analyzer analyzer =new StandardAnalyzer();

/**
* 创建索引
*
* IndexWriter 用来操作（增、删、改）索引库的
*/
@Test
publicvoid createIndex() throws Exception {
File file =new File(dspath);
//Document存放经过组织后的数据源，只有转换为Document对象才可以被索引和搜索到
Document doc =new Document();
//文件名称
doc.add(new Field("name", file.getName(), Store.YES, Index.ANALYZED));
//检索到的内容
doc.add(new Field("content", readFileContent(file), Store.YES, Index.ANALYZED));
//文件大小
doc.add(new Field("size", NumberTools.longToString(file.length()),
Store.YES, Index.NOT_ANALYZED));
//检索到的文件位置
doc.add(new Field("path", file.getAbsolutePath(), Store.YES, Index.NOT_ANALYZED));

// 建立索引
IndexWriter indexWriter =new IndexWriter(indexpath, analyzer, true,
MaxFieldLength.LIMITED);
indexWriter.addDocument(doc);
indexWriter.close();
}

/**
* 搜索
*
* IndexSearcher 用来在索引库中进行查询
*/
@Test
publicvoid search() throws Exception {
//请求字段
//String queryString = "document";
String queryString ="adddocument";

// 1，把要搜索的文本解析为 Query
String[] fields = { "name", "content" };
QueryParser queryParser =new MultiFieldQueryParser(fields, analyzer);
Query query = queryParser.parse(queryString);

// 2，进行查询，从索引库中查找
IndexSearcher indexSearcher =new IndexSearcher(indexpath);
Filter filter =null;
TopDocs topDocs = indexSearcher.search(query, filter, 10000);
System.out.println("总共有【"+ topDocs.totalHits +"】条匹配结果");

// 3，打印结果
for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
// 文档内部编号
int index = scoreDoc.doc;
// 根据编号取出相应的文档
Document doc = indexSearcher.doc(index);
System.out.println("------------------------------");
System.out.println("name = "+ doc.get("name"));
System.out.println("content = "+ doc.get("content"));
System.out.println("size = "+ NumberTools.stringToLong(doc.get("size")));
System.out.println("path = "+ doc.get("path"));
}
}

/**
* 读取文件内容
*/
publicstatic String readFileContent(File file) {
try {
BufferedReader reader =new BufferedReader(new InputStreamReader(new FileInputStream(file)));
StringBuffer content =new StringBuffer();
for (String line =null; (line = reader.readLine()) !=null;) {
content.append(line).append("\n");
}
reader.close();
return content.toString();
} catch (Exception e) {
thrownew RuntimeException(e);
}
}
}

运行结果如下：

lucence入门

分类: Lucene

apache lucene

安科网

lucence入门

exitzhang

Lucene入门

exitzhang

相关推荐

MAC OS 10.15 Lucene 源码分析环境搭建

.NET Core下使用Kafka的方法步骤

解决PHPstudy Apache无法启动的问题【亲测有效】

Web安全：文件解析漏洞

终于有人把Nginx说清楚了，图文详解！

为什么Java仍将是未来的主流语言？

如何使用Apache Web服务器来安装和配置网站？

CentOS 8 Apache 安装后 SSL 重定向提示证书错误

如何使用 Apache Directory Studio 连接 JumpCloud

初学者和专业技术人员使用的十大机器学习软件

每个Java开发人员都应该知道的10大Github仓库

漫话：应用程序被拖慢？罪魁祸首竟然是Log4j！

JSP动态网页开发原理详解

centos8使用Apache httpd2.4.37安装web服务器的步骤详解

Tomcat启动springboot项目war包报错：启动子级时出错的问题

如何通过Apache在本地配置多个虚拟主机

Apache Shiro 反序列化(CVE-2016-4437)复现

Apache Shiro 反序列化(CVE-2016-4437)复现

Apache DolphinScheduler 诞生记

【Shiro】05 自定义Realm认证实现

exitzhang