Lucene学习

喜糖

2011-09-27

关注关注

近来项目需要使用Lucene，工作之余上网学习了下相关内容，做个笔记

1.创建索引

步骤：创建IndexWriter

Java代码

IndexWriterwriter=newIndexWriter(

newNIOFSDirectory(newFile(path)),newStandardAnalyzer(

Version.LUCENE_30),MaxFieldLength.LIMITED);

IndexWriterwriter=newIndexWriter(

newNIOFSDirectory(newFile(path)),newStandardAnalyzer(

Version.LUCENE_30),MaxFieldLength.LIMITED);

创建Document

创建Field包含field名和field值

将Field通过Document的add方法添加到Document中

Java代码

Documentdoc=newDocument();

doc.add(newField("text","Itisatextarea",Store.YES,

Index.ANALYZED_NO_NORMS));

doc.add(newField("info","ItisaInfomationarea",Store.YES,

Index.ANALYZED_NO_NORMS));

Documentdoc=newDocument();

doc.add(newField("text","Itisatextarea",Store.YES,

Index.ANALYZED_NO_NORMS));

doc.add(newField("info","ItisaInfomationarea",Store.YES,

Index.ANALYZED_NO_NORMS));

将Document通过IndexWriter的addDocument方法添加到IndexWriter中

关闭IndexWriter

Java代码

writer.addDocument(doc);writer.close();

2从索引中根据关键字查询

创建IndexSearcher

Java代码

IndexSearchersearcher=newIndexSearcher(newNIOFSDirectory(newFile(

path)));

IndexSearchersearcher=newIndexSearcher(newNIOFSDirectory(newFile(

path)));

创建Query

Java代码

Queryquery=newQueryParser(Version.LUCENE_30,field,

newStandardAnalyzer(Version.LUCENE_30)).parse(keyword);

Queryquery=newQueryParser(Version.LUCENE_30,field,

newStandardAnalyzer(Version.LUCENE_30)).parse(keyword);

通过IndexSearcher的search方法查找关键字，使用TopDocs封装结果集

Java代码

TopDocsdocs=searcher.search(query,10);

全部代码：(包换了合并内存索引到硬盘索引中)

Java代码

importjava.io.File;

importorg.apache.lucene.analysis.standard.StandardAnalyzer;

importorg.apache.lucene.document.Document;

importorg.apache.lucene.document.Field;

importorg.apache.lucene.document.Field.Index;

importorg.apache.lucene.document.Field.Store;

importorg.apache.lucene.index.IndexReader;

importorg.apache.lucene.index.IndexWriter;

importorg.apache.lucene.index.IndexWriter.MaxFieldLength;

importorg.apache.lucene.queryParser.QueryParser;

importorg.apache.lucene.search.IndexSearcher;

importorg.apache.lucene.search.Query;

importorg.apache.lucene.search.ScoreDoc;

importorg.apache.lucene.search.TopDocs;

importorg.apache.lucene.store.NIOFSDirectory;

importorg.apache.lucene.store.RAMDirectory;

importorg.apache.lucene.util.Version;

publicclassTestLucen{

publicstaticfinalStringpath="E:\\workspaces\\lucene\\index";

publicstaticvoidmain(String[]args)throwsException{

writeIndex();

readIndex("text","area");

}

publicstaticvoidwriteIndex()throwsException{

//硬盘索引

IndexWriterwriter=newIndexWriter(

newNIOFSDirectory(newFile(path)),newStandardAnalyzer(

Version.LUCENE_30),MaxFieldLength.LIMITED);

//Ram索引

RAMDirectoryram=newRAMDirectory();

IndexWriterramwriter=newIndexWriter(ram,newStandardAnalyzer(

Version.LUCENE_30),MaxFieldLength.LIMITED);

Documentdoc=newDocument();

Documentdoc1=newDocument();

doc.add(newField("text","Itisatextarea",Store.YES,

Index.ANALYZED_NO_NORMS));

doc.add(newField("info","ItisaInfomationarea",Store.YES,

Index.ANALYZED_NO_NORMS));

writer.addDocument(doc);

doc1.add(newField("text","itisanotherarea",Store.YES,

Index.ANALYZED));

ramwriter.addDocument(doc1);

ramwriter.optimize();

ramwriter.close();

//将Ram索引合并到硬盘索引上，必须先调用ram的close方法

writer.addIndexes(IndexReader.open(ram));

writer.optimize();

writer.close();

}

publicstaticvoidreadIndex(Stringfield,Stringkeyword)throwsException{

IndexSearchersearcher=newIndexSearcher(newNIOFSDirectory(newFile(

path)));

Queryquery=newQueryParser(Version.LUCENE_30,field,

newStandardAnalyzer(Version.LUCENE_30)).parse(keyword);

TopDocsdocs=searcher.search(query,10);

System.out.println("查找到"+docs.totalHits+"个\n对应的text为：");

ScoreDoc[]doc=docs.scoreDocs;

for(ScoreDocd:doc){

Documentdocu=searcher.doc(d.doc);

System.out.println(docu.get(field));

}

importjava.io.File;

importorg.apache.lucene.analysis.standard.StandardAnalyzer;

importorg.apache.lucene.document.Document;

importorg.apache.lucene.document.Field;

importorg.apache.lucene.document.Field.Index;

importorg.apache.lucene.document.Field.Store;

importorg.apache.lucene.index.IndexReader;

importorg.apache.lucene.index.IndexWriter;

importorg.apache.lucene.index.IndexWriter.MaxFieldLength;

importorg.apache.lucene.queryParser.QueryParser;

importorg.apache.lucene.search.IndexSearcher;

importorg.apache.lucene.search.Query;

importorg.apache.lucene.search.ScoreDoc;

importorg.apache.lucene.search.TopDocs;

importorg.apache.lucene.store.NIOFSDirectory;

importorg.apache.lucene.store.RAMDirectory;

importorg.apache.lucene.util.Version;

publicclassTestLucen{

publicstaticfinalStringpath="E:\\workspaces\\lucene\\index";

publicstaticvoidmain(String[]args)throwsException{

writeIndex();

readIndex("text","area");

}

publicstaticvoidwriteIndex()throwsException{

//硬盘索引

IndexWriterwriter=newIndexWriter(

newNIOFSDirectory(newFile(path)),newStandardAnalyzer(

Version.LUCENE_30),MaxFieldLength.LIMITED);

//Ram索引

RAMDirectoryram=newRAMDirectory();

IndexWriterramwriter=newIndexWriter(ram,newStandardAnalyzer(

Version.LUCENE_30),MaxFieldLength.LIMITED);

Documentdoc=newDocument();

Documentdoc1=newDocument();

doc.add(newField("text","Itisatextarea",Store.YES,

Index.ANALYZED_NO_NORMS));

doc.add(newField("info","ItisaInfomationarea",Store.YES,

Index.ANALYZED_NO_NORMS));

writer.addDocument(doc);

doc1.add(newField("text","itisanotherarea",Store.YES,

Index.ANALYZED));

ramwriter.addDocument(doc1);

ramwriter.optimize();

ramwriter.close();

//将Ram索引合并到硬盘索引上，必须先调用ram的close方法

writer.addIndexes(IndexReader.open(ram));

writer.optimize();

writer.close();

}

publicstaticvoidreadIndex(Stringfield,Stringkeyword)throwsException{

IndexSearchersearcher=newIndexSearcher(newNIOFSDirectory(newFile(

path)));

Queryquery=newQueryParser(Version.LUCENE_30,field,

newStandardAnalyzer(Version.LUCENE_30)).parse(keyword);

TopDocsdocs=searcher.search(query,10);

System.out.println("查找到"+docs.totalHits+"个\n对应的text为：");

ScoreDoc[]doc=docs.scoreDocs;

for(ScoreDocd:doc){

Documentdocu=searcher.doc(d.doc);

System.out.println(docu.get(field));

}

执行结果：

查找到2个

对应的text为：

Itisatextarea

itisanotherarea

lucene

喜糖

0 关注 0 粉丝 0 动态

关注关注

十张图说清Elasticsearch原理！

说到 Elasticsearch，其中最明显的一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，将在 1 秒内以几乎实时的方式对其进行索引和完全搜索。Segment：也叫段，类似于倒排索引，相当于一个数据

renjinlong 2020-09-03

MAC OS 10.15 Lucene 源码分析环境搭建

lucene-solr 的github 项目中的 README 其实已经讲得很清楚了，但搭一个大项目的环境还是耗时耗力的。如果出现下载失败的问题，不用担心，重试就好。3，安装ant，我这里安装的是：Apache Ant version 1.10.8 com

Jacry 2020-07-04

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 2020-06-26

Spring Boot 教程 - Elasticsearch

它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，

mengyue 2020-06-09

全文搜索Lucene之倒排索引

倒排索引源于实际应用中需要根据属性的值来查找记录。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。Lucerne使用的是倒排文件索引结构。

PasserbyX 2020-05-16

Elasticsearch用得好，下班下得早！

入行 Elastic-Stack 技术栈很久了，为了免于知识匮乏眼光局限，有必要到外面的世界看看，丰富自己的世界观。哪些应用场景下使用 Elasticsearch 最佳?Elasticseach 从做搜索引擎开始，到现在主攻大数据分析领域，逐步进化成了一个

mameng 2020-05-12

Elasticsearch对垒8大竞品技术，孰优孰劣？

李猛，Elastic-stack产品深度用户，ES认证工程师，2012年接触Elasticsearch，对Elastic-Stack开发、架构、运维等方面有深入体验，实践过多种Elasticsearch项目，最暴力的大数据分析应用，最复杂的业务系统应用;业

心丨悦 2020-05-06

1.elasticsearch单节点部署

就是一个jar包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包含各种算法，我们就用java开发的时候，引入lucene jar，然后基于lucene的api去进行开发就可以了，我们就可以将已有的数据数据建立索引，lucene会在本地磁盘上面，

编码之路 2020-05-03

lucene和Elasticsearch

归结为一句话倒排指的是把的关系颠倒为。nohup npm run start > /dev/null 2>&1 & 启动elasticsearch-head，访问9100端口

mengyue 2020-05-02

ES索引的一些长度限制

一个ES索引最大可以支持多少个shard？理论上无限扩展，我推测最大应该是java array的最大长度：Integer.MAX_VALUE。一个ES shard最多可以索引2,147,483,519个document。可以看到一个document创建多个

qiuzhuoxian 2020-02-23

Lucene

我们生活中的数据总体分为两类：结构化数据和非结构化数据。将非结构化数据的一部分信息提取出来，重新组织，使其变得具有一定的结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的母的。这部分从非结构化数据中提取的然后重新组织的信息，我们称之为索引。Lu

编码之路 2020-02-20

lucene&solr全文检索_7solr后台界面的介绍

Logging：solr的运行日志，如果出现问题会告诉你什么问题。Core Admin:solr core 的管理界面。solr core是solr 的一个独立运行实例单位，他可以对外提供索引和搜索服务，一个solr工程可以运行多个solrcore，一个c

lionelf 2020-02-03

lucene&solr全文检索_3查询索引

创建完索引之后，我们需要查询。// 第一步：创建一个java工程，并导入jar包。// 2）指定一个分析器，对文档内容进行分析。Directory directory =FSDirectory.open;//创建document

TyCoding 2020-02-01

Lucene、Solr、ElasticSearch、hibernate-search四部曲

直到昨天，在工作中刚刚得知Lucene、Solr。本质区别在于：1、Lucene是搜索库，不是独立的应用程序，而Solr是。此外Hibernate Search能够根据需要进行同步或异步的索引更新。Lucene的目的是为软件开发人员提供一个简单易用的工具包

heniancheng 2020-01-31

ElasticSearch

ES=elaticsearch简写， Elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。Elasticsearch也使用Java开发并使用Lucen

某某某 2020-01-30

《从Lucene到Elasticsearch全文检索实战》的P184页

其次，他说使用了books.json,在P183页说保存为books.json这个文件是直接放在curl解压缩后的文件夹的bin目录下的。汗，我第一次，关于这个问题搞了半天，之前我一直使用Kibana的，坑。后来百度看到有人说这个都出现localhost:

PinkBean 2020-01-29

es lucene搜索及聚合流程源码分析

SearchContext包含Query，Aggregator等重要信息。索引结构为倒排。Aggregator此时仅根据request创建AggregatorFactory，用于后续创建Aggregator。当shard下数据发生变化时，应当清空cache

某某某 2020-01-12

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算

编码之路 2020-01-01

Solr与JDK对应版本关系，Tomcat与JDK版本对应关系

itmale 2020-01-01

全文检索Lucene

索引一次创建可以多次使用，表现为每次查询速度都很快。把非结构化数据进行字符串拆分，得到一个单词的列表，基于单词列表创建一个索引，然后查询索引，根据单词和文档的对应关系找到文档列表，这个过程就叫做全文索引

PasserbyX 2020-01-01

安科网

Lucene学习

喜糖

喜糖

相关推荐

十张图说清Elasticsearch原理！

MAC OS 10.15 Lucene 源码分析环境搭建

由于Elasticsearch是在 Lucene 基础上构建

Spring Boot 教程 - Elasticsearch

全文搜索Lucene之倒排索引

Elasticsearch用得好，下班下得早！

Elasticsearch对垒8大竞品技术，孰优孰劣？

1.elasticsearch单节点部署

lucene和Elasticsearch

ES索引的一些长度限制

Lucene

lucene&solr全文检索_7solr后台界面的介绍

lucene&solr全文检索_3查询索引

Lucene、Solr、ElasticSearch、hibernate-search四部曲

ElasticSearch

《从Lucene到Elasticsearch全文检索实战》的P184页

es lucene搜索及聚合流程源码分析

Net Core使用Lucene.Net和盘古分词器实现全文检索

Solr与JDK对应版本关系，Tomcat与JDK版本对应关系

全文检索Lucene

喜糖