Lucene初级知识

PasserbyX

2013-05-06

关注关注

Lucene

1、学习Lucene需要知道的概念：

全文探索：先建立索引，再对索引进行搜索的过程就叫全文检索(Full-textSearch)。

1.1基本知识概要：

索引创建：将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。

搜索索引：就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

反向所引：从字符串到文件的映射是文件到字符串映射的反向过程，于是保存这种信息的索引称为反向索引。

存在优势：全文搜索相对于顺序扫描的优势之一：一次索引，多次使用。

去掉停词：就是对探索无益的单词，他会消耗不必要的查询时间，去掉如"this"，"a"，"of"等。

term还原：就是将词的变化形式还原为词根，如去掉s等的操作，通过语言处理组件实现。

合并索引：对相同的term生成的索引进行合并，保持对同一个资源只建立一个索引。

探索语法："AND","OR",'NOT'，指的是包含什么或什么不含有什么。

探索相关性：就是匹配程度，termweight(权衡相关比重)。

空间模型算法：判断词(Term)之间的关系从而得到文档相关性的过程应用一种叫做向量空间模型的算法(VectorSpaceModel)。

1.2索引过程：

1)有一系列被索引文件

2)被索引文件经过语法分析和语言处理形成一系列词(Term)。

3)经过索引创建形成词典和反向索引表。

4)通过索引存储将索引写入硬盘。

1.3搜索过程：

a)用户输入查询语句。

b)对查询语句经过语法分析和语言分析得到一系列词(Term)。

c)通过语法分析得到一个查询树。

d)通过索引存储将索引读入到内存。

e)利用查询树搜索索引，从而得到每个词(Term)的文档链表，对文档链表进行交，差，并得到结果文档。

f)将搜索到的结果文档对查询的相关性进行排序。

g)返回查询结果给用户。

2、Lucene轮廓：

Lucene是全文搜索的一种具体应用。

基本操作对象单元：

Document:被索引的文档用Document对象表示。

IndexWriter:通过函数addDocument将文档添加到索引中，实现创建索引的过程。

Index:Lucene的索引是应用反向索引。

Query:当用户有请求时，Query代表用户的查询语句。

IndexSearcher:通过函数search搜索LuceneIndex,IndexSearcher计算termweight和score并且将结果返回给用户。

TopDocsCollector:返回给用户的文档集合用TopDocsCollector表示。

lucene 数据检索索引全文索引

PasserbyX

0 关注 0 粉丝 0 动态

关注关注

Spring Boot 教程 - Elasticsearch

它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，

mengyue 2020-06-09

1.elasticsearch单节点部署

就是一个jar包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包含各种算法，我们就用java开发的时候，引入lucene jar，然后基于lucene的api去进行开发就可以了，我们就可以将已有的数据数据建立索引，lucene会在本地磁盘上面，

编码之路 2020-05-03

lucene和Elasticsearch

归结为一句话倒排指的是把的关系颠倒为。nohup npm run start > /dev/null 2>&1 & 启动elasticsearch-head，访问9100端口

mengyue 2020-05-02

Lucene

我们生活中的数据总体分为两类：结构化数据和非结构化数据。将非结构化数据的一部分信息提取出来，重新组织，使其变得具有一定的结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的母的。这部分从非结构化数据中提取的然后重新组织的信息，我们称之为索引。Lu

编码之路 2020-02-20

Lucene、Solr、ElasticSearch、hibernate-search四部曲

直到昨天，在工作中刚刚得知Lucene、Solr。本质区别在于：1、Lucene是搜索库，不是独立的应用程序，而Solr是。此外Hibernate Search能够根据需要进行同步或异步的索引更新。Lucene的目的是为软件开发人员提供一个简单易用的工具包

heniancheng 2020-01-31

Lucene的学习

　　　　格式固定，长度固定，数据类型固定。　　　　Sql语句，查询结构化数据的方法。　　Lucene是一个基于java开发的全文检索工具包，java开发中Lucene首选。　　　　　　　　案列：直接使用io流读取磁盘上的文件。　　　　　　　　域中保持原始文

编码之路 2019-12-26

Lucene入门精讲视频教程

课程目录:1、Lucene-全文检索是什么？

PasserbyX 2019-12-14

厉害了，ES 如何做到几十亿数据检索 3 秒返回

实现参考，少走些弯路，在此篇幅中偏重于ES的优化，关于HBase，Hadoop的设计优化估计有很多文章可以参考，不再赘述。在一业务系统中，部分表每天的数据量过亿，已按天分表，但业务上受限于按天查询，并且DB中只能保留3个月的数据，分库代价较高。

ReganHoo 2019-11-21

Lucene系列二：Lucene（Lucene介绍、Lucene架构）

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便在目标系统中实现全文检索功能，或者是以此为基础建立起完整的全文检索引擎。Lucene适用场景　　在应用中为数据库中的数据提供全文检索实现。　　开发独立的搜索引擎服务、系统Lucene的特性　

shouwangV 2019-10-30

Lucene的索引文件格式(1)

Lucene的索引里面存了些什么，如何存放的，也即Lucene的索引文件格式，是读懂Lucene源代码的一把钥匙。Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此文件格式的过程。Lucene的搜索过程，就是按照此文件格式将索引进去的信息读

exitzhang 2017-05-11

lucene&solr全文检索_7solr后台界面的介绍

Logging：solr的运行日志，如果出现问题会告诉你什么问题。Core Admin:solr core 的管理界面。solr core是solr 的一个独立运行实例单位，他可以对外提供索引和搜索服务，一个solr工程可以运行多个solrcore，一个c

lionelf 2020-02-03

Lucene介绍与使用

不选择使用Lucene的6大原因？在国内对Lucene的介绍可以分为3块儿：。第二类是Lucene倒排索引原理和Lucene软件包、实现类的介绍；在国内对Lucene这个软件包的批评，似乎没有看到过。可能大家都忙于做项目，纵然Lucene有再大的缺陷，凭借

Jacry 2019-12-25

Lucene教程

2 lucene的工作方式 lucene提供的服务实际包含两部分：一入一出。将源中需要的信息加入Document的各个Field中，并把需要索引的Field索引起来，把需要存储的Field存储起来。用户根据需要从找到的Document中提取需要的Field

hankesi000 2016-07-13

Lucene全文检索引擎

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却

xiaoxiaoabc 2017-08-04

十张图说清Elasticsearch原理！

说到 Elasticsearch，其中最明显的一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，将在 1 秒内以几乎实时的方式对其进行索引和完全搜索。Segment：也叫段，类似于倒排索引，相当于一个数据

renjinlong 2020-09-03

MAC OS 10.15 Lucene 源码分析环境搭建

lucene-solr 的github 项目中的 README 其实已经讲得很清楚了，但搭一个大项目的环境还是耗时耗力的。如果出现下载失败的问题，不用担心，重试就好。3，安装ant，我这里安装的是：Apache Ant version 1.10.8 com

Jacry 2020-07-04

由于Elasticsearch是在 Lucene 基础上构建

本文已经收录至我的GitHub,欢迎大家踊跃star 和 issues。为什么写Elasticsearch系列文章？后面会说到，Elasticsearch是搜索引擎，但不简单只能使用在搜索领域，他可以作用的场景非常多。Elastic 于 2018 年 6

IceStreamLab 2020-06-26

全文搜索Lucene之倒排索引

倒排索引源于实际应用中需要根据属性的值来查找记录。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。Lucerne使用的是倒排文件索引结构。

PasserbyX 2020-05-16

Elasticsearch用得好，下班下得早！

入行 Elastic-Stack 技术栈很久了，为了免于知识匮乏眼光局限，有必要到外面的世界看看，丰富自己的世界观。哪些应用场景下使用 Elasticsearch 最佳?Elasticseach 从做搜索引擎开始，到现在主攻大数据分析领域，逐步进化成了一个

mameng 2020-05-12

Elasticsearch对垒8大竞品技术，孰优孰劣？

李猛，Elastic-stack产品深度用户，ES认证工程师，2012年接触Elasticsearch，对Elastic-Stack开发、架构、运维等方面有深入体验，实践过多种Elasticsearch项目，最暴力的大数据分析应用，最复杂的业务系统应用;业

心丨悦 2020-05-06

安科网

Lucene初级知识

PasserbyX

PasserbyX

相关推荐

Spring Boot 教程 - Elasticsearch

1.elasticsearch单节点部署

lucene和Elasticsearch

Lucene

Lucene、Solr、ElasticSearch、hibernate-search四部曲

Lucene的学习

Lucene入门精讲视频教程

厉害了，ES 如何做到几十亿数据检索 3 秒返回

Lucene系列二：Lucene（Lucene介绍、Lucene架构）

Lucene的索引文件格式(1)

lucene&solr全文检索_7solr后台界面的介绍

Lucene介绍与使用

Lucene教程

Lucene全文检索引擎

十张图说清Elasticsearch原理！

MAC OS 10.15 Lucene 源码分析环境搭建

由于Elasticsearch是在 Lucene 基础上构建

全文搜索Lucene之倒排索引

Elasticsearch用得好，下班下得早！

Elasticsearch对垒8大竞品技术，孰优孰劣？

PasserbyX