Elasticsearch-倒排索引

AFei00

2019-06-28

Elasticsearch 使用一种称为 倒排索引 的结构，它适用于快速的全文搜索。
一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，有一个包含它的文档列表。

假设我们有两个文档，每个文档的 content 域包含如下内容：

The quick brown fox jumped over the lazy dog
Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引，我们首先将每个文档的 content 域拆分成单独的词（我们称它为词条或 tokens ），创建一个包含所有不重复词条的排序列表，然后列出每个词条出现在哪个文档。结果如下所示：

Term      Doc_1  Doc_2
-------------------------
Quick   |       |  X
The     |   X   |
brown   |   X   |  X
dog     |   X   |
dogs    |       |  X
fox     |   X   |
foxes   |       |  X
in      |       |  X
jumped  |   X   |
lazy    |   X   |  X
leap    |       |  X
over    |   X   |  X
quick   |   X   |
summer  |       |  X
the     |   X   |
------------------------

现在，如果我们想搜索 quick brown ，我们只需要查找包含每个词条的文档：

Term      Doc_1  Doc_2
-------------------------
brown   |   X   |  X
quick   |   X   |
------------------------
Total   |   2   |  1

两个文档都匹配，但是第一个文档比第二个匹配度更高。如果我们使用仅计算匹配词条数量的简单相似性算法，那么，我们可以说，对于我们查询的相关性来讲，第一个文档比第二个文档更佳。

但是，我们目前的倒排索引有一些问题：

Quick 和 quick 以独立的词条出现，然而用户可能认为它们是相同的词。
fox 和 foxes 非常相似, 就像 dog 和 dogs ；他们有相同的词根。
jumped 和 leap, 尽管没有相同的词根，但他们的意思很相近。他们是同义词。

使用前面的索引搜索 +Quick +fox 不会得到任何匹配文档。（记住，+ 前缀表明这个词必须存在。）只有同时出现 Quick 和 fox 的文档才满足这个查询条件，但是第一个文档包含 quick fox ，第二个文档包含 Quick foxes 。

我们的用户可以合理的期望两个文档与查询匹配。我们可以做的更好。

如果我们将词条规范为标准模式，那么我们可以找到与用户搜索的词条不完全一致，但具有足够相关性的文档。例如：

Quick 可以小写化为 quick 。
foxes 可以词干提取 --变为词根的格式-- 为 fox 。类似的， dogs 可以为提取为 dog 。
jumped 和 leap 是同义词，可以索引为相同的单词 jump 。

现在索引看上去像这样：

Term      Doc_1  Doc_2
-------------------------
brown   |   X   |  X
dog     |   X   |  X
fox     |   X   |  X
in      |       |  X
jump    |   X   |  X
lazy    |   X   |  X
over    |   X   |  X
quick   |   X   |  X
summer  |       |  X
the     |   X   |  X
------------------------

倒排索引索引 elasticsearch 词条

AFei00

0 关注 0 粉丝 0 动态

相关推荐

倒排索引

见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引，反向索引更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位

章鱼之家 2020-06-08

Elasticsearch系列---shard内部原理

本篇我们来看看shard内部的一些操作原理，了解一下人家是怎么玩的。倒排索引的结构，是非常适合用来做搜索的，Elasticsearch会为索引的每个index为analyzed的字段建立倒排索引。记录这些信息，就是为了方便搜索的效率和_score分值的计算

sifeimeng 2020-05-29

全文搜索Lucene之倒排索引

倒排索引源于实际应用中需要根据属性的值来查找记录。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件。Lucerne使用的是倒排文件索引结构。

PasserbyX 2020-05-16

Elasticsearch系列---聚合查询原理

本篇主要介绍聚合查询的内部原理，正排索引是如何建立的和优化的，fielddata的使用，最后简单介绍了聚合分析时如何选用深度优先和广度优先。我们了解到倒排索引对搜索是非常高效的，但是在排序或聚合操作方面，倒排索引就显得力不从心，例如我们举个实际案例，假设我

mengyue 2020-04-17

搜索引擎之倒排索引浅析

上一篇文章 ElasticSearch 术语中提到了倒排索引，那么这篇文章就来讲解下什么是倒排索引，倒排索引的数据结构以及 ElasticSearch 中的倒排索引。倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先

qiburen 2020-03-20

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

问题给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？方案1：用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的b

lixiaotao 2020-03-05

搜索引擎之倒排索引浅析

倒排索引也常被称为反向索引，是搜索引擎中非常重要的数据结构，为什么说它重要呢，我们首先拿一本书《重构改善既有代码的设计》举个例子：。想象一下你要搜索 case语句这个关键词在这本书的页码，你应该怎么办呢？有些技术类的书籍会在最后提供索引页，这本书的索

yanweiqi 2020-03-03

Elasticsearch系列---shard内部原理

本篇我们来看看shard内部的一些操作原理，了解一下人家是怎么玩的。倒排索引的结构，是非常适合用来做搜索的，Elasticsearch会为索引的每个index为analyzed的字段建立倒排索引。记录这些信息，就是为了方便搜索的效率和_score分值的计算

sifeimeng 2020-01-23

elasticsearch

Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。1）Lucene只是一个库。2）Elasticsearch也使用Java开发并使用Lucene作为其核心来

tigercn 2019-12-30

Lucene倒排索引原理

Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。　　　　以上就是lucene索引结构中最核心的部分。　　　　实现时 lucene将上面三列分别作为词典文件、频率文件、位置文件保存。　　　　为了减小索引文件的大小，Luc

xiaoxiaoabc 2014-06-27

Solr原理

单词词典一般用hashmap的存储或可以快速有序查找的树形结构B+tree,中的节点存范围分捅导航信息，叶子节点才存单词本身和倒排列表位置信息。之所以说图3-4所示倒排索引是最简单的，是因为这个索引系统只记载了哪些文档包含某个单词，而事实上，索引系统还可以

devefx 2019-07-30

搜索引擎中的爬虫和倒排索引技术

我书读得少，你不要骗我。这可能是最适合我们的一句话了。昨晚跟以前的部长祥仔爷聊天，得知他现在在做搜索引擎的优化，在那家公司工作，他便跟我说起他的专业知识。今天在看自动机的书顺带查了一下。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓

冬冬阳光 2017-12-25

海量数据处理专题7——倒排索引(搜索引擎之基石)

在信息大爆炸的今天，有了搜索引擎的帮助，使得我们能够快速，便捷的找到所求。提到搜索引擎，就不得不说VSM模型，说到VSM，就不得不聊倒排索引。可以毫不夸张的讲，倒排索引是搜索引擎的基石。98年的Google就是凭借这样的一个模。型，开始了它的疯狂扩张之路。

唐爱平的blog 2011-10-13

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

在信息大爆炸的今天，有了搜索引擎的帮助，使得我们能够快速，便捷的找到所求。提到搜索引擎，就不得不说VSM模型，说到VSM，就不得不聊倒排索引。可以毫不夸张的讲，倒排索引是搜索引擎的基石。98年的Google就是凭借这样的一个模型，开始了它的疯狂扩张之路。废

greatking 2011-09-27

Lucene倒排索引原理

Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。　　　　以上就是lucene索引结构中最核心的部分。　　　　实现时 lucene将上面三列分别作为词典文件、频率文件、位置文件保存。　　　　为了减小索引文件的大小，Luc

某某某 2014-06-27

[转]Lucene倒排索引原理

Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。该结构及相应的生成算法如下：。1)由于lucene是基于关键词索引和查询的，首先我们要取得这两篇文章的关键词，通常我们需要如下处理措施。中文单词间是连在一起的需要特殊的分词处理。

喜糖 2010-11-22

Spring Boot 中使用 Java API 调用 lucene

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员

hankesi000 2019-06-25

MongoDB优化之倒排索引

本文将通过为电影数据构建演员索引，介绍两种构建倒排索引的方法：MapReduce和Aggregation Pipeline。是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。倒排索引是搜索引擎中的核心数据结构。简单地说

chenhua 2019-06-20

Lucene倒排索引简述细说倒排索引构建

在《Lucene倒排索引简述之索引表》和《Lucene倒排索引简述之倒排表》两篇文章中介绍了Lucene如何将倒排索引结构写入索引文件，如何为实现高效搜索过程奠定了基础。所以问题的关键在于Lucene采用了些数据结构和手段实现高效的收集任务，完成索引时

hankesi000 2018-11-24

大数据技术学习笔记：倒排索引

岁月蹉跎，就在今年上半年我做职业规划的时候，"大数据"这个词出现在了我的脑海，当前IT行业火爆的方向当属大数据和人工智能。人工智能门槛高，那么曲线救国之路呢？那就是大数据了，机器学习吃的是数据，所以毅然决定辞职投身大数据行业。在经过精心

onlyForCloud 2018-09-06

AFei00

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号