Lucene的学习

编码之路

2019-12-26

关注关注

一，什么是全文检索

1.数据的分类

1.结构化数据

　　格式固定，长度固定，数据类型固定。

　　例如：数据库中的数据；

2.非结构化数据

　　word文档，pdf文档，邮件，html，txt

　　格式不固定，长度不固定，数据类型也不固定

2.数据的查询

1，结构化数据的查询

　　Sql语句，查询结构化数据的方法。简单，速度快。

2.非结构化数据的查询

　　例如：从文本文件中找出包含spring的单词的文件

　　1.目测

　　2.使用程序代码来实现，把文件读取到内存中，匹配字符串，顺序扫描。

　　3.把结构化数据变成结构化数据

　　　　（先根据空格进行字符串拆分，得到一个单词列表，基于单词列表创建一个索引）　　

　　　　　索引：一个为了提高查询速度，创建某种数据结构的集合

　　　　　然后查询索引，根据单词和文档对应关系找到文档列表，这个过程就叫全文检索

3.全文检索

先创建索引，然后查询索引的过程，就叫做全文检索。（创建索引时间较长，但是一次创建可以多次使用，平均每次查询的速度就提高了速度）

二,全文搜索的应用场景

1，搜索引擎

　　百度，360搜索，谷歌，搜狗

2，站内搜索

　　论坛搜索，微博搜索，文章搜索

3，电商搜索

　　淘宝搜索，京东搜索

4，只要是有搜索的地方，就可以使用到全文检索技术

三，什么是Lucene

Lucene是一个基于java开发的全文检索工具包，java开发中Lucene首选。

四，Lucene实现全文检索的流程。

1，创建索引

　　1）获得文档

　　　　　　原始文档：要基于那些数据来进行搜索，那么这些数据就是原始文档

　　　　　　搜索引擎：使用爬虫获得原始文档

　　　　　　站内搜索：数据库中的数据。使用jdbc到数据库中取

　　　　　　案列：直接使用io流读取磁盘上的文件。

　　2）构建文档对象

　　　　　　对应每个原始文档，来创建Document对象。

　　　　　　每个Document对象中包含多个域（Field）

　　　　　　域中保持原始文档的数据。

　　　　　　　　　域的名称；域的值；

　　　　　　　　　每个文档都有一个文档的编号，就是文档id

　　3）分析文档

　　　　　　就是分词的过程

　　　　　　1.根据空格进行拆分，得到一个单词列表

　　　　　　2.把单词统一转化成大写或者小写

　　　　　　3.去掉标点符号

　　　　　　4.去掉停用词（停用词：无意义的词；如：and）

　　　　　　每个关键词都封装成一个Term对象中，Term中包含两部分内容：关键词包含的域；关键词本身；（不同的域中拆分出来的关键词是不同的Term）

　　4）创建索引

　　　　　　基于关键词列表来创建一个索引，保存到磁盘中，保存到索引库中。

　　　　　　索引库中包含：

　　　　　　　　　　　　索引

　　　　　　　　　　　　Document对象

　　　　　　　　　　　　关键词和文档的对应关系

　　　　　　通过词语找文档，这种索引的结构就叫倒排索引结构

2，查询索引　

　　1)用户查询接口

　　　　　　用户输入查询条件的地方

　　　　　　例如：百度的搜索框

　　2）把关键词封装成一个查询对象

　　　　　　要查询的域

　　　　　　要搜索的关键词

　　3）执行查询

　　　　　　根据要查询的关键词到对应的域中进行搜索

　　　　　　找到关键词，根据关键词来找到对应的文档

　　4）渲染结果

　　　　　　根据文档的id找到文档的对象

　　　　　　对关键词进行高亮显示

　　　　　　分页显示

　　　　　　最终展示出给用户展示

索引关键词分类数据检索全文索引 lucene

编码之路

0 关注 0 粉丝 0 动态

关注关注

MySQL数据类型优化原则

MySQL支持的数据类型很多，选择正确的数据类型对于高性能至关重要。下面几个简单的原则都有助于做出更好的选择。应该尽量使用可以正确储存数据的最小数据类型。如果无法确定哪个数据类型时最好的，就选择你认为不会超过范围的最小类型。比如用MySQ内建的类型而不是使

ribavnu 2020-11-16

MySql索引使用策略分析

(建立索引会占用磁盘空间的索引文件。2.很少数据的列也不应该建立索引,比如一个性别字段 0或者1,在查询中,结果集的数据占了表中数据行的比例比较大,mysql需要扫描的行数很多,增加索引,并不能提高效率

moyekongling 2020-11-13

python如何获得list或numpy数组中最大元素对应的索引

#表示最大值在第二行第二列

sizhixht 5评论 2020-11-16

Python实现列表索引批量删除的5种方法

开头，如果不仔细看好像没什么问题。但是结果却是错误的。将 listObj.remove() 改为listObj.pop结果也是相同的。Java用同样的编程思想，得到的结果也有相似性。这种错误，主要是初学者对于数据存储原理没有理解清楚，或者，没有意识到内存存

坚持是一种品质 5评论 2020-11-16

MyISAM与InnoDB索引实现对比详解

MyISAM引擎使用B+Tree作为索引结构，叶节点的data域存放的是数据记录的地址。这里设表一共有三列，假设我们以Col1为主键，则上图是一个MyISAM表的主索引示意。虽然InnoDB也使用B+Tree作为索引结构，但具体实现方式却与MyISAM截然

chenjiazhu 2020-09-29

万能Python的秘诀：操纵数据的内置工具

本文转载自公众号“读芯术”。Python可谓是如今最流行的编程语言，甚至孩子们也可以从它开始学习趣味编程。Python类似英语的简单语法使它成为一种通用语言，已在全世界各个领域被广泛使用。Python的万能之处正在于其内置的数据结构，它使编码变得简单，不受

kikaylee 2020-10-31

Uber为什么放弃Postgres选择迁移到MySQL？

Uber 的早期架构包含了一个用 Python 开发的单体后端应用程序，这个应用程序使用 Postgres 作为数据存储。从那个时候开始，Uber 的架构已经发生了巨大变化，变成了微服务，并采用新的数据平台模型。具体地说，之前使用 Postgres 的地方

Ida 5评论 2020-09-16

导致MySQL索引失效的一些常见写法总结

最近一直忙着处理原来老项目遗留的一些SQL优化问题，由于当初表的设计以及字段设计的问题，随着业务的增长，出现了大量的慢SQL，导致MySQL的CPU资源飙升，基于此，给大家简单分享下这些比较使用的易于学习和使用的经验。这次的话简单说下如何防止你的索引失效。

liuweiq 2020-09-09

MySQL索引的各种类型

索引是数据库存储引擎用于快速查找到指定数据的一种数据结构。可以用新华字典做类比：如果新华字典中对每个字的详细解释是数据库中表的记录，那么按部首或拼音等排序的目录就是索引，使用它可以让我们快速查找的某一个字详细解释的位置。在MySQL中，存储引擎也是用了类似

silencehgt 2020-09-07

MySQL 数据库如何解决高并发问题

我们都知道初创公司一开始都是以单体应用为首要架构，一般都是单体单库的形式。但是版本以及版本的迭代，数据库需要承受更多的高并发已经成了架构设计需要考虑的点。高并发的情况下，可以将多个请求的查询合在一次进行，以减少对数据库的访问速度。我们都知道，只要数据库

sunnyxuebuhui 2020-09-07

MySQL 千万级数据量如何快速分页

后端开发中为了防止一次性加载太多数据导致内存、磁盘IO都开销过大，经常需要分页展示，这个时候就需要用到MySQL的LIMIT关键字。但你以为LIMIT分页就万事大吉了么，Too young,too simple啊，LIMIT在数据量大的时候极可能造成的一个

西瓜皮儿的皮儿 2020-09-07

MongoDB通配符索引的用法实例

MongoDB在4.2 版本推出了Wildcard Indexes，究竟什么是Wildcard Indexes以及Wildcard Indexes适合哪些场景本文结合官方文档以及实际测试进行简单概述。因为MongoDB是dynamic schemas，所以

LuckyLXG 5评论 2020-09-08

django 对接elasticsearch实现全文检索

# python manage.py rebuild_index #数据库有多少条数据，全部会被同步到es中。object = BookSerializer # 只读,不可以进行反序列化。fields = # text 由索引类进行返回, object

明瞳 2020-08-19

msyql索引篇

官方介绍索引是帮助MySQL高效获取数据的数据结构。更通俗的说，数据库索引好比是一本书前面的目录，能加快数据库的查询速度。我们通常所说的索引，包括聚集索引、覆盖索引、组合索引、前缀索引、唯一索引等，没有特别说明，默认都是使用B+树结构组织的索引。可以提高数

MissFuTT 2020-08-18

Pandas

可以使用中括号取单个索引，或者中括号里一个列表取多个索引。使得两个Series进行相加。可以使用pd.isnull()，pd.notnull()，或s.isnull(),notnull()函数检测缺失数据。DataFrame由按一定顺序排列的多列数据组成。

jzlixiao 2020-08-18

浅析MongoDB 全文检索

全文检索对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。MongoDB 从 2.4 版本开始支持全文检索，目前支

zhushenghan 2020-08-16

oracle数据库关于索引建立及使用的详细介绍

罗罗 2020-08-16

MySQL索引的基本语法

索引是排好序的数据结构！可以用在 where 条件查找的字段，和order by 排序的字段，有了索引，便可以快速地定位数据所在的物理地址并找出来。ALTER TABLE 表名 ADD INDEX 索引名 ;ALTER TABLE 表名 DROP INDE

mrandy 2020-08-15

MySQL数据库查询性能优化策略

Explain 用来分析 SELECT 查询语句，开发人员可以通过分析 Explain 结果来优化查询语句。MySQL可以为多个字段创建索引,一个索引可以包括16个字段,只有查询条件中使用这些字段中的第一个字段时,索引才会被使用.子查询虽然可以使查询语句更

houdaxiami 2020-08-15

关于mysql自增id，你需要知道的

本篇文章将以问答的形式讲述关于自增id的一切。这就要求同一个叶子节点内的各条数据记录按主键顺序存放，因此每当有一条新的记录插入时，MySQL会根据其主键将其插入适当的节点和位置，如果页面达到装载因子，则开辟一个新的页（节点）。自增id是增长的不一定连续。

抱抱熊 2020-08-15

安科网

Lucene的学习

编码之路

编码之路

相关推荐

MySQL数据类型优化原则

MySql索引使用策略分析

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

MyISAM与InnoDB索引实现对比详解

万能Python的秘诀：操纵数据的内置工具

Uber为什么放弃Postgres选择迁移到MySQL？

导致MySQL索引失效的一些常见写法总结

MySQL索引的各种类型

MySQL 数据库如何解决高并发问题

MySQL 千万级数据量如何快速分页

MongoDB通配符索引的用法实例

django 对接elasticsearch实现全文检索

msyql索引篇

Pandas

浅析MongoDB 全文检索

oracle数据库关于索引建立及使用的详细介绍

MySQL索引的基本语法

MySQL数据库查询性能优化策略

关于mysql自增id，你需要知道的

编码之路