lucene---GROUP BY、DISTINCT

itfafa

2011-07-27

在2010年的时候，写过两篇关于LUCENE高性能GROUPBY、DISTINCT的文章，最近在研究LUCENE的过程中发现了一个名为FieldCache的东东，于是乎重新改进Lucene高性能GROUPBY、DISTINCT，发现性能有了数量级别的提升，究竟是因为啥让它有了如此之高的性能提升呢？下面我就来为大家揭开这个谜团！

FieldCache是啥？

我们知道，如果对每一个文档号都用reader读取域的值会影响速度，所以Lucene引入了FieldCache来进行缓存，而FieldCache并非在存储域中读取，而是在索引域中读取，从而

不必构造Document对象，然而要求此索引域是不分词的，有且只有一个Token。

讲到这里，我们似乎知道了一些东西，那就是，索引进LUCENE中数据至少会在两个地方有相关的存储，一个就是存储域，一个就是索引域。

即然FieldCache说它是从索引域中读取，速度相对从存储域读取肯定快，为什么不用它呢？

说干就干，经过一番折腾，得到下面的测试结果：

环境：对100W条数据量，取出其中要分组的字段，当然这个字段是不分词索引进去的

第一种方式：从Term区域读取

ViewCode

Dictionary<int,object>dictionary=newDictionary<int,object>();

TermstartTerm=newTerm("CompanyID");

TermEnumte=indexReader.Terms(startTerm);

if(te!=null)

{

TermcurrTerm=te.Term();

while((currTerm!=null)&&(currTerm.Field()==startTerm.Field()))//termfieldnamesareinterned

{

//if(te.DocFreq()>1)

//{

TermDocstd=indexReader.TermDocs(currTerm);

while(td.Next())

{

dictionary.Add(td.Doc(),currTerm.Text());

}

//}

if(!te.Next())

{

break;

}

currTerm=te.Term();

}

}

取出100W个CompanyID耗时：共耗时20.9291356秒

第二种方式：从FieldCache中读取

ViewCode

StringIndexstringIndex=FieldCache_Fields.DEFAULT.GetStringIndex(indexReader,"CompanyID");

取出100W个CompanyID耗时：共耗时2.8249935秒

补充：StringIndex有两个属性：lookup、order

string[]lookup：按照字典顺序排列的所有term

int[]order：其中位置表中文档号，order[i]表示第i个document某个field包含的term在lookup中的位置

获取docid对应的term的值：termValue=lookup[order[doc]]

两者性能一目了然，我也不多说了，快去试试吧！

最后当然也不忘了说一句，如果你的数据量是千万级别或上亿了，那你必须得考虑分布式计算、并行计算这一类的计术了，呵呵。

[by:http://www.cnblogs.com/zengen/archive/2011/04/19/2020681.html]

distinct lucene 索引

itfafa

0 关注 0 粉丝 0 动态

相关推荐

SQL初级（一）SQL简介、语法、SELECT语句、SELECT DISTINCT语句

　　一个数据库通常包含一个或多个表。每个表有一个名字标识。表包含带有数据的记录（行）。　　在数据库上执行的大部分工作都是由SQL语句完成。　　在表中选取列的数据——>　　SELECT Lastname(列名) FROM persons（表名）; 《

鲁氏汤包王 2020-05-06

SQL优化之正确去重

　　在重复量比较高的表中，使用DISTINCT可以有效提高查询效率，而在重复量比较低的表中，使用DISTINCT会严重降低查询效率。

tanrong 2020-03-08

python| MongoDB聚合(count、distinct、group、MapReduce)

增加查询条件会使count查询变慢。initial：每一组reduce函数调用时作为第二个参数传递给reduce函数的初始文档，每一组的所有成员都会使用这个累加器，所以改变会被保留住。group和MapReduce对比示例：查询相同年龄人的名字。

yogoma 2020-01-10

Lc176-第二高的薪水

--排序后用limit找到第二条数据。--ifnull函数为了观看直观并且拼凑null的情况。--distinct为了避免相同工资都参与排序的情况

tangjianft 2020-01-03

MySQL DISTINCT 的基本实现原理详解

DISTINCT 实际上和 GROUP BY 操作的实现非常相似，只不过是在 GROUP BY 之后的每组中只取出一条记录而已。所以，DISTINCT 的实现和 GROUP BY 的实现也基本差不多，没有太大的区别。同样可以通过松散索引扫描或者是紧凑索引扫

sanzhongzhifu 2019-07-11

hive 多字段同时count(distinct)优化

count(distinct case when login_date>='2012-05-01' and login_date<='2012-05-09' and apptype

李双喆 2012-05-18

hibernate distinct 分页

.createSQLQuery.uniqueResult()));//这块我再想session是否关闭的问题

yangguirong 2011-12-26

Hibernate用Criteria查询时使用Distinct方法去除重复数据

[hibernate]Hibernate用Criteria查询时使用Distinct方法去除重复数据发起投票 | 删除 //片段代码。criteria.add; //join 查询，出现重复数据

nameFay 2010-05-11

dba_source dba_views oracle

oracle要点记录。Select Distinct Type From dba_source. Select * From dba_views

ginwafts 2012-02-01

oracle常用分析函数与聚合函数的用法

今天是2019年第一天，在此祝大家新年快乐，梦想还在路上，让我们继续加油！应之前的计划，今天完成这篇记录，也借此记录自己的成长。rank() 是排名的函数，该函数组内排序后会进行跳号，分数相同的作为并列。row_number() 可以通过over 根据某字

异道 2019-01-07

mysql distinct 去重、group by 用法解析（详细）

在使用mysql时，有时需要查询出某个字段不重复的记录，虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条，但往往只用它来返回不重复记录的条数，而不是用它来返回不重记录的所有值。其原因是 distinct只能返回它的目标字段，

hyfound 2018-07-14

关于mysql数据库中distinct，concat，ifnull的使用讲解

查询出被搜索词被搜索的次数，有多少用户搜索了这个词，这个词被移动端搜索了多少次，被PC端搜索了多少次，按照这个次被搜索的次数的倒序进行排列。根据user_ip和session_id判断是否是一个用户时先将这两个的值合到一起，因为数据中有session_id

ztyzly00 2018-03-22

SQL SELECT DISTINCT 语句

SELECT DISTINCT 语句用于返回唯一不同的值。在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同的值。在这里我们将使用 RUNOOB 样本数据库。如您还有不明白的可以在下面与我留言或是与我探讨QQ群308855039，我们一起飞！

wenjieyatou 2016-09-28

Hive 处理count distinct 产生数据倾斜处理

问题描述问题数据倾斜范畴，但是又不可以在Map端join，剔除特殊Key等方法进行处理。grouping setsBut error find. FAILED: SemanticException [Error 10022]: DISTINCT on di

springqingchun 2016-01-25

Oracle数据库使用distinct多个字段

distinct多个字段，当然相同的功能也可用group by 完成select a,b,c,min d from Agroup by a,b,c. 通过使用 group就可以出去相同的返回结果。二者效率，最好需要哪个的时候用哪个，group by是用来分

数据库笔记 2014-03-11

Linux下Shell脚本与Oracle交互脚本

wc -l 7*.txt. . ~/.bash_profile

onetozero 2011-02-24

Oracle中去重复+排序

在数据库的一张表里面对根据表中的某一字段进行去重复并对剩下的数据根据另外一个字段排序，insert into TEST_DISTINCT values;insert into TEST_DISTINCT values;insert into TEST_DI

teamojiao 2013-06-09

Oracle中去重复记录不用distinct

用distinct关键字只能过滤查询字段中所有记录相同的，而如果要指定一个字段却没有效果，另外distinct关键字会排序，效率很低。select distinct id,name from t1 可以取多个字段，但只能消除这2个字段值全部相同的记录。所

bianxq 2012-11-13

MySQL内部临时表策略

通过对MySQL数据库源码的跟踪和调试，以及参考MySQL官方文档，对MySQL内部临时表使用策略进行整理，以便于更加深入的理解。

hwj 2012-08-09

MySQL关键字Distinct的详细介绍

create table test(id bigint not null primary key auto_increment,insert into testvalues;查询数据如下图所示：

爱雨轩 2019-04-16

itfafa

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号