elasticsearch filter bitset

hu00sdu

2014-12-03

关注关注

关于elasticsearch filter bitset的全部

在使用ES进行查询时，你常常会发现自己深深地陷入了过滤器的各种复合中。假设你需要过滤满足下面要求的用户：

bitset

首先需要看看bitset如何工作的。基本上，bitset是一个表示状态的列表。每个位置非0即1.

过滤器不对文档打分——仅仅是包含或者拒绝。如果文档匹配了一个过滤器，则在bitset中会置成1；否则置为0.于是ES就可以在一个紧致的bitset中存储整个分段的过滤信息。

ES第一次执行过滤器时，他解析了Lucene的分段数据结构来判断哪些东西匹配了你的过滤器。而且会将这个信息存放在一个Bitset中。
下次同样的过滤器执行时，ES可以找到压缩后的Bitset而不是Lucene分段。这将带来性能的巨大提升。

我喜欢bitset的原因

怎么说bitset快都不为过

按bit进行操作是一个基础的计算单元，CPU专门设计为按照按bit操作的。执行一个内存中的按位AND比解析Lucene数据结构和手动地执行交集操作要快好几个数量级。

拥有多个过滤器时，可以进行AND操作来获得最终匹配的文档。

更好的是，bitset独立于查询本身进行cache。复杂的查询可以用一堆过滤器，但是这些过滤器bitset是独立的并且可以在其他的上下文环境中进行使用。这就使得ES重用过滤器非常高效。

而且因为bitset针对每个segment进行存储，ES可以做出一些非常酷的性能技巧。Lucene分段是不可变的——一旦写入磁盘，便永不改变

如果一个特定的过滤器不匹配一个分段中的任何文档（bitset中所有位置都是0），ES可以在其执行过滤操作时忽略整个bitset。

类似的，当新的分段被加进来时，缓存的过滤bitset不需要被关闭。如果你索引新的文档进入一个mysql表，例如B-Tree索引是不断地进行更新的。

使用ES过滤器缓存，只有新创建的分段需要构建过滤器bitset，老的bitset可以不需要修改进行重用。

boolean 还是 and/or/not

“可是这跟我有啥关系呢？”你也许会问。

当然重要了，因为bool过滤器使用了Bitset而and/or/not过滤器没有／如果你将一个term过滤器放入一个and中，尽管它存在，也不会用到Bitset。

为什么？

and/or/not是一个文档一个文档进行的。首先会载入需要放入field数据内存池中，然后对这些文档进行遍历。不会有bitset被使用，也就不会有缓存的过滤器重用复合了。ES简单地扫描文档的列表，并独立地检查每个。

如果你有多个过滤器，and/or/not将进行短路操作，只会传递匹配的文档进入下一个过滤器。

这个会降低每个后续的需要执行的过滤器工作量。因此，你最重的过滤器应该放到最后位置——典型例子是Geo过滤因为他们会进行相当重的计算来确定距离。

什么时候使用and/or/not

看起来Bool过滤器在任何方面都超过了对手，那么有没有什么时候需要使用and/or/not呢？

and/or/not在你使用哪些不返回bitset的过滤器时更有效率。这些操作肯定需要对每个文档进行一遍。例如，定制的script不是可以bitset化，因为它对每个文档进行计算。

在这些情形下，and/or/not是比bool更好的选择。Non-Bitset过滤器非常少，下面列出来：

Geo* filter
Scripts
Numeric_range

其他的过滤器都应该放在一个bool中

把bool和and/or/not结合起来

当你遇到需要用到这两者的情形时，可以将他们合起来使用。总是使用一个and/or/not整合起来。例如，你有这样的数据：

Gender: Male
Age: 23-26
Language: English
Custom Script
Geo

你过滤器列表看起来就是这样：

{
  "and" : [
    {
      "bool" : {
        "must" : [
          { "term" : {} },
          { "range" : {} },
          { "term" : {} }
        ]
      }
    },
    { "custom_script" : {} },
    { "geo_distance" : {} }
  ]
}

总结

过滤器让我们可以找到想要的文档，通过使用bitset操作来代替简单的排除操作来提高查询性能。当我们整合过滤器时，确保你花了时间来考虑如何组织他们来使用合适的聚合过滤器的类：

Geo, Script or Numeric_range filter: Use And/Or/Not Filters
Everything else: Use Bool Filter

from http://www.jianshu.com/p/627a4459975d

bitset elasticsearch filter过滤器

安科网

elasticsearch filter bitset

hu00sdu

关于elasticsearch filter bitset的全部

bitset

我喜欢bitset的原因

boolean 还是 and/or/not

什么时候使用and/or/not

把bool和and/or/not结合起来

总结

hu00sdu

相关推荐

elasticsearch filter bitset

Set and bitset

bitset用法小结

2018.3.13校内互测总结-生成函数-bitset-二次剩余

C++标准库bitset类型(简单使用方法)

hu00sdu