翻译：Lucene Similarity (Lucene 文档评分score机制详解)[转]

xiaoxiaoabc

2010-07-21

关注关注

2008-11-28 19:09

文档的分值代表了该文档在特定查询词下对应的相关性高低，他关联着信息检索向量空间模型中的向量夹角的接近度。一个文档越与查询词相关，得分越高。分值计算公式如下：

score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) )

tinq

其中

tf(t in d)

这个值衡量着Term在文档中出现的频率，也就是词频。关键词在文档中出现的次数越多，得分越高，这个值在DefaultSimilarity的计算公式如下(词频的平方根)：tf(t in d) = frequency½

idf(t)

代表着该词的逆词频，这个值衡量了该词在整个文档库中出现的频度。这意味着，一个词出现的越少，根据香农的信息公示，他越珍稀。同时将贡献更多的分值给总分值。默认的计算公式如下(其中numDocs代表整个文档的数量，docFreq代表了含有Term t的文档数量)：

numDocs

idf(t)=1+log(–––––––––)

docFreq+1

coord(q,d)

这个分值衡量了文档中含有多少Term。文档中出现的越多，越全，将获得越高的分值。举个例来说，查询“lucene”和"Apache"，同时出现两个Term的肯定比只出现一个lucene或者Apache的分值高。这个值是搜索时动态计算的，默认的计算公式如下：

coord(q,d) = overlap / maxOverlap

queryNorm(q)

这个标准化因子用于在多个查询器中进行比较。它并不影响文档的排名。它的主要作用在于多个查询器返回的结果进行比较，甚至是结果来自多个索引时。这是搜索时的权重因子，当给查询器设置权重时就是通过这个因子进行影响的。默认的实现公式如下：

queryNorm(q)=queryNorm(sumOfSquaredWeights)=––––––––––––––

sumOfSquaredWeights½

其中的sumOfSquaredWeights的计算公式如下：（可以清晰的看到获取query的boost，当没给查询器设置值时，默认为1，不起作用）

sumOfSquaredWeights=q.getBoost()2·∑(idf(t)·t.getBoost())2

t in q

t.getBoost()

该值是一个搜索时权重因子，可以在查询时给不同的Term设置不同的权重，可以通过lucene语法（具体参见我翻译的另外一篇文章：hi.baidu.com/expertsearch/blog/item/8d4f7d355a2e413c5ab5f547.html），也可以通过setBost()函数，注意，在多Term查询器中，是没有获取单一Term权重的函数的，所以如果需要获取，只能调用相应的子查询器函数的getBoost()函数。

norm(t,d)

封装了一些索引时因子以及长度因子。

Documentboost-在索引时，添加到Index前可以通过doc.setBoost()设置，衡量了Document的重要程度。.

Fieldboost-在将字段加入到文档前可以通过调用field.setBoost()来设置字段的权重。

lengthNorm(field) - 该值在将文档添加到索引时，根据所有文档中特定字段的Term数来计算。所以默认更短的字段将贡献更多的分值。

lengthNorm(field)=––––––––––––––

numTerms½

当文档加入索引时，以上因子将相乘，如果一个文档中有多个同名的字段，那么将多个多同的权重也相乘。

norm(t,d)=doc.getBoost()·lengthNorm(field)·∏f.getBoost()

field f in d named as t

可是还有件值得注意的事情，这个值在索引时计算完毕后将编码为一个Byte存储起来，在搜索时，再从文件中读取出该值并解码成float。在这个过程中，可能会造成精度的缺失，并不能保证decode(encode(x)) = x，比如，有可能decode(encode(0.89)) = 0.75，同样值得注意的是，在搜索时改变此值已经太晚了。例如，用一个不同于DefaultSimilarity的实现。

安科网

翻译：Lucene Similarity (Lucene 文档评分score机制详解)[转]

xiaoxiaoabc

xiaoxiaoabc

相关推荐

十张图说清Elasticsearch原理！

MAC OS 10.15 Lucene 源码分析环境搭建

由于Elasticsearch是在 Lucene 基础上构建

Spring Boot 教程 - Elasticsearch

全文搜索Lucene之倒排索引

Elasticsearch用得好，下班下得早！

Elasticsearch对垒8大竞品技术，孰优孰劣？

1.elasticsearch单节点部署

lucene和Elasticsearch

ES索引的一些长度限制

Lucene

lucene&solr全文检索_7solr后台界面的介绍

lucene&solr全文检索_3查询索引

Lucene、Solr、ElasticSearch、hibernate-search四部曲

ElasticSearch

《从Lucene到Elasticsearch全文检索实战》的P184页

es lucene搜索及聚合流程源码分析

Net Core使用Lucene.Net和盘古分词器实现全文检索

Solr与JDK对应版本关系，Tomcat与JDK版本对应关系

全文检索Lucene

xiaoxiaoabc