Lucene的score打分策略的问题

oklinsong

2012-04-06

这段时间在项目中我们在使用lucene的时候发现一个问题，例如：

有两个索引域的内容为：新浪微博spring、新浪微博，当我输入"新浪微博"进行搜索的时候，按照lucene的score计算公式，新浪微博的值应该要高，但是实际上两个值却是一样。通过分析源代码发现问题出现的原因是：

lucene在计算lengNorm的时候本身没有错，但是它对lengNorm进行了编码，结果转码的时候会出现错误，比如计算出来的lengNorm为0.4472136，可是经过它内部的编码解码后值却变成了：0.4375，导致计算出来的score值出现误差，代码为NormsWriterPerField类中：

if (fieldInfo.isIndexed && !fieldInfo.omitNorms) {
      if (docIDs.length <= upto) {
        assert docIDs.length == upto;
        docIDs = ArrayUtil.grow(docIDs, 1+upto);
        norms = ArrayUtil.grow(norms, 1+upto);
      }
      final float norm = docState.similarity.computeNorm(fieldInfo.name, fieldState);
      norms[upto] = Similarity.encodeNorm(norm);
      docIDs[upto] = docState.docID;
      upto++;
    }

编码解码代码为Similarity类中：

/** Cache of decoded bytes. */
  private static final float[] NORM_TABLE = new float[256];

  static {
    for (int i = 0; i < 256; i++)
      NORM_TABLE[i] = SmallFloat.byte315ToFloat((byte)i);
  }
  /** Decodes a normalization factor stored in an index.
   * @see #encodeNorm(float)
   */
  public static float decodeNorm(byte b) {
    return NORM_TABLE[b & 0xFF];  // & 0xFF maps negative bytes to positive above 127
  }
  public static byte encodeNorm(float f) {
    return SmallFloat.floatToByte315(f);
  }

我想lucene的作者不会犯这种低级错误吧，应该是故意这样设计的吧，至于原因，目前还在分析中。。。。。

**********************************分界线×××××××××××××××××××××××

原因是因为作者将编码后的lengthNorm值转化成一个byte，而一个float是四个字节，导致了数据的准确性。作者这样设计估计是为了在保证不影响正常功能的情况下尽可能的提高性能吧。

lucene

安科网

Lucene的score打分策略的问题

oklinsong

oklinsong

相关推荐

十张图说清Elasticsearch原理！

MAC OS 10.15 Lucene 源码分析环境搭建

由于Elasticsearch是在 Lucene 基础上构建

Spring Boot 教程 - Elasticsearch

全文搜索Lucene之倒排索引

Elasticsearch用得好，下班下得早！

Elasticsearch对垒8大竞品技术，孰优孰劣？

1.elasticsearch单节点部署

lucene和Elasticsearch

ES索引的一些长度限制

Lucene

lucene&solr全文检索_7solr后台界面的介绍

lucene&solr全文检索_3查询索引

Lucene、Solr、ElasticSearch、hibernate-search四部曲

ElasticSearch

《从Lucene到Elasticsearch全文检索实战》的P184页

es lucene搜索及聚合流程源码分析

Net Core使用Lucene.Net和盘古分词器实现全文检索

Solr与JDK对应版本关系，Tomcat与JDK版本对应关系

全文检索Lucene

oklinsong