Solr 3.5 suggest autocomplete

一切依旧

2012-02-20

上一步 () , 已经配置好了 Solr3.5 和 mmseg4j 分词 , 接下来配置 Solr3.5 的 suggest 来实现 autocomplete(搜索自动提示补全功能)

输入提示 , 分为两种 : 单词提示 , 短语提示

单词提示 , 使用的字段类型 , 分析过滤配置如下 :

<fieldType class="solr.TextField" name="text_auto" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>

</fieldType>

短语提示 , 使用的字段类型 , 分析过滤配置如下 :

<fieldType class="solr.TextField" name="text_auto">
<analyzer>
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>

</fieldType>

我这里用的是短语提示 , 把上面的配置文件 , 拷贝到 schema.xml 文件的 types 节点里。

然后在 schema.xml 文件的 fields 节点里 , 新建一个索引字段 , 使用上面的短语提示[ text_auto ]

如果我们需要对一个 "关键词" 同时查询多个列 , 那么我们可以使用 CopyField 进行列的合并 , 如下 :

source 是要拷贝的字段 , dest 是要合并到的字段 , maxChars 是字数限制

更多关于 schema.xml 里的配置信息 , 请查阅 http://wiki.apache.org/solr/SchemaXml

接下来 , 添加 suggest 的查询接口 , 在 solrconfig.xml 文件里 , 添加如下

<lstname="spellchecker">

<strname="name">suggest</str>

<strname="classname">org.apache.solr.spelling.suggest.Suggester</str>

<strname="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str>

<strname="field">text_autocomplete</str>

</lst>

</searchComponent>

<requestHandlername="/suggest"class="org.apache.solr.handler.component.SearchHandler">

<lstname="defaults">

<strname="spellcheck">true</str>

<strname="spellcheck.dictionary">suggest</str>

<strname="spellcheck.count">10</str>

</lst>

<arrname="components">

<str>suggest</str>

</arr>

</requestHandler>

searchComponent 是一个拼写检查的组件 , 里面定义的属性信息包括 :

name 当前组件的名称

classname 拼写检查使用的类名

lookupImpl 绑定这个搜索的对象，目前有两个类可以使用-JasperLookup、TSTLookup，第二个效率更高

field 是 schema.xml 里的字段名

requestHandler 是查询接口 , 在 url 里访问使用的。

到这里 , 我们的suggest配置已经完成了, 接下来重启 Apache , 刚配置好事查不出任何数据的 , 已经创建好的索引里没有刚配置的索引 , 这时候需要重新生成索引文件 , 把新配置的索引给生成数据 , 我的索引是连接的 mysql 数据库创建的 , 那么我需要重新导入一下数据 , 访问 dataimport?command=full-import , 需要访问两次 , 如果还是不行 , 则把 webapps\solr\conf\multicore\core0\conf 目录下的 dataimport.properties 文件删掉 , 重新访问导入数据试试看。

这时候可以访问 select?q=*:* 来查询所有的索引数据 , 看看新配置的索引是否已经启用 , 如果没有新配置的索引 , 则重新执行导入数据创建索引。

重新生成索引成功以后 , 我们访问 /suggest?spellcheck.build=true 对查询组件建立索引,

然后访问 /suggest?q=har 进行查询 , har 是查询的词语 , 如果查询不出来数据 , 访问 /suggest?spellcheck.build=true&q=har 。

如果一切配置正常 , 此时会查询出数据 , 但是仅仅是匹配查询可以了 , 并没有返回相近词、匹配结果数等、

----------------------------------------------------------------

在 suggest 的基础上 , 如果我们采用 facet的方式 , 则可以匹配查询 , 还带有匹配查询的单结果数量 , 如下访问

select?spellcheck.build=true&rows=0&q=*:*&facet=true&facet.field=text_autocomplete&facet.mincount=1&facet.prefix=hear

注意 , 这里用的是 select 接口 , 而不是 suggest 接口 , 这里的访问URL需要替换的是 :

facet.field 是 schema.xml 里的配置字段

facet.prefix 是查询的关键字或短语

facet 的方式相对于 suggest 的方式性能上差些。