Solr 3.5 suggest autocomplete

上一步 ()  , 已经配置好了  Solr3.5 和 mmseg4j 分词 , 接下来配置 Solr3.5 的 suggest 来实现 autocomplete(搜索自动提示补全功能)

输入提示 , 分为两种 :  单词提示 , 短语提示

单词提示 , 使用的  字段类型 , 分析过滤配置如下 :

<fieldType class="solr.TextField" name="text_auto" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>

</fieldType>

短语提示 , 使用的  字段类型 , 分析过滤配置如下 :

<fieldType class="solr.TextField" name="text_auto">
<analyzer>
<tokenizer class="solr.KeywordTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>

</fieldType>

 

我这里用的是 短语提示 ,  把上面的配置文件 , 拷贝到  schema.xml  文件的  types  节点里 。

然后在 schema.xml  文件的 fields  节点里 , 新建一个索引字段 , 使用上面的  短语提示[ text_auto ]

<field name="text_autocomplete" type="text_auto" indexed="true" stored="true" multiValued="true" />

如果我们需要对一个 "关键词"  同时查询多个列 , 那么我们可以使用  CopyField 进行列的合并 , 如下 :

<copyField source="text" dest="text_autocomplete" maxChars="300" />

source  是要拷贝的字段  ,  dest 是要合并到的字段 , maxChars 是字数限制

更多关于  schema.xml 里的配置信息 , 请查阅 http://wiki.apache.org/solr/SchemaXml   

接下来 , 添加 suggest 的查询接口 , 在 solrconfig.xml 文件里 , 添加如下

<searchComponent name="suggest" class="solr.SpellCheckComponent">

<lstname="spellchecker">

<strname="name">suggest</str>

<strname="classname">org.apache.solr.spelling.suggest.Suggester</str>

<strname="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str>

<strname="field">text_autocomplete</str>

</lst>

</searchComponent>

<requestHandlername="/suggest"class="org.apache.solr.handler.component.SearchHandler">

<lstname="defaults">

<strname="spellcheck">true</str>

<strname="spellcheck.dictionary">suggest</str>

<strname="spellcheck.count">10</str>

</lst>

<arrname="components">

<str>suggest</str>

</arr>

    </requestHandler>

searchComponent 是一个 拼写检查的组件 , 里面定义的属性信息包括 :

name   当前组件的名称

classname  拼写检查使用的类名

lookupImpl   绑定这个搜索的对象,目前有两个类可以使用-JasperLookup、TSTLookup,第二个效率更高

field  是 schema.xml 里的字段名

requestHandler 是查询接口 , 在 url 里访问使用的 。

到这里 , 我们的suggest配置已经完成了, 接下来重启 Apache , 刚配置好事查不出任何数据的 , 已经创建好的索引里没有刚配置的索引 , 这时候需要重新生成索引文件 , 把新配置的索引给生成数据 , 我的索引是 连接的  mysql 数据库创建的 , 那么我需要重新导入一下数据 , 访问 dataimport?command=full-import  , 需要访问两次 , 如果还是不行 , 则把 webapps\solr\conf\multicore\core0\conf 目录下的 dataimport.properties 文件删掉 , 重新访问导入数据试试看 。

这时候可以访问  select?q=*:* 来查询所有的索引数据 , 看看新配置的索引是否已经启用 , 如果没有新配置的索引 , 则重新执行导入数据创建索引 。

重新生成索引成功以后 , 我们访问   /suggest?spellcheck.build=true  对查询组件建立索引,

然后访问  /suggest?q=har 进行查询 , har 是查询的词语 , 如果查询不出来数据 , 访问  /suggest?spellcheck.build=true&q=har 。

如果一切配置正常 , 此时会查询出数据 , 但是 仅仅是匹配查询可以了 , 并没有返回 相近词、匹配结果数等、

----------------------------------------------------------------

在 suggest 的基础上 , 如果我们采用 facet的方式 , 则可以匹配查询 , 还带有匹配查询的单结果数量 , 如下访问

select?spellcheck.build=true&rows=0&q=*:*&facet=true&facet.field=text_autocomplete&facet.mincount=1&facet.prefix=hear

注意 , 这里用的是 select 接口 , 而不是 suggest 接口 , 这里的访问URL需要替换的是 :

facet.field  是 schema.xml 里的配置字段

facet.prefix 是查询的关键字 或 短语

facet 的方式相对于 suggest 的方式性能上差些 。