solr中使用IKAnalyzer配置同义词，停止词，扩展词

wenchanter

2019-06-21

环境如下：
solr4.7
IKAnalyzer2012FF_u1

配置同义词

第一步 将IKAnalyzer2012FF_u1放到solr-4.7.2/example/solr-webapp/webapp/WEB-INF/lib 目录下
第二步 修改schema.xlm文件
如下：

<fieldType name="text_ik" class="solr.TextField">   
        <analyzer type="query" >
          <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerTokenizerFactory" useSmart="false"/>
          <filter class="solr.LowerCaseFilterFactory"/>
          <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
        </analyzer>
      <analyzer type="index">
          <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerTokenizerFactory" useSmart="false"/>
          <filter class="solr.LowerCaseFilterFactory"/>
          <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
      </analyzer> 
    </fieldType>

使用IKAnalyzer2012FF_u1的小伙伴可能要不开心了，报错了！“插件初始化失败”（自行对应english），
聪明一点的小伙伴要骂人了，他解压IKAnalyzer2012FF_u1文件到C:UsersAsusDesktopIKAnalyzer2012FF_u1orgwlteaanalyzerlucene目录发现没有IKAnalyzerTokenizerFactory。

没有就对了，官方的包就没有。
我来讲讲：
在没使用同义词之前大家的schema.xlm文件是这样的（分词器由analyzer标签包裹）：

<fieldType name="text_ik" class="solr.TextField">   
         <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> 
    </fieldType>

如果要写成最上面的那种格式使用<tokenizer>标签包裹分词器的话，就需要用到继承了TokenizerFactory类的子类。
大家可以写一个TokenizerFactory类编译后重新打包。
TokenizerFactory类网上有很多一搜及到，但是我不会编译后重新打包。因为这个类需要导包，希望大家能分享我一篇关于编译需要导包的java文件的文章学习学习。
所以，我跋山涉水找到了加入TokenizerFactory的jar包。花了我三个积分呢，在这里我分享给大家镇文之宝。
链接: https://pan.baidu.com/s/1hsqZ7Go 密码: f39q

废两句话：

1.tokenizer标签就是分词器的意思，里面需要包裹分词器。
2.schema.xml里面<tokenizer>标签默认用的是WhitespaceTokenizerFactory，
就是根据空格来分词，但是中文词汇不是用空格隔开所以才有了中文分词器。

第三步 新建synonyms.txt文件，放在con目录下，保存同义词的字典格式如下

什么 => 啥
啥 => 什么

或者

什么,啥（逗号是英文格式下的）

注意：synonyms.txt文件写完必须另存为选择utf-8编码。

配置停止词和扩展词

停止词 的功能是过滤，把“啊”加入到停止词的字典里，比如搜索“你好啊”，solr会过滤掉“啊”，以“你好”去搜索。应该叫过滤词才好。

扩展词 的功能是强制让扩展词字典里的词不被中文分词器分开，叫它自定义词也好理解。

第一步 将IKAnalyzer.cfg.xml和stopword.dic以及ext.dic放到
webapp/WEB-INF/classes目录下，没有classes就新建。

stopword.dic是停止词的字典。里面写的是需要过滤的词或字。
ext.dic是扩展词的字典。里面写的是需要过滤的词或字。

第二步 编写三个文件， IKAnalyzer.cfg.xml的内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典     -->
    <entry key="ext_dict">ext.dic;</entry> 

    <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">stopword.dic;</entry> 
    
</properties>

注意：两个dic文件必须是utf-8编码保存，第一行空出来，第二行开始写，之后每行只写一个词或字。

同义词 solr 分词 ikanalyzer

安科网

solr中使用IKAnalyzer配置同义词，停止词，扩展词

wenchanter

配置同义词

配置停止词和扩展词

wenchanter

相关推荐

python同义词替换的实现（jieba分词）

oracle同义词创建（synonym）

搜索引擎是如何处理同义词？

Oracle synonym 同义词创建与删除

wordnet数据文件整理小结

oracle中private同义词和public同义词

Oracle数据库对象_同义词

Oracle同义词+dblink的实际应用

Oracle如何通过同义词定位对象

Oracle同义词创建及其作用

使用datapump 导出导入同义词(export and import synonym using

Oracle创建dblink和同义词小记

Oracle同义词的创建与删除

Oracle 同义词synonym 学习

Oracle其他数据对象-同义词

Oracle数据库常见对象—索引和同义词

Oracle中视图和同义词的区别

Oracle同义词与数据库dblink

Oracle PL/SQL编程有关的数据库对象

Oracle中的概念：同义词、序列与视图

wenchanter