Solr集成IKAnalyzer中文分词器

tyl

2019-06-27

前言

IK Analyzer 2012 FF版本（即For 4.0），在API和功能上保持不变，只是让其支持了Lucene4.0和Solr4.0，让这部分的用户能用起来。
如果你还是Lucene3.2-3.6的用户，那么你只需要下载IK Analyzer 2012 U6版本。因为FF版本的API与3.x是不兼容的。

【IK Analyzer 安装包包含】：

《IKAnalyzer 中文分词器 V2012 使用手册》（即本文档）
IKAnalyzer2012.jar（主 jar 包）
IKAnalyzer.cfg.xml（分词器扩展配置文件）
stopword.dic（停止词典）
LICENSE.TXT ; NOTICE.TXT （apache 版权申明）

它的安装部署十分简单，将 IKAnalyzer2012.jar 部署于项目的lib目录中；IKAnalyzer.cfg.xml 与 stopword.dic 文件放置在 class 根目录（对于 web 项目，通常是WEB-INF/classes 目录，同 hibernate、log4j 等配置文件相同）下即可。

1. 下载安装

最新版本：IK Analyzer 2012

# 一定要下载FF版本，因为使用的是solr4.0以上版本
$ wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20Analyzer%202012FF_hf1.zip

#解压到IK2012目录中，并且不覆盖相同文件
$ unzip -n IKAnalyzer2012_u6.zip -d IK2012

#拷贝jar包到tomcat下solr的工程目录中
$ cp IK2012/IKAnalyzer2012FF_u1.jar /opt/tomcat-8.5.31/webapps/solr/WEB-INF/lib/

#创建classes文件夹
$ mkdir /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes

# 拷贝IKAnalyzer.cfg.xml和stopword.dic到classes文件夹下
$ cp IKAnalyzer.cfg.xml /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/
$ cp stopword.dic /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/

2. 修改配置

修改solr core中schema文件，默认位置：

$ vim /opt/solr-4.10.3/example/solr/collection1/conf/schema.xml

添加如下配置：

<fieldType name="text_ik" class="solr.TextField">  
   <!-- 索引时候的分词器 -->
   <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
   <!-- 查询时候的分词器 -->
   <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>

同时，把需要分词的字段，设置为text_ik

<field name="id" type="int" indexed="true" stored="true" required="true" multiValued="false" />
<field name="name" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" />
<field name="title" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" />
<field name="category" type="int" indexed="true" stored="true" required="true" multiValued="false" />
<field name="content" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" />
<field name="price" type="double" indexed="true" stored="true" required="true" multiValued="false" />
<field name="color" type="string" indexed="true" stored="true" required="true" multiValued="false" />
<field name="orderBy" type="int" indexed="true" stored="true" required="true" multiValued="false" />
<field name="updatetime" type="date" indexed="true" stored="true" required="true" multiValued="false" />

3. 重启服务

注意：如果之前已经创建了索引，需要将之前的索引删掉，重新创建分词后的索引。

$ /opt/tomcat-8.5.31/bin/shutdown.sh
$ /opt/tomcat-8.5.31/bin/startup.sh

4. 配置扩展词典

1.默认是用的IKAnalyzer分词器内置的词典进行分词的。我们也可以自己配置IKAnalyzer分词器的扩展词典

# 修改IKAnalyzer.cfg.xml文件
$ vim /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/IKAnalyzer.cfg.xml

配置如下

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
　　<comment>IK Analyzer 扩展配置</comment>
　　<!--用户可以在这里配置自己的扩展字典，表示使用哪些词来做索引 -->
　　<entry key="ext_dict">ext.dic;</entry> 
　　<!--用户可以在这里配置自己的扩展停止词字典,表示不用哪些词做索引-->
　　<entry key="ext_stopwords">stopword.dic;</entry> 
</properties>

2.在classes下创建 ext.dic 来配置字典(每一行表示一个整体索引)

$ vim /opt/tomcat-8.5.31/webapps/solr/WEB-INF/classes/ext.dic

配置如下：

别看我乱我就是索引
哈哈哈
我是第三行

stopword.dic 和 ext.dic 的编码方式为UTF-8 无BOM的编码方式。

3.重启tomcat后测试

Solr集成IKAnalyzer中文分词器

solr ikanalyzer 中文分词分词

tyl

0 关注 0 粉丝 0 动态

关注关注

docker 安装solr8.6.2 配置中文分词器的方法

docker run --name blog-solr -d -p 8983:8983 solr // blog-solr这个可用自行命名。docker exec -it --user=solr blog-solr bin/solr create_core

spylyt 2020-09-11

solr+IKAnalyzer部署

江夏lz 2014-05-31

【solr】添加分词器ik-analyzer-solr

项目在此基础上：solr7.2.1+tomcat8.5.37+jdk8安装配置。下载的jar包复制到。添加分词字段类型

lionelf 2020-04-20

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

　　Solr文本分析消除了索引词项与用户搜索词项之间的语言差异，让用户在搜索buying a new house时能找到类似的内容，例如：purchasing a new home这样的文档。如果搭配恰当，文本分析就能允许用户使用自然语言进行搜索，而无需考

TyCoding 2020-01-08

solr索引基本原理

solr是一个全局检索引擎，能够快速地从大量的文本数据中选出你所需要的数据，而你只需要提供相应的关键词进行检索。solr的高效率查询靠的是底层强大的索引库，所以solr最关键的技术也是其底层的索引设计。solr工作的时候可以归结成两个过程1.创建索引2.搜

wsxsxz 2019-12-14

Apache Solr velocity模板注入RCE漏洞

lionelf 2020-07-28

【solr】使用-取反时注意，-是表示排除，不能单独做条件用

1、solr的-表示取反、排除意思，比如说我要name不为a的数据，我们正常理解写法是-name:a，这是不对的，正确写法是

upxiaofeng 2020-06-11

solr与.net系列课程(五)solrnet的使用

最近因项目比较忙,所以这篇文章出的比较晚,离上一篇文章已经有半个月的时间了,这节课我们来学下一下solr的.net客户端solrnet. 上一篇文章讲述了C#是如何请求和接受solr的数据的,请求链接是自己拼接的,接受数据是使用数据契约,solrnet就是

TyCoding 2020-05-03

关于Solr服务搭建

Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。Solr根据xml文档添加、删除、更新索引。So

upxiaofeng 2020-04-30

Solr7-4的学习与使用

17年的时候有学习使用过lucene和solr，但是后来也遗忘了，最近公司有个项目需要使用到全文检索，正好也顺便跟着学习一下，使用的版本是Solr7.4的，solr解压之后的目录结构:各文件夹里面的内容：。solr从5版本之后不再需要tomcat，使用内置

TyCoding 2020-04-08

01 CentOS7中安装和启动solr

solr是一个企业级搜索应用服务器，以lucence为基础。本文将讲解如何在centos7中安装solr。# 确保solr-4.10.3.tgz、apache-tomcat-8.5.38.zip是在当前目录下。稍等片刻，war包便会被解压。重启tomcat

TyCoding 2020-03-26

solr replication原理探究

无论是垂直搜索，还是通用搜索引擎，对外提供搜索服务其压力都比较大，经常有垂直电商在做活动的时候服务器宕机。对面访问压力比较大的情况，一般的应对方法就是+。Solr提供了两种解决方案来对应访问压力。其一是Replication，其一是SolrCloud。Re

wenchanter 2020-03-26

ant编译solr源码生成eclipse项目，解决一直resolve，一直[ivy:retrieve]的问题

咋不说这个问题用相应方法解决即可/微笑？最终通过自己一通乱搞，终于“Build Successful”，具体哪一步起了作用实在不敢说，尝试的方法是在太多了，只把正确的记录下来好了，自己整理一下思路，能够帮到有同样问题的人更好啦~

roygbip 2020-02-16

2020.2.3学习进度总结

感受：重新安装了十多次android studio都没有成功，今天你在同学的远程桌面的帮助下，将android studio完全彻底删除之后又安装了看三次，最后还是没成功，有点崩溃了，但是不会放弃，明天要问一问老师，希望老师能帮我解决这个问题。

wsxsxz 2020-02-03

Solr请求概念和配置详解

　　Solr最常见的请求类型是在Solr索引中查找相关文档的查询。除此之外，Solr还可以处理许多不同类型的请求。所有的请求基本上都是通过请求处理器提交给Solr。例如，通过搜索组件执行主查询，其中分面、搜索结果高亮和拼写检查都有各自的搜索组件。要让查询请

lionelf 2020-02-03

lucene&solr全文检索_7solr后台界面的介绍

Logging：solr的运行日志，如果出现问题会告诉你什么问题。Core Admin:solr core 的管理界面。solr core是solr 的一个独立运行实例单位，他可以对外提供索引和搜索服务，一个solr工程可以运行多个solrcore，一个c

lionelf 2020-02-03

lucene&solr全文检索_3查询索引

创建完索引之后，我们需要查询。// 第一步：创建一个java工程，并导入jar包。// 2）指定一个分析器，对文档内容进行分析。Directory directory =FSDirectory.open;//创建document

TyCoding 2020-02-01

Lucene、Solr、ElasticSearch、hibernate-search四部曲

直到昨天，在工作中刚刚得知Lucene、Solr。本质区别在于：1、Lucene是搜索库，不是独立的应用程序，而Solr是。此外Hibernate Search能够根据需要进行同步或异步的索引更新。Lucene的目的是为软件开发人员提供一个简单易用的工具包

heniancheng 2020-01-31

lunrjs - A bit like Solr, but much smaller and not as bright.

Lunr.js is a small, full-text search library for use in the browser. It indexes JSON documents and provides a simple search inte

lionelf 2020-01-30

一、linux系统安装配置solr8

第五步：配家、配置apache-tomcat-8.0.47→webApp→solr→WEB_INF下的web.xml

wsxsxz 2020-01-17

安科网

Solr集成IKAnalyzer中文分词器

tyl

前言

1. 下载安装

2. 修改配置

3. 重启服务

4. 配置扩展词典

tyl

相关推荐

docker 安装solr8.6.2 配置中文分词器的方法

solr+IKAnalyzer部署

【solr】添加分词器ik-analyzer-solr

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

solr索引基本原理

Apache Solr velocity模板注入RCE漏洞

【solr】使用-取反时注意，-是表示排除，不能单独做条件用

solr与.net系列课程(五)solrnet的使用

关于Solr服务搭建

Solr7-4的学习与使用

01 CentOS7中安装和启动solr

solr replication原理探究

ant编译solr源码生成eclipse项目，解决一直resolve，一直[ivy:retrieve]的问题

2020.2.3学习进度总结

Solr请求概念和配置详解

lucene&solr全文检索_7solr后台界面的介绍

lucene&solr全文检索_3查询索引

Lucene、Solr、ElasticSearch、hibernate-search四部曲

lunrjs - A bit like Solr, but much smaller and not as bright.

一、linux系统安装配置solr8

tyl