基于电影知识图谱的智能问答系统 --HanLP分词器

Portfolio

2018-05-19

关注关注

一、什么是分词器？

分词器，是将用户输入的一段文本，分析成符合逻辑的一种工具。到目前为止呢，分词器没有办法做到完全的符合人们的要求。和我们有关的分词器有英文的和中文的分词器：输入文本-关键词切分-去停用词-形态还原-转为小写中文的分词器分为：

单子分词例：中国人分成中，国，人

二分法人词例：中国人分成中国，国人

词典分词例：中国人分成中国，国人，中国人

现在用的是极易分词和庖丁分词

停用词：不影响语意的词

分词器有很多，比如中文分词器 IK Analyzer,有兴趣的可以看我的另一篇博文，其中有介绍它和Solr的结合使用

地址：Solr 7.2.1 配置中文分词器 IK Analyzer

欢迎你加入邀请码灵狐

二、什么是HanLP分词器？

首先：分词器≠自然语言处理！

其次：HanLP也是一种分词器

最后：HanLP不仅能够分词，而且还可以标注单词的词性（这个很关键的，后面章节会再次讲到这个特性）

在线演示：http://hanlp.hankcs.com/

比如，在Java中随便来个句子使用HanLP进行分词如下：

这里我们还额外添加了自己的分词，比如好热啊中的“好热”，我们添加后并标注其词性为ng，当然ng是我们随便起的

执行这段代码，分词效果如下

这种词性标注有什么好处呢？ == 比如，所有人名均可以用nr这个标签来替代，思考下如下3个问题

1、张学友的生日是什么时候

2、巩俐的生日是什么时候

3、成龙的生日是什么时候

如果用HanLP分词后，相信张学友、巩俐、成龙的词性均是nr，不信的话，请看下面的截图

为什么HanLP会有这种能力呢？（博文下面会讲到如何在Spring-Boot项目中集成HanLP）

因为其有一堆的字/词典数据集，其中就包括了人名这个dict，如下

因此，针对1、2、3的问题，我们可以将其做成一个问题模板，如下

nr的生日是什么时候

于是乎，不管你问上述三个哪一个问题，我得到最终答案的步骤如下：

1、拿到原始句子（问题）

2、对原句子进行抽象，将人名用nr替换并抽象句子，比如张学友的生日是多少替换成nr的生日是多少

3、抽象句子匹配问题模板（一堆问题数据集合由Spark进行训练并计算），比如 nr 生日

4、问题模板还原成最终的问题，比如 nr 生日，替换其中的nr=张学友，最后效果就是张学友生日

5、拿到问题后，去图形数据库neo4j中查找问题的答案，比如

项目中使用HanLP+Spark的效果如下

前端展示如下

三、HanLP下载安装

官网下载地址：HanLP-汉语言处理包

这里我们采用第二种方式下载

（1）由于我们要集成到Spring-Boot中，因此，我们不需要下载jar包，而是通过pom依赖进行jar添加，而这里，我们需要下载hanlp的配置文件

（2）下载完配置文件后，我们需要下载HanLP的字典数据集

github下载地址：https://github.com/hankcs/HanLP/releases

打开地址，我们找到数据包的下载链接：

这个数据集有点大，下载会慢一点，请耐心等待下载完成

（3）上述两步完成后，接下来就是集成到我们的项目中使用了

四、Spring-Boot集成HanLP

（1）pom依赖

[html]view plaincopy

<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
</dependency>
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.6.3</version>
</dependency>

（2）添加HanLP属性配置文件【基于上述下载下来的】

（3）hanlp.properties属性文件说明

其实也没有上面好说明的，文件里面的注释已经很详细了，唯一注意一点的是这个地方：

！每次更新自定义的新词典xxx.txt的内容时,要删除同目录下的词典缓存文件CustomDictionary.txt.bin！

删除后，重启项目会报一个警告的错误，我们不用理会，由于HanLP会加载数据集到内存中，因此启动的过程会有点慢，等待HanLP加载完数据后，我们就可以使用它了

五、HanLP单元测试

HanLPTest.java

[java]view plaincopy

importcom.hankcs.hanlp.HanLP;
importcom.hankcs.hanlp.dictionary.CustomDictionary;
importcom.hankcs.hanlp.seg.Segment;
importcom.hankcs.hanlp.seg.common.Term;
publicclassHanLPTest{
@Test
publicvoidTestA(){
StringlineStr="明天虽然会下雨，但是我还是会看周杰伦的演唱会。";
try{
Segmentsegment=HanLP.newSegment();
segment.enableCustomDictionary(true);
/**
*自定义分词+词性
*/
CustomDictionary.add("好热","ng0");
List<Term>seg=segment.seg(lineStr);
for(Termterm:seg){
System.out.println(term.toString());
}
}catch(Exceptionex){
System.out.println(ex.getClass()+","+ex.getMessage());
}
}
}

执行结果如下：

[plain]view plaincopy

明天/t
虽然/c
会/v
下雨/vi
，/w
但是/c
我/rr
还是/c
会/v
看/v
周杰伦/nr
的/ude1
演唱会/n
。/w

中文分词分词 hanlp

Portfolio

0 关注 0 粉丝 0 动态

关注关注

docker 安装solr8.6.2 配置中文分词器的方法

docker run --name blog-solr -d -p 8983:8983 solr // blog-solr这个可用自行命名。docker exec -it --user=solr blog-solr bin/solr create_core

spylyt 2020-09-11

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 2020-08-03

DockerFile构建ElasticSearch镜像安装IK中文分词器插件

为什么要安装IK中文分词器？ES提供的分词是英文分词，对中文做分词时会拆成单字而不是词语，非常不好，因此索引信息含中文时需要使用中文分词器插件。# 下载IK插件文件。docker run -d -p 9200:9200 -p 9300:9300 -e &q

vtnews 2020-07-29

基于词典的中文分词算法3：最大概率法

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时，按最大长度切分词语可能并不是最优切分。

troysps 2020-07-04

jieba分词

学英语啊，学英语。中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富，并且支持多种编程语言实现。jieba.d

xiaocao0 2020-06-25

jieba库的使用

jieba是python的第三方库，使用jieba库需要先安装。jieba是一个中文分词库，可以根据所给的中文句子，提取出可能的词组。利用中文词库，确定汉字之间的关联概率。概率大的组成词组，形成分词效果。除了分词，用户还可以添加自定义的词组。搜索引擎模式，

fkyyly 2020-05-31

es中中文分词器的使用

　　es整体都整理好了，进行补充没有实现的一些es知识点。　　本文终止在线安装，从第5开始线下安装。

IceStreamLab 2020-05-03

Elasticsearch 6.4.3 logstash 及 ik中文分词器下载百度云

官网版本 Elasticsearch 6.4.3 logstash 6.4.3 及 ik 6.4.3 中文分词器下载

winxcoder 2020-04-19

asp.net core系列 75 Elasticsearch与中文分词配置

　　　　如果浏览器下载文件慢，建议使用迅雷下载，速度很快。　　　　下载后解压，找到config\jvm.options，分配JVM堆内存大小，原则上是分配总内存的50%给 elasticsearch，但不要超过30.5GB，原因是64位寻址会导致性能下降。

tigercn 2020-04-18

Go语言中文分词技术使用技巧（一）

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。现在分词方法大致有三种：基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。今天为大家分享一个国内使用人数最多的中文分词工具Go

athrenzala 2020-04-17

基于Python实现词云制作

精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。HMM 参数用来控制是否使用 HMM 模型。

chongtianfeiyu 2020-04-10

asp.net core系列 75 Elasticsearch与中文分词配置

houhow 2020-02-18

jieba库

jieba库：利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果jieba库分词的三种模式：精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎

fkyyly 2020-01-28

elasticsearch 安装中文分词器

为什么要在elasticsearch中要使用ik这样的中文分词呢，那是因为es提供的分词是英文分词，对于中文的分词就做的非常不好了，因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下IK分词。1，Elasticsearch中文分词我们采用Ik

李玉志 2020-01-17

docker 安装ElasticSearch的中文分词器IK

本篇文章使用的ES版本是6.6.0，使用的在线安装；本文只是针对一个一个容器进行安装的，当然可以使用Dockerfile将IK做成新的镜像的，这篇文章就不介绍了。

mengyue 2020-01-01

solr+IKAnalyzer部署

江夏lz 2014-05-31

ELK---- Elasticsearch 使用ik中文分词器

默认分词器，查询的时候会把中文一个汉字当作一个关键字拆分，这样是不符合我们的需求的，所以需要安装分词器。当前有多种分词器可下载，据说比较好用的是IK分词器。注意，下载分词器的时候，版本必须要与Elasticsearch安装的版本一致，否则会出现不可描述的错

李玉志 2019-12-25

1.中文NLP的完整机器处理流程

首先我们通过一张图来了解 NLP 所包含的技术知识点，这张图从分析对象和分析内容两个不同的维度来进行表达.有机器学习相关经验的人都知道，中文自然语言处理的过程和机器学习过程大体一致，但又存在很多细节上的不同点，下面我们就来看看中文自然语言处理的基本过程有哪

小发猫 2019-12-02

分词器之IK Analyzer

IK Analyzer 是基于Lucene的中文分词框架。// Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器 2012. lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引

某某某 2016-08-02

solr6.2从环境部署到与mysql整合到中文分词器到solrJ的使用

solr就不多介绍了。是用于搜索功能的开源工具，很强大。solr本身能够用jetty启动，但是还是用tomcat启动比较适合我自己。学习solr有两个星期了，到现在solr最新版已经是6.3.0了，不过没关系，基本的东西都是一样的。4）在tomcat-so

小树不倒我不倒 2016-11-27

安科网

基于电影知识图谱的智能问答系统 --HanLP分词器

Portfolio

一、什么是分词器？

二、什么是HanLP分词器？

五、HanLP单元测试

Portfolio

相关推荐

docker 安装solr8.6.2 配置中文分词器的方法

NLP小白入门篇：莫愁前路，一文读懂语料预处理

DockerFile构建ElasticSearch镜像安装IK中文分词器插件

基于词典的中文分词算法3：最大概率法

jieba分词

jieba库的使用

es中中文分词器的使用

Elasticsearch 6.4.3 logstash 及 ik中文分词器下载百度云

asp.net core系列 75 Elasticsearch与中文分词配置

Go语言中文分词技术使用技巧（一）

基于Python实现词云制作

asp.net core系列 75 Elasticsearch与中文分词配置

jieba库

elasticsearch 安装中文分词器

docker 安装ElasticSearch的中文分词器IK

solr+IKAnalyzer部署

ELK---- Elasticsearch 使用ik中文分词器

1.中文NLP的完整机器处理流程

分词器之IK Analyzer

solr6.2从环境部署到与mysql整合到中文分词器到solrJ的使用

Portfolio