jieba库的使用

fkyyly

2020-05-31

jieba是python的第三方库，使用jieba库需要先安装。jieba是一个中文分词库，可以根据所给的中文句子，提取出可能的词组
jieba库分词依靠词库。利用中文词库，确定汉字之间的关联概率。概率大的组成词组，形成分词效果。除了分词，用户还可以添加自定义的词组
jieba提供了三种分词模式，精确模式、全模式和搜索引擎模式

安装jieba库，在命令行中输入以下语句就可以安装，前提是安装了python和pip

pip install jieba

jieba库常用函数有四个，分别对应三种分词模式和一种向词库添加新词的功能

1、lcut(s)
精确模式，返回一个列表类型的分词结果，不存在冗余词

import jieba
str="世界那么大，我想去看看"
s=jieba.lcut(str)
print(s)

运行结果：

[‘世界‘, ‘那么‘, ‘大‘, ‘，‘, ‘我‘, ‘想‘, ‘去‘, ‘看看‘]

2、lcut(s,cut_all=True)
全模式，返回一个列表类型分词结果，存在冗余。

import jieba
str="世界那么大，我想去看看"
s=jieba.lcut(str,cut_all=True)
print(s)

运行结果：

[‘世界‘, ‘那么‘, ‘大‘, ‘，‘, ‘我‘, ‘想去‘, ‘看看‘]

3、lcut_for_search(s)
搜索引擎模式，返回一个列表类型的分词结果，存在肉哦能够与。是在精确模式的基础上，对长词再次划分

import jieba
str="世界那么大，我想去看看"
s=jieba.lcut_for_search(str)
print(s)

运行结果：

[‘世界‘, ‘那么‘, ‘大‘, ‘，‘, ‘我‘, ‘想‘, ‘去‘, ‘看看‘]

4、add_word(w)
向分词词典中添加新词w

import jieba
str="世界那么大，我想去看看"
s1=jieba.lcut(str)
print(s1)                            #添加分词前的分词效果
jieba.add_word(‘世界那么‘)
s2=jieba.lcut(str)               
print(s2)                            #添加分词的后的分词效果

运行结果：

[‘世界‘,‘那么‘, ‘大‘, ‘，‘, ‘我‘, ‘想‘, ‘去‘, ‘看看‘]
[‘世界那么‘, ‘大‘, ‘，‘, ‘我‘,‘想‘,‘去‘, ‘看看‘]

jieba 中文分词分词

fkyyly

0 关注 0 粉丝 0 动态

关注关注

jieba分词

学英语啊，学英语。中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富，并且支持多种编程语言实现。jieba.d

xiaocao0 2020-06-25

基于Python实现词云制作

精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。HMM 参数用来控制是否使用 HMM 模型。

chongtianfeiyu 2020-04-10

NLP之中文分词cppjieba

jieba库是一个简单实用的中文自然语言处理分词库。jieba分词属于概率语言模型分词。依次类推, 最后得到最大概率路径, 得到最大概率的切分组合。这个就是起始向量, 就是HMM系统的最初模型状态。IDF在KeywordExtractor中，使用的是经典的

小发猫 2020-02-02

jieba库

jieba库：利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果jieba库分词的三种模式：精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎

fkyyly 2020-01-28

NLP（十三）中文分词工具的使用尝试

本文将对三种中文分词工具进行使用尝试，这三种工具分别为哈工大的LTP，结巴分词以及北大的pkuseg。首先我们先准备好环境，即需要安装三个模块：pyltp, jieba, pkuseg以及LTP的分词模型文件cws.model。在用户字典中添加以下5个词语

fkyyly 2019-08-16

Python常用功能函数系列总结（二）

return ‘ ‘.join([i for i in jieba.cut(sentence) if. i.strip() and i not in self.stopwords and len > 1 and i in self.word_list

kikaylee 2020-07-05

jieba.lcut方法

cut_all参数为真表示采用全模式分词，为假表示采用精确模式分词，默认值为假；

ustbclearwang 2020-07-05

Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云

利用pandas读取csv文件中的酒店客户评论，并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果。columns_name=[‘mysql_id‘,‘hotelname‘,‘customername‘,‘reviewtime‘,‘check

zooozx 2020-06-27

jieba库

counts[word] = counts.get + 1 # 遍历所有词语，每出现一次其对应的值加 1. items.sort # 根据词语出现的次数进行从大到小排序。统计了次数对多前十五个名词，曹操不愧是一代枭雄，第一名当之无愧，但是我们会

fkyyly 2020-04-07

Python jieba 库的使用说明

chouliqingke 2020-04-07

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

# seg2 = jieba.cut("好好学学python，有用。然后就可以得到上述数据。

cqulun 2020-02-10

python同义词替换的实现（jieba分词）

年休假年假年休。回家场景我回来了。# 1读取同义词表，并生成一个字典。# synonymWords.txt是同义词表，每行是一系列同义词，用空格分割。# 2提升某些词的词频，使其能够被jieba识别出来。# 3将语句切分成单词。# 4返回同义词替换后

tmaczt 2020-01-21

用QQ聊天记录生成一个词云

QQ的聊天记录可以通过消息管理器，选中联系人，右键导出为.txt格式。由于是中文，需要分词，本文的分词工具采用的是jieba分词。不知道这个“福”能不能扫出来。假设你已经导出与某人的聊天记录，接下来需要先过滤再分词生成词云。在此之前需要准备一张背景图和一份

ustbclearwang 2020-01-18

用python给女朋友做一个歌曲词云图

今天咋们来看看网易云赵雷的歌曲歌词，并做一个词云图。这篇文章可以学习到什么是词云，爬虫的基本流程，简单的可视化操作。可视化有很多种，好的数据可视化，可以使得数据分析的结果更加通俗易通。"词云"属于可视化的一种，它会根据关键词的出现频率生

wyqwilliam 2020-01-12

NLP系列1：NER

　　NER即命名实体识别是信息提取的一个子任务，但究其本质就是序列标注任务。　　NER是一个基础问题，不会不行，但是也是一个非常重要的问题，下面将按照实现过程中碰到的问题依次进行阐述。首先的明白NER是一个分类任务，也叫序列标注，其实就是对文本的不同实体标

xiaocao0 2019-12-06

python新手学习使用库

Python相当于一个手机，第三方库相当于手机里各种各样的APP。当我们想搭建网站时，可以选择功能全面的Django、轻量的Flask等web框架；当我们想做一个爬虫时，可以使用Scrapy框架；当我们想做数据分析时，可以选择Pandas数据框架等，这些都

pySVNA 2020-06-14

Python——jieba库初使用

——《请回答1988》。jieba库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。

ustbclearwang 2020-05-09

jieba库的使用和好玩的词云

　　jieba库分词的三种模式：　　1、精准模式：把文本精准地分开，不存在冗余　　2、全模式：把文中所有可能的词语都扫描出来，存在冗余　　3、搜索引擎模式：在精准模式的基础上，再次对长词进行切分。　　>>> jieba.lcut　　[‘中

cqulun 2020-04-19

jieba

import jieba. words=jieba.lcut(txt.read()). counts={}. for word in words:. if len(word)==1:. continue. else:. counts[word]=count

xiaocao0 2020-04-09

运用jieba库统计词频及制作词云

二、根据词频制作词云

ustbclearwang 2020-04-08

安科网

jieba库的使用

fkyyly

fkyyly

相关推荐

jieba分词

基于Python实现词云制作

NLP之中文分词cppjieba

jieba库

NLP（十三）中文分词工具的使用尝试

Python常用功能函数系列总结（二）

jieba.lcut方法

Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云

jieba库

Python jieba 库的使用说明

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

python同义词替换的实现（jieba分词）

用QQ聊天记录生成一个词云

用python给女朋友做一个歌曲词云图

NLP系列1：NER

python新手学习使用库

Python——jieba库初使用

jieba库的使用和好玩的词云

jieba

运用jieba库统计词频及制作词云

fkyyly