jieba模块基本介绍
一.jieba模块基本介绍
1.1 jieba模块的作用
jieba是优秀的第三方中文词库
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程
1.2 jieba模块的安装
pip install jieba #cmd命令行
二.jieba库的使用说明
2.1 jieba分词的三种模式
精确模式:将句子最精确的分开,适合文本分析(无冗余)
全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义(有冗余)
搜索引擎模式:在精确的基础上,对长词再次切分,提高召回率(有冗余)
三.jieba分词的使用方法
3.1 三种模式的使用方法
#调用jieba词库 import jieba#精确模式jieba.cut(文件/文本等内容) #获取可迭代对象jieba.lcut()#全模式jieba.cut(cut_all=True) #获取可迭代对象jieba.lcut(cut_all=True)#搜索引擎模式jieba.cut_for_search() # 获取可迭代对象jieba.lcut_for_search()
3.2 jieba.cut与jieba.lcut的区别
jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词。
import jiebatxt = ‘狗比胡晨阳‘print(jieba.cut(txt))#打印的内容<generator object Tokenizer.cut at 0x000002004F5B8348>
jieba.lcut 直接生成的就是一个list
import jiebatxt = ‘狗比胡晨阳‘print(jieba.lcut(txt))#打印的内容runfile(‘E:/python项目/test.py‘, wdir=‘E:/python项目‘)Building prefix dict from the default dictionary ...Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cacheLoading model cost 1.374 seconds.Prefix dict has been built succesfully.[‘狗‘, ‘比‘, ‘胡晨阳‘]