jieba库的使用及实例

fkyyly

2020-03-28

安装：

cmd模式下输入

pip install jieba

anaconda对应环境

conda install jieba

分词原理：

　Jieba分词依靠中文词库

　　-利用一个中文词库，确定汉字之间的关联概率

　　-汉字间概率大的组成词组，形成分词结果

　　-除了分词，用户还可以添加自定义的词组

jieba库的三种模式：

-精确模式：把文本精确的切分开，不存在冗余单词

#jieba.lcut(s)
jieba.lcut("中国是一个伟大的国家")

#output:[‘中国‘, ‘是‘, ‘一个‘, ‘伟大‘, ‘的‘, ‘国家‘]

-全模式：把文本中所有的可能的词语都扫描出来，有冗余　　

#jieba.lcut(s,cut_all=True)
jieba.lcut("中国是一个伟大的国家",cut_all=True)

#output:[‘中国‘, ‘国是‘, ‘一个‘, ‘伟大‘, ‘的‘, ‘国家‘]

-全搜索引擎模式：在精确模式的基础上，对长词再次切分

#jieba.lcut_for_search(s)
jieba.lcut_for_search("中华人民共和国是伟大的")

#output:[‘中华‘, ‘华人‘, ‘人民‘, ‘共和‘, ‘共和国‘, ‘中华人民共和国‘, ‘是‘, ‘伟大‘, ‘的‘]

向分词词典中增加新词w：

#jieba.add_word(w)

jieba.add_word("蟒蛇语言")

#CalThreeKingdomsV2.py

#统计三国人物出场频率  url=‘https://python123.io/resources/pye/threekingdoms.txt‘
import jieba, requests

def getText():
    #下载到本地，或者直接爬下来
    #txt = open(‘threekingdoms.txt‘,‘r‘,encoding= ‘utf-8‘).read()
    try:
        re = requests.get(url=‘https://python123.io/resources/pye/threekingdoms.txt‘,timeout=30)
        re.raise_for_status()           #如果状态不是200引发HTTPError异常
        re.encoding = re.apparent_encoding
        return re.text
    except:
        return ‘‘

#剔除非名字 
excludes = {"将军",‘却说‘,‘荆州‘,‘二人‘,‘不可‘,‘军马‘,‘引兵‘,‘次日‘,‘大喜‘,
            ‘不能‘,‘如此‘,‘商议‘,‘如何‘,‘军士‘,‘左右‘,‘\r\n‘}

words = jieba.lcut(getText())

counts = {}

for word in words:
    if len(word) == 1 :
        continue
    elif ‘诸葛亮‘ == word or ‘孔明曰‘==word:
        rword = ‘孔明‘
    elif ‘关公‘ == word or ‘云长‘ ==  word:
        rword = ‘关羽‘
    elif ‘玄德‘ ==word or ‘玄德曰‘ ==word:
        rword = ‘刘备‘
    elif ‘孟德‘==word:
        rword = ‘曹操‘
    else:
        rword = word
    counts[rword] = counts.get(rword,0)+1
for word in excludes:
    if word in counts:
        del counts[word]
items = list(counts.items())
items.sort(key= lambda x:x[1],reverse=True)
for i in range(10):
    word, count = items[i]
    print(‘{0:<10}{1:>5}‘.format(word,count))

(learn) D:\pycodes>python CalThreeKingdomsV2.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\hao11\AppData\Local\Temp\jieba.cache
Loading model cost 0.625 seconds.
Prefix dict has been built successfully.
孔明         1383
刘备         1252
曹操          960
关羽          784
丞相          491
张飞          358
主公          331
吕布          300
赵云          278
孙权          264

有许多地方可以优化，丞相和主公这类词，可以特殊处理。

jieba.lcut("淡黄的长裙，蓬松的头发")[‘淡黄‘, ‘的‘, ‘长裙‘, ‘，‘, ‘蓬松‘, ‘的‘, ‘头发‘]

jieba

fkyyly

0 关注 0 粉丝 0 动态

关注关注

Python常用功能函数系列总结（二）

return ‘ ‘.join([i for i in jieba.cut(sentence) if. i.strip() and i not in self.stopwords and len > 1 and i in self.word_list

kikaylee 2020-07-05

jieba.lcut方法

cut_all参数为真表示采用全模式分词，为假表示采用精确模式分词，默认值为假；

ustbclearwang 2020-07-05

Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云

利用pandas读取csv文件中的酒店客户评论，并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果。columns_name=[‘mysql_id‘,‘hotelname‘,‘customername‘,‘reviewtime‘,‘check

zooozx 2020-06-27

jieba分词

学英语啊，学英语。中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富，并且支持多种编程语言实现。jieba.d

xiaocao0 2020-06-25

python新手学习使用库

Python相当于一个手机，第三方库相当于手机里各种各样的APP。当我们想搭建网站时，可以选择功能全面的Django、轻量的Flask等web框架；当我们想做一个爬虫时，可以使用Scrapy框架；当我们想做数据分析时，可以选择Pandas数据框架等，这些都

pySVNA 2020-06-14