python jieba
pip install jieba
分词
import jieba seg_list = jieba.cut("我来到清华大学", cut_all=True) # join 是 split 的逆操作 # 即使用一个拼接符将一个列表拼成字符感 print("/".join(seg_list) # 全模式 seg_list = jieba.cut("我来到清华大学", cut_all=False) print("/".join(seg_list)) # 精确模式 默认 seg_list = jieba.cut_for_search("”小明硕士毕业于中国科学院计算所,后来在日本京都大学深造") # 搜索引擎模式 print("/".join(seg_list))
关键词提取
import jieba.analyse content = """中国特色社会主义是我们党领导的伟大事业,全部推进党的建设新的伟大工程,是这 一伟大事业取得胜利的关键所在。党坚强有力,事业才能兴旺发达,阔家才能繁荣稳定,人民才能幸 桶安康。党的十八大以来,我们党坚持党要管党、从严治党, 1疑心聚力、直击积弊、扶正被邪,党的 建设开创新局面,党风政风呈现新气象。围绕从严管党治党提出一系列新的茧要思想, 为全面推进党的建设新的伟大工程进一步指明了方向。""" # 第一个参数:待提取关键词的文本 # 第二个参数:返回关键词的数量,重要性从高到低排序 # 第三个参数:是否同时返回每个关键词的权重 # 使用 TF-IDF 提取关键词 keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True) for key, weight in keywords: print(key, weight) # 使用 TextRank 提取关键词 keywords = jieba.analyse.textrank(content, topK=20, withWeight=True) for key, weight in keywords: print(key, weight)
停用词
from jieba import analyse analyse.set_stop_words("stop_word.csv")
stop_word.csv
此后 恐怕 以及 你 我 他