python第六周:字典,jieba库

字典:

字典类型是“映射”的体现

键值对:键是数据索引的扩展

字典是键值对的集合,键值对之间无序,采用大括号{}和dict()创建,键值对用冒号。表示为

{<键1>:<值1>,<键2>:<值2>, ... , <键n>:<值n>}

在字典变量中,通过键值获取值,如: <值> = <字典变量>[<键>]

>>> d = {"中国":"北京","美国":"华盛顿":"法国":"巴黎"}
>>> d["中国"] 
"北京"
>>> de = {} ; type(de)
<class ‘dict‘>#返回变量x的类型

字典类型操作函数和方法

del d[k] 删除字典d中键k对应的数据值
k in d 判断键k是否在字典d中,如果在返回True,否则返回false
d.keys() 返回字典d中所有键信息
d.values() 返回字典d中所有值的信息
d.items() 返回字典d中所有的键值对信息
d.get(k,<default>) 键k存在,返回相应值,不在则返回<default>值
d.pop(k,<default>) 键k存在,则取出相应值,不在则返回<default>值
d.popitem() 随机从字典d中取出一个键值对,以元组形式返回
d.clear() 删除所有键值对
len(d) 返回字典d中元素的个数

jieba库是优秀的中午分词第三方库

cmd命令: pip install jieba

原理: 利用了一个中文词库,确定汉字之间的关联概率

精确模式:把文本精确的分开,不存在冗余单词

全模式:把文本所有可能的词语扫描出来,有冗余

搜索引擎模式:在精确模式的基础上,对长词再次切分

常用函数

jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
jieba/lcut(s,cut_all=Ture) 全模式
jieba.lcut_for_search(s) 搜索引擎模式
jieba.add_word(w) 向分词词典增加新词w

相关推荐