使用Jieba进行中文词性标注
使用Jieba词性分类
- Jieba下进行词性分类非常简便。
# -*- encoding=utf-8 -*- import jieba.posseg as pseg words = pseg.cut("我爱北京天安门") for word, flag in words: print('%s, %s' % (word, flag)) 1 2 3 4 5 6 7 8 9 10 11
以经典句子为例,“我爱北京天安门“,词性分类的结果为:
我 /r 爱 /v 北京 /ns 天安门 /ns 1 2 3 4
词性
词性指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性。
常见词性分类
词性分类又叫词性标注(Part-Of-Speech tag, POS-tag),常见的词性标准类型如下:
1、名词
- n 名词
- nr 人名
- nr1 汉语姓氏
- nr2 汉语名字
- nrj 日语人名
- nrf 音译人名
- ns 地名
- nsf 音译地名
- nt 机构团体名
- nz 其它专名
- nl 名词性惯用语
- ng 名词性语素
2、时间词
- t 时间词
- tg 时间词性语素
3、处所词
- s 处所词 (在公司,在学校)
4、方位词
- f 方位词
5、动词
- v 动词
- vd 副动词
- vn 名动词
- vshi 动词“是”
- vyou 动词“有”
- vf 趋向动词
- vx 形式动词
- vi 不及物动词(内动词)
- vl 动词性惯用语
- vg 动词性语素
6、形容词
- a 形容词
- ad 副形词
- an 名形词
- ag 形容词性语素
- al 形容词性惯用语
7、区别词
- b 区别词
- bl 区别词性惯用语
8、状态词
- z 状态词
9、代词
- r 代词
- rr 人称代词
- rz 指示代词
- rzt 时间指示代词
- rzs 处所指示代词
- rzv 谓词性指示代词
- ry 疑问代词
- ryt 时间疑问代词
- rys 处所疑问代词
- ryv 谓词性疑问代词
- rg 代词性语素
10、数词
- m 数词
- mq 数量词
11、量词
- q 量词
- qv 动量词
- qt 时量词
12、副词
- d 副词
13、介词
- p 介词
- pba 介词“把”
- pbei 介词“被”
14、连词
- c 连词
- cc 并列连词
文本挖掘主要有哪些功能
自然语言处理技术文本挖掘功能:
* 涉黄涉政检测:对文本内容做涉黄涉政检测,满足相应政策要求;
* 垃圾评论过滤:在论坛发言或用户评论中,过滤文本中的垃圾广告,提升文本总体质量;
* 情感分析:对用户评论等文本内容做情感分析,指导决策与运营;
* 自动标签提取:自动提取文本重要内容生成关键性标签,在此基础之上拓展更多功能形式;
* 文本自动分类:通过对文本内容进行分析,给出文本所属的类别和置信度,支持二级分类.
相关推荐
kikaylee 2020-07-05
zooozx 2020-06-27
xiaocao0 2020-06-25
pySVNA 2020-06-14
fkyyly 2020-05-31
ustbclearwang 2020-05-09
cqulun 2020-04-19
chongtianfeiyu 2020-04-10
xiaocao0 2020-04-09
fkyyly 2020-04-07
chouliqingke 2020-04-07
fkyyly 2020-03-28
cqulun 2020-02-13
cqulun 2020-02-10
laityc 2020-02-10
wordmhg 2020-02-09
小发猫 2020-02-02