使用Jieba进行中文词性标注

使用Jieba词性分类

  • Jieba下进行词性分类非常简便。
# -*- encoding=utf-8 -*-
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for word, flag in words:
 print('%s, %s' % (word, flag))
1
2
3
4
5
6
7
8
9
10
11

以经典句子为例,“我爱北京天安门“,词性分类的结果为:

我 /r
爱 /v
北京 /ns
天安门 /ns
1
2
3
4

词性

词性指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性。

常见词性分类

词性分类又叫词性标注(Part-Of-Speech tag, POS-tag),常见的词性标准类型如下:

1、名词

  • n 名词
  • nr 人名
  • nr1 汉语姓氏
  • nr2 汉语名字
  • nrj 日语人名
  • nrf 音译人名
  • ns 地名
  • nsf 音译地名
  • nt 机构团体名
  • nz 其它专名
  • nl 名词性惯用语
  • ng 名词性语素

2、时间词

  • t 时间词
  • tg 时间词性语素

3、处所词

  • s 处所词 (在公司,在学校)

4、方位词

  • f 方位词

5、动词

  • v 动词
  • vd 副动词
  • vn 名动词
  • vshi 动词“是”
  • vyou 动词“有”
  • vf 趋向动词
  • vx 形式动词
  • vi 不及物动词(内动词)
  • vl 动词性惯用语
  • vg 动词性语素

6、形容词

  • a 形容词
  • ad 副形词
  • an 名形词
  • ag 形容词性语素
  • al 形容词性惯用语

7、区别词

  • b 区别词
  • bl 区别词性惯用语

8、状态词

  • z 状态词

9、代词

  • r 代词
  • rr 人称代词
  • rz 指示代词
  • rzt 时间指示代词
  • rzs 处所指示代词
  • rzv 谓词性指示代词
  • ry 疑问代词
  • ryt 时间疑问代词
  • rys 处所疑问代词
  • ryv 谓词性疑问代词
  • rg 代词性语素

10、数词

  • m 数词
  • mq 数量词

11、量词

  • q 量词
  • qv 动量词
  • qt 时量词

12、副词

  • d 副词

13、介词

  • p 介词
  • pba 介词“把”
  • pbei 介词“被”

14、连词

  • c 连词
  • cc 并列连词

文本挖掘主要有哪些功能

自然语言处理技术文本挖掘功能:

* 涉黄涉政检测:对文本内容做涉黄涉政检测,满足相应政策要求;

* 垃圾评论过滤:在论坛发言或用户评论中,过滤文本中的垃圾广告,提升文本总体质量;

* 情感分析:对用户评论等文本内容做情感分析,指导决策与运营;

* 自动标签提取:自动提取文本重要内容生成关键性标签,在此基础之上拓展更多功能形式;

* 文本自动分类:通过对文本内容进行分析,给出文本所属的类别和置信度,支持二级分类.

使用Jieba进行中文词性标注

相关推荐