中文分词(概况)
中文词法分析
中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示
中文词法分析难点
- 重叠词,离合词,词缀
- 中文词语的切分歧义
- 中文未定义词
- 词性标注
解决方法:
- 基于词典的机械切分算法
- 基于规则的切分算法
- 基于统计的切分算法
对于未登录词的处理。未登录词大致包括以下几类
中国人名,翻译地名,机构名,商标字号,专业术语,?缩略语,如三个代表、扫黄打非。
?新词语,如美刀、港刀
对每一类未登录词都要构造专门的识别算法,别的主要依据是内部构成规律(用字规律)、外部环境(上下文)和重复出现规律
各种不同类型的未登录词识别都需要收集大量
数据,建立不同的数据模型。常用的方法包括
相关推荐
spylyt 2020-09-11
天才幻想家 2020-08-03
vtnews 2020-07-29
xiaocao0 2020-06-25
fkyyly 2020-05-31
winxcoder 2020-04-19
tigercn 2020-04-18
athrenzala 2020-04-17
chongtianfeiyu 2020-04-10
houhow 2020-02-18
小发猫 2020-02-02
fkyyly 2020-01-28
李玉志 2020-01-17
mengyue 2020-01-01
CYJ0go 2020-01-01
江夏lz 2014-05-31
李玉志 2019-12-25