CWSharp .NET 中文分词组件 项目简介
CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。特性 支持多种分词器 StandardTokenizer BigramTokenizer StopwordTokenizer 可扩展的自定义分词接口 支持自定义词典 支持Lucene.Net分词 MIT授权协议 安装&编译 NuGet nuget install CWSharp Package Manager Console PM> install-package CWSharp算法 基于正向最大匹配的算法。介绍 词典使用DAWG结构,比传统的前缀树占用更少的内存空间。介绍 TODO HMM算法,识别未登记词语以及人名、地名识别 支持跨平台Windows、Linux FAQ 词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。 lucene.net插件 - Lucene.Net分词接口