cwsharp-go go中文分词包

跨平台

授权协议：MIT
开发厂商：-
软件语言：Google Go
更新日期：2015-07-16

项目综述

cwsharp-gocwsharp-go是golang的文本分词包，支持中文、英文以及中英混合词组，除此之外，提供自定义分词的扩展。分词算法cwsharp-go支持多种分词算法，你可以根据需求选择适合自己的或者自定义新的分词算法。mmseg-tokenizer标准的基于词典的分词方法。>> 世界/w 界人/w 人民/w 民大/w 大团/w 团结/w 结万/w 万岁/w !/pwhitespace-tokenizer标准的英文分词，无需字典，适合切分英文的内容，中文会被当做独立的字符输出。

cwsharp-go go中文分词包项目简介

cwsharp-gocwsharp-go是golang的文本分词包，支持中文、英文以及中英混合词组，除此之外，提供自定义分词的扩展（比如日文、韩文或其它语种）。.NET版：CWSharp-C#安装&测试$ go get github.com/zhengchun/cwsharp-go
$ cd main
$ go run main.go Hello,World!你好，世界!分词算法cwsharp-go支持多种分词算法，你可以根据需求选择适合自己的或者自定义新的分词算法。mmseg-tokenizer标准的基于词典的分词方法。tips: 建议使用单一实例，避免每次分词都需重新加载字典tokenizer, err := cwsharp.New("../data/cwsharp.dawg") //加载字典
iter := tokenizer.Tokenize(strings.NewReader("Hello,world!你好,世界!"))
for tok, ok := iter(); ok; tok, ok = iter() {
fmt.Printf("%s/%s ", tok.Text, tok.Type)
}
>> hello/w ,/p world/w !/p 你好/w ,/p 世界/w !/pbigram-tokenizer二元分词方法，无需字典，速度快，支持完整的英文和数字切分。iter := cwsharp.BigramTokenize(strings.NewReader("世界人民大团结万岁!"))
for token, ok := iter(); ok; token, ok = iter() {
fmt.Printf("%s/%s ", token.Text, token.Type)
}
>> 世界/w 界人/w 人民/w 民大/w 大团/w 团结/w 结万/w 万岁/w !/pwhitespace-tokenizer标准的英文分词，无需字典，适合切分英文的内容，中文会被当做独立的字符输出。iter := cwsharp.WhitespaceTokenize(strings.NewReader("Hello,world!你好!"))
for token, ok := iter(); ok; token, ok = iter() {
fmt.Printf("%s/%s ", token.Text, token.Type)
}
>> hello/w ,/p world/w !/p 你/w 好/w !/pTokenizerFuncTokenizerFunc是自定义分词的扩展接口帮助类，允许你自定义新的分词。type TokenizerFunc func(io.Reader) Iterator

安科网

cwsharp-go go中文分词包

项目综述

cwsharp-go go中文分词包项目简介

cwsharp-go go中文分词包评论内容

安科网

cwsharp-go go中文分词包

项目综述

cwsharp-go go中文分词包 项目简介

cwsharp-go go中文分词包 相关推荐

cwsharp-go go中文分词包 评论内容

cwsharp-go go中文分词包项目简介

cwsharp-go go中文分词包相关推荐

cwsharp-go go中文分词包评论内容