中文分词库源码,中文分词库开源软件,中文分词库开源项目_安科网

# 中文分词库

国产  jiebaR R语言中文分词

"结巴"中文分词的R语言版本，支持最大概率法，隐式马尔科夫模型，索引模型，混合模型，共四种分词模式，同时有词性标注，关键词提取，文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。支持 Windows , Linux操作系统。支持加载自定义用户词库，设置词频、词性。支持自动判断编码模式。安装简单，无需复杂设置。可以通过Rpy2，jvmr等被其他语言调用。安装目前该包还没有发布到CRAN，可以通过Github进行安装。

国产  NiuParser 中文句法语义分析系统

NiuParser 中文句法语义分析系统

国产  TextRank4ZH 中文文本关键词和摘要提取库

TextRank4ZH 用于自动从中文文本中提取关键词和摘要，基于 TextRank 算法，使用 Python 编写。安装本程序使用python 2.7测试没有问题，暂时不兼容python 3。先确定已经有jieba、numpy、networkx这三个库。Requires:decorator另外，请确保安装最新版本的jieba分词，TextRank4ZH需要新版本jieba提供的词性标注功能。每个单词作为pagerank中的一个节点。通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。

国产  cppjieba "结巴"中文分词的C++版本

特性源代码都写进头文件src/*.hpp里，include即可使用。支持utf-8, gbk编码，但是推荐使用utf-8编码，因为gbk编码缺少严格测试，慎用。内置分词服务server/server.cpp，在linux环境下可安装使用。项目自带较为完善的单元测试，核心功能中文分词的稳定性接受过线上环境检验。支持载自定义用户词典。支持linux,mac osx操作系统。用法依赖软件g++ or clang++;小明/硕士/毕业于/中国/科学院/计算所/，/后/在/日/本/京/都/大/学/深/造MixSe

国产  nodejieba "结巴"分词的Node.js版本

});搜索引擎分词算法初始化varsegment=require;}非阻塞式调用segment.queryCut("非阻塞模式分词",function(wordList){

国产  iosjieba 结巴分词 iOS 版

底层使用的依然是CppJieba。用法启动后在框里面输入待分词的句子，然后按回车键即可。致谢感谢 [fxjsy] 的结巴中文分词jieba。

国产  TextGrocery 短文本分类工具

TextGrocery 是一个基于SVM算法的短文本分类工具，内置了结巴分词，让文本分类变得简单。# 新开张一个杂货铺，别忘了取名！('education', '中国高考成绩海外认可是“狼来了”吗？

国产  CWSharp .NET 中文分词组件

CWSharp 是 .Net 的中文分词组件，支持中英文或者混合词组，提供自定义词典功能，支持Lucene.Net。基于正向最大匹配的算法。词典使用DAWG结构，比传统的前缀树占用更少的内存空间。词典 - 如何生成DAWG词典文件，如何添加新的词组到DAWG词典中。

国产  cwsharp-go go中文分词包

cwsharp-gocwsharp-go是golang的文本分词包，支持中文、英文以及中英混合词组，除此之外，提供自定义分词的扩展。分词算法cwsharp-go支持多种分词算法，你可以根据需求选择适合自己的或者自定义新的分词算法。mmseg-tokenizer标准的基于词典的分词方法。>> 世界/w 界人/w 人民/w 民大/w 大团/w 团结/w 结万/w 万岁/w !/pwhitespace-tokenizer标准的英文分词，无需字典，适合切分英文的内容，中文会被当做独立的字符输出。

国产  GoJieba Go语言中文分词

GoJieba 是 Jieba 分词的 Golang 语言版本分词库。搜索引擎模式:小明/硕士/毕业/于/中国/中国科学院/科学/科学院/学院/计算所/，/后/在/日本/日本京都大学/京都/京都大学/大学/深造性能测试性能不错，因为GoJieba本身就是封装了 C++ 版本的CppJieba而成，对比测试了一下，耗时大概是CppJieba的 1.2 倍。鉴于CppJieba性能还不错，所以GoJieba性能还是可以的，对于讲究性能的地方还是可以试试的。

elasticsearch-jieba-plugin

国产  elasticsearch-jieba-plugin Jieba 中文分词插件

elasticsearch-jieba-plugin 是 Jieba 中文分词插件。试用 Elasticsearch 5.1.2 版本，基于 huaban 开源的的 jieba java 实现。

国产  jieba.NET 结巴分词 .NET 版

国产  phpSplit PHP 中文分词包

phpSplit 是一个基于php开发的中文分词库。本程序是使用RMM逆向匹配算法进行分词的，词库需要特别编译，本类里提供了 MakeDict() 方法。同事增加了以下3类标记*专有名词的分类标记，即人名nr，地名ns，团体机关单位名称nt，其他专有名词nz；*语素的子类标记，即名语素Ng，动语素Vg，形容语素Ag，时语素Tg，副语素Dg等；*动词和形容词的子类标记，即名动词vn，名形词an，副动词vd，副形词ad. 合计约40个左右。

国产  SqlJieba MySQL 结巴中文分词插件

MySQL, 插件, 中文分词, 结巴分词, 全文检索, SqlJieba

国产  Sego Go中文分词

词典用双数组trie实现，分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式，支持用户词典、词性标注，可运行JSON RPC服务。分词速度单线程9MB/s，goroutines并发42MB/s。//支持普通模式和搜索模式两种分词，见代码中SegmentsToString函数的注释。

国产  dict_build 自动构建中文词库

博文的 java 实现，可以自动抽取语料库中的词汇，可以作为自然语言处理的第一步，准备词典。

国产  gse Go 语言高效分词

推荐  FoolNLTK 中文处理工具包

特点可能不是最快的开源中文分词，但很可能是最准的开源中文分词。基于BiLSTM模型训练而成。包含分词，词性标注，实体识别,　都有比较高的准确率。text="一个傻子在北京". python-mfool[filename]用户自定义词典。词典格式格式如下，词的权重越高，词的长度越长就越越可能出现,　权重值请大于1. text="我在北京天安门看你难受香菇". 注意暂时只在Python3 Linux 平台测试通过

国产  ChineseUtil PHP 中文工具类库

ChineseUtilPHP 中文工具类，支持汉字转拼音、拼音分词、简繁互转。PHP Chinese Tool class, support Chinese pinyin, pinyin participle, simplified and traditional conversion. 目前本类库拥有的三个功能，都是在实际开发过程中整理出来的。由于中文的博大精深，字有多音字，简体字和繁体字也有多种对应。并且本类库返回的所有结果，均为包含所有组合的数组。本类库字典数据总共收录 73925 个汉字，包括：39

国产  THUOCL 清华大学开源的高质量中文词库

THUOCL是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库，词表来自主流网站的社会标签、搜索热词、输入法词库等。包含词频统计信息 DF 值，方便用户个性化选择使用。词库经过多轮人工筛选，保证词库收录的准确性。开放更新，将不断更新现有词表，并推出更多类别词表。该词库可以用于中文自动分词，提升中文分词效果。可搭配THULAC 工具包使用，提升特定领域中文分词的效果。

加载中...

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号