"结巴"中文分词的R语言版本,支持最大概率法,隐式马尔科夫模型,索引模型,混合模型,共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。支持 Windows , Linux操作系统。支持加载自定义用户词库,设置词频、词性。支持自动判断编码模式。安装简单,无需复杂设置。可以通过Rpy2,jvmr等被其他语言调用。安装目前该包还没有发布到CRAN,可以通过Github进行安装。
# 中文分词库
NiuParser 中文句法语义分析系统
TextRank4ZH 用于自动从中文文本中提取关键词和摘要,基于 TextRank 算法,使用 Python 编写。安装本程序使用python 2.7测试没有问题,暂时不兼容python 3。先确定已经有jieba、numpy、networkx这三个库。Requires:decorator另外,请确保安装最新版本的jieba分词,TextRank4ZH需要新版本jieba提供的词性标注功能。每个单词作为pagerank中的一个节点。通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。
特性源代码都写进头文件src/*.hpp里,include即可使用。支持utf-8, gbk编码,但是推荐使用utf-8编码, 因为gbk编码缺少严格测试,慎用。内置分词服务server/server.cpp,在linux环境下可安装使用。项目自带较为完善的单元测试,核心功能中文分词的稳定性接受过线上环境检验。支持载自定义用户词典。支持linux,mac osx操作系统。用法依赖软件g++ or clang++;小明/硕士/毕业于/中国/科学院/计算所/,/后/在/日/本/京/都/大/学/深/造MixSe
});搜索引擎分词算法初始化varsegment=require;}非阻塞式调用segment.queryCut("非阻塞模式分词",function(wordList){
底层使用的依然是CppJieba。用法启动后在框里面输入待分词的句子,然后按回车键即可。致谢感谢 [fxjsy] 的结巴中文分词jieba。
TextGrocery 是一个基于SVM算法的短文本分类工具,内置了结巴分词,让文本分类变得简单。# 新开张一个杂货铺,别忘了取名!('education', '中国高考成绩海外认可 是“狼来了”吗?
CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。基于正向最大匹配的算法。词典使用DAWG结构,比传统的前缀树占用更少的内存空间。词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。
cwsharp-gocwsharp-go是golang的文本分词包,支持中文、英文以及中英混合词组,除此之外,提供自定义分词的扩展。分词算法cwsharp-go支持多种分词算法,你可以根据需求选择适合自己的或者自定义新的分词算法。mmseg-tokenizer标准的基于词典的分词方法。>> 世界/w 界人/w 人民/w 民大/w 大团/w 团结/w 结万/w 万岁/w !/pwhitespace-tokenizer标准的英文分词,无需字典,适合切分英文的内容,中文会被当做独立的字符输出。
GoJieba 是 Jieba 分词 的 Golang 语言版本分词库。搜索引擎模式:小明/硕士/毕业/于/中国/中国科学院/科学/科学院/学院/计算所/,/后/在/日本/日本京都大学/京都/京都大学/大学/深造 性能测试性能不错,因为GoJieba本身就是封装了 C++ 版本的CppJieba而成, 对比测试了一下,耗时大概是CppJieba的 1.2 倍。鉴于CppJieba性能还不错, 所以GoJieba性能还是可以的, 对于讲究性能的地方还是可以试试的。
elasticsearch-jieba-plugin 是 Jieba 中文分词插件。试用 Elasticsearch 5.1.2 版本,基于 huaban 开源的的 jieba java 实现。
# 中文分词库 # 网页组件
phpSplit 是一个基于php开发的中文分词库。本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译,本类里提供了 MakeDict() 方法。同事增加了以下3类标记*专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;*语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;*动词和形容词的子类标记,即名动词vn,名形词an,副动词vd,副形词ad. 合计约40个左右。
MySQL, 插件, 中文分词, 结巴分词, 全文检索, SqlJieba
# 数据库调整和优化 # 中文分词库
词典用双数组trie实现,分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。分词速度单线程9MB/s,goroutines并发42MB/s。//支持普通模式和搜索模式两种分词,见代码中SegmentsToString函数的注释。
博文的 java 实现,可以自动抽取语料库中的词汇,可以作为自然语言处理的第一步,准备词典。
特点可能不是最快的开源中文分词,但很可能是最准的开源中文分词。基于BiLSTM模型训练而成。包含分词,词性标注,实体识别, 都有比较高的准确率。text="一个傻子在北京". python-mfool[filename]用户自定义词典。词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1. text="我在北京天安门看你难受香菇". 注意暂时只在Python3 Linux 平台测试通过
ChineseUtilPHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转。PHP Chinese Tool class, support Chinese pinyin, pinyin participle, simplified and traditional conversion. 目前本类库拥有的三个功能,都是在实际开发过程中整理出来的。由于中文的博大精深,字有多音字,简体字和繁体字也有多种对应。并且本类库返回的所有结果,均为包含所有组合的数组。本类库字典数据总共收录 73925 个汉字,包括:39
THUOCL是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。包含词频统计信息 DF 值,方便用户个性化选择使用。词库经过多轮人工筛选,保证词库收录的准确性。开放更新,将不断更新现有词表,并推出更多类别词表。该词库可以用于中文自动分词,提升中文分词效果。可搭配THULAC 工具包使用,提升特定领域中文分词的效果。
安科网(Ancii),中国第一极客网
Copyright © 2013 - 2019 Ancii.com
京ICP备18063983号-5 京公网安备11010802014868号