text-classifier-collection Java 文本分类器集合 项目简介
文本分类器集合一个强大易用的Java文本分类工具包特色功能全面内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等内置SVM、kNN、朴素贝叶斯等多种分类器内置支持CSV等格式数据的读取高度可定制你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等可以轻易实现你自己的分类器而与工具包中其它工具一起使用容易使用可自动按给定数据集选取最优分类器与Java8引入的流和函数式API无缝结合效果数据集样本数分类数准确率YouTube Spam Collection1956292.1%SMS Spam Collection5574298.2%Sentence Classification1510580.4%Reuters-21578 Text Categorization Collection2157813559.8%Reuters-21578 Text Categorization Collection2157817567.8%