当前位置：首页 > 软件库 > 程序开发 > 中文分词库 >

text-classifier-collection

Java 文本分类器集合

授权协议 GPL

开发语言 Java

所属分类程序开发、中文分词库

软件类型开源软件

地区国产

投递者蔚元明

操作系统跨平台

开源组织无

适用人群未知

软件概览

text-classifier-collection 是一个文本分类器集合。一个强大易用的Java文本分类工具包

功能全面
- 内置信息检索中各种常用的文本预处理方法，如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等
- 内置SVM、kNN、朴素贝叶斯等多种分类器
- 内置支持CSV等格式数据的读取
高度可定制
- 你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等
- 可以轻易实现你自己的分类器而与工具包中其它工具一起使用
容易使用
- 可自动按给定数据集选取最优分类器
- 与Java8引入的流和函数式API无缝结合

数据集	样本数	分类数	准确率
YouTube Spam Collection	1956	2	92.1%
SMS Spam Collection	5574	2	98.2%
Sentence Classification	1510	5	80.4%
Reuters-21578 Text Categorization Collection	21578	135	59.8%
Reuters-21578 Text Categorization Collection	21578	175	67.8%

使用案例

BERT源码注释(run_classifier.py) - 全网最详细

摘要：本文为BERT模型的run_classifier.py的详细注释，便于了解这个微调脚本究竟做了什么？模型可调参数有哪些？自己写一个processor的类，需要注意哪些？想要运行这个脚本，需要传入哪些参数？尽在本文详细注释！ # coding=utf-8 # bert注解版 # raw author: Google # explain author：putdoor """BERT finet
BERT源码注释(run_classifier.py) - 全网最详细-【转载】

抱着学习的心态，来转载这篇博客，如有侵犯，请联系删除原文链接：链接点这里 # coding=utf-8 # bert注解版 # raw author: Google # explain author：putdoor """BERT finetuning runner.""" from __future__ import absolute_import from __future__ impo
facenet源码解读——facenet_train_classifier.py

"""Training a face recognizer with TensorFlow based on the FaceNet paper FaceNet: A Unified Embedding for Face Recognition and Clustering: http://arxiv.org/abs/1503.03832 """ # MIT License # # Copyri
第五十二篇：Cascade Classifier Training详解

这是转自官方的http://opencv.itseez.com/master/dc/d88/tutorial_traincascade.html 收了，以后方便看 Introduction The work with a cascade classifier inlcudes two major stages: training and detection. Detection stage is