当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

text-classifier-collection

Java 文本分类器集合
授权协议 GPL
开发语言 Java
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 蔚元明
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

text-classifier-collection 是一个文本分类器集合。一个强大易用的Java文本分类工具包

特色

  • 功能全面

    • 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等

    • 内置SVM、kNN、朴素贝叶斯等多种分类器

    • 内置支持CSV等格式数据的读取

  • 高度可定制

    • 你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等

    • 可以轻易实现你自己的分类器而与工具包中其它工具一起使用

  • 容易使用

    • 可自动按给定数据集选取最优分类器

    • 与Java8引入的流和函数式API无缝结合

效果

数据集 样本数 分类数 准确率
YouTube Spam Collection 1956 2 92.1%
SMS Spam Collection 5574 2 98.2%
Sentence Classification 1510 5 80.4%
Reuters-21578 Text Categorization Collection 21578 135 59.8%
Reuters-21578 Text Categorization Collection 21578 175 67.8%
  • 摘要:本文为BERT模型的run_classifier.py的详细注释,便于了解这个微调脚本究竟做了什么?模型可调参数有哪些?自己写一个processor的类,需要注意哪些?想要运行这个脚本,需要传入哪些参数?尽在本文详细注释! # coding=utf-8 # bert注解版 # raw author: Google # explain author:putdoor """BERT finet

  • 抱着学习的心态,来转载这篇博客,如有侵犯,请联系删除 原文链接:链接点这里 # coding=utf-8 # bert注解版 # raw author: Google # explain author:putdoor """BERT finetuning runner.""" from __future__ import absolute_import from __future__ impo

  • """Training a face recognizer with TensorFlow based on the FaceNet paper FaceNet: A Unified Embedding for Face Recognition and Clustering: http://arxiv.org/abs/1503.03832 """ # MIT License # # Copyri

  • 这是转自官方的http://opencv.itseez.com/master/dc/d88/tutorial_traincascade.html 收了,以后方便看 Introduction The work with a cascade classifier inlcudes two major stages: training and detection. Detection stage is

 相关资料
  • 分类法/范例四: Classifier comparison 这个范例的主要目的 比较各种分类器 利用图示法观察各种分类器的分类边界及区域 (一)引入函式并准备分类器 将分类器引入之后存放入一个list裏 这边要注意 sklearn.discriminant_analysis 必需要 sklearn 0.17以上才能执行 import numpy as np import matplotlib.p

  • 文本组件呈现带符号距离字段(SDF)字体文本。 简介 请注意,在3D中渲染文本是困难的。在2d web开发中,文本是最基本的东西,因为浏览器的渲染器和布局引擎处理一切。而浏览器目前尚未对3d环境中的文本提供这么强大的内在支持。在A-Frame中呈现文本还有其他几种不同的方法,包括: 3D文本几何体 HTML材质(DOM-to-Canvas-to-Texture) 图像贴图 默认情况下,我们选择了基

  • 文本格式 This text is styled with some of the text formatting properties. The heading uses the text-align, text-transform, and color properties. The paragraph is indented, aligned, and the space between c

  • 传统图像中的文本实际上是已经栅格(像素)化为了点阵图,并不再具备文本的特性。 而SVG图像中的文本由于是独立对象存在,要灵活得多,可以实现更多的图文交互效果,而且可以被搜索引擎所索引。 不过SVG文本不能自动换行,不适合用来描述大段动态文本,这是一个缺点。 text 标签 text 标签用来创建SVG文本元素。 例子1 - 简单文本和变换 代码如下: 代码解释如下: x="" 指明文字的左下角的X

  • 这是一个非常简单的 Python 库,实现了朴素贝叶斯分类器。 示例代码: """Suppose you have some texts of news and know their categories.You want to train a system with this pre-categorized/pre-classified texts. So, you have better ca

  • 本章介绍如何使用Java从Word文档中提取简单文本数据。 如果要从Word文档中提取元数据,请使用Apache Tika。 对于.docx文件,我们使用类org.apache.poi.xwpf.extractor.XPFFWordExtractor,它从Word文件中提取并返回简单数据。 同样,我们有不同的方法从Word文件中提取标题,脚注,表格数据等。 以下代码显示如何从Word文件中提取简单