klassify是一款根据复述实时web界面进行文本分类服务的软件。
功能:
垃圾邮件过滤
网页分类
新闻和主题分类
观点分析
图片效果:
安装:
pip install klassify
用法:
python -m klassify
命令行选项:
--port run on the given port (default 8888) --prefix prefix that will be used in redis keys (default klassify) --redis-db redis database (default 0) --redis-host redis host (default localhost) --redis-port redis port (default 6379)
根据Joulin等人的论文: Bags of Tricks for Efficient Text Classification 在具有 uni-gram 和 bi-gram 嵌入的 IMDB 数据集上的结果: Embedding Accuracy, 5 epochs Speed (s/epoch) Hardware Uni-gram 0.8813 8 i7 CPU Bi-gram 0.9056 2
2个轮次后达到 0.89 的测试精度。 </br> 在 Intel i5 2.4Ghz CPU 上每轮次 90秒。 </br> 在 Tesla K40 GPU 上每轮次 10秒。 from __future__ import print_function from keras.preprocessing import sequence from keras.models import Seque
问题内容: 我有一组Books对象, Book 类定义如下: 当 标题 是书,例如标题: JavaScript来假人 。 和 taglist 是我们示例的标签列表: Javascript,jquery,“ web dev”,.. 正如我所说,有一本书谈论不同的事物:IT,生物学,历史……每本书都有一个标题和一组描述它的标签。 我必须按主题自动将这些书分类为单独的集合,例如: 书: 傻瓜Java 假
模式识别是自然语言处理的一个核心部分。以-ed结尾的词往往是过去时态动词(5.)。频繁使用will是新闻文本的暗示(3)。这些可观察到的模式——词的结构和词频——恰好与特定方面的含义关联,如时态和主题。但我们怎么知道从哪里开始寻找,形式的哪一方面关联含义的哪一方面? 本章的目的是要回答下列问题: 我们怎样才能识别语言数据中能明显用于对其分类的特征? 我们怎样才能构建语言模型,用于自动执行语言处理任
这个例子展示了如何使用 scikit-learn 中的单词包方法,根据主题对文档进行分类。本例使用scipy.sparse中的矩阵来存储特征,并演示各种能够有效处理稀疏矩阵的分类器。 本例中使用的数据集是20条新闻组数据集。通过scikit-learn可以自动下载该数据集,并进行缓存。 下述条形图展示了各个不同分类器,其信息包括精度、训练时间(已归一化)和测试时间(已归一化)。 import lo
您的应用程序可能需要通用的纯文本配置文件,而不是使用Environment抽象(或YAML中的其他替代表示形式或属性格式)。配置服务器通过/{name}/{profile}/{label}/{path}附加的端点提供这些服务,其中“name”,“profile”和“label”的含义与常规环境端点相同,但“path”是文件名(例如log.xml )。此端点的源文件位于与环境端点相同的方式:与属性或