当前位置: 首页 > 软件库 > 程序开发 > 中文分词库 >

TextGrocery

短文本分类工具
授权协议 GPL
开发语言 C/C++ Python
所属分类 程序开发、 中文分词库
软件类型 开源软件
地区 国产
投 递 者 闾丘英悟
操作系统 Windows
开源组织
适用人群 未知
 软件概览

TextGrocery 是一个基于SVM算法的短文本分类工具,内置了结巴分词,让文本分类变得简单。

示例代码:

>>> from tgrocery import Grocery
# 新开张一个杂货铺,别忘了取名!
>>> grocery = Grocery('sample')
# 训练文本可以用列表传入
>>> train_src = [
    ('education', '名师指导托福语法技巧:名词的复数形式'),
    ('education', '中国高考成绩海外认可 是“狼来了”吗?'),
    ('sports', '图文:法网孟菲尔斯苦战进16强 孟菲尔斯怒吼'),
    ('sports', '四川丹棱举行全国长距登山挑战赛 近万人参与')
]
>>> grocery.train(train_src)
# 也可以用文件传入
>>> grocery.train('train_ch.txt')
# 保存模型
>>> grocery.save()
# 加载模型(名字和保存的一样)
>>> new_grocery = Grocery('sample')
>>> new_grocery.load()
# 预测
>>> new_grocery.predict('考生必读:新托福写作考试评分标准')
education
# 测试
>>> test_src = [
    ('education', '福建春季公务员考试报名18日截止 2月6日考试'),
    ('sports', '意甲首轮补赛交战记录:米兰客场8战不败国米10年连胜'),
]
>>> new_grocery.test(test_src)
# 准确率
0.5
# 同样可以用文本传入
>>> new_grocery.test('test_ch.txt')
# 自定义分词器
>>> custom_grocery = Grocery('custom', custom_tokenize=list)
  • TextGrocery是一个基于LibLinear和结巴分词的短文本分类工具,特点是高效易用,同时支持中文和英文语料。 GitHub项目链接 具体的使用可以参考:文档 1、安装 通过GitHub(最新版本) git clone https://github.com/2shou/TextGrocery.git --depth=1 cd TextGrocery make 2、通过pip(更稳定) pi

  • TextGrocery是一款高效的短文本分类工具,该封装包集成了对文本的一些处理,但是该项目作者目前已不再维护此项目,最新版本只支持python2 。 虽然anaconda创建一个新的python2环境很容易,但是我已经习惯了用pyhon3,因此需要做些修改。那该如何修改呢?当然是问度娘了,找了一会发现简书上的一篇文章说得相对比较全,我就在此记录一下,如何在python3下使用TextGrocer

  • >>>  from  tgrocery  import  Grocery # 新开张一个杂货铺,别忘了取名! >>> grocery  =  Grocery( 'sample' ) # 训练文本可以用列表传入 >>> train_src  = [      ( 'education' ,  '名师指导托福语法技巧:名词的复数形式' ),      ( 'education' ,  '中国高考成绩海

  •   在安装tgrocery的时候会报错,而且会一直出现错误,看以前也没有具体写tgrocery安装报错如何处置的文章,写一下自己在安装tgrocery过程中遇到的问题。可能这篇文章有点长,因为遇到的问题很多。 两点说明 据说这个包只能在linux下跑 本人也是在linux环境下跑的 在windows环境下没有实际测试过 这个包是用python2 写的所以和python3有些兼容的问题 但是按照下面

  • 最近在学习文本分类相关内容,看到了有资料用TextGrocery来做,所以想上手试一试。因为我用惯了python3,所以想在python3上做,但是发现了很多问题。下面我们对这些问题进行解决。 温馨提示:如果你是python2,完全可以直接用2做,真的没有必要用3(哭了,本人强迫症吧可能*~*)。 确认安装好相应包 首先我们要知道这个包只能在Linux环境下运行,我在windows下试过,安装包时

  • 详细使用说明:http://textgrocery.readthedocs.io/zh/latest/index.html TextGrocery是一个基于LibLinear和结巴分词的短文本分类工具,特点是高效易用,同时支持中文和英文语料。 GitHub项目链接 需要安装: pip install classifier  过程: >>> from tgrocery import Grocery

  • 古龙说,无论什么东西,最好的都只有一种。经历半年的文本分类实践,我们基本已断定,最好的文本分类算法就是SVM – 支持向量机。 但是纵然知道了天机,新手做文本分类仍然需要学习不少东西,例如算法原理、分词、向量化等等。如果用上scikit-learn这样的庞然大物,更有种高射炮打蚊子的异样感。 有没有可能把最好的文本分类算法,包装成一个超级简单的工具提供给大家? 这是我开发TextGrocery的初

  • http://textgrocery.readthedocs.io/zh/latest/index.html http://www.jianshu.com/p/9d6bf22eb4bb

 相关资料
  • 根据Joulin等人的论文: Bags of Tricks for Efficient Text Classification 在具有 uni-gram 和 bi-gram 嵌入的 IMDB 数据集上的结果: Embedding Accuracy, 5 epochs Speed (s/epoch) Hardware Uni-gram 0.8813 8 i7 CPU Bi-gram 0.9056 2

  • 2个轮次后达到 0.89 的测试精度。 </br> 在 Intel i5 2.4Ghz CPU 上每轮次 90秒。 </br> 在 Tesla K40 GPU 上每轮次 10秒。 from __future__ import print_function from keras.preprocessing import sequence from keras.models import Seque

  • 问题内容: 我有一组Books对象, Book 类定义如下: 当 标题 是书,例如标题: JavaScript来假人 。 和 taglist 是我们示例的标签列表: Javascript,jquery,“ web dev”,.. 正如我所说,有一本书谈论不同的事物:IT,生物学,历史……每本书都有一个标题和一组描述它的标签。 我必须按主题自动将这些书分类为单独的集合,例如: 书: 傻瓜Java 假

  • 模式识别是自然语言处理的一个核心部分。以-ed结尾的词往往是过去时态动词(5.)。频繁使用will是新闻文本的暗示(3)。这些可观察到的模式——词的结构和词频——恰好与特定方面的含义关联,如时态和主题。但我们怎么知道从哪里开始寻找,形式的哪一方面关联含义的哪一方面? 本章的目的是要回答下列问题: 我们怎样才能识别语言数据中能明显用于对其分类的特征? 我们怎样才能构建语言模型,用于自动执行语言处理任

  • 本文向大家介绍java文件读写工具类分享,包括了java文件读写工具类分享的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了java文件读写工具类的具体代码,供大家参考,具体内容如下 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。

  • 这个例子展示了如何使用 scikit-learn 中的单词包方法,根据主题对文档进行分类。本例使用scipy.sparse中的矩阵来存储特征,并演示各种能够有效处理稀疏矩阵的分类器。 本例中使用的数据集是20条新闻组数据集。通过scikit-learn可以自动下载该数据集,并进行缓存。 下述条形图展示了各个不同分类器,其信息包括精度、训练时间(已归一化)和测试时间(已归一化)。 import lo