当前位置: 首页 > 面试题库 >

Java文本分类问题

李鸿
2023-03-14
问题内容

我有一组Books对象, Book 类定义如下:

Class Book{

String title;
ArrayList<tags> taglist;

}

标题 是书,例如标题: JavaScript来假人

taglist 是我们示例的标签列表: Javascript,jquery,“ web dev”,..

正如我所说,有一本书谈论不同的事物:IT,生物学,历史……每本书都有一个标题和一组描述它的标签。

我必须按主题自动将这些书分类为单独的集合,例如:

书:

  • 傻瓜Java
  • 假人的Javascript
  • 在30天内学习Flash
  • C ++程式设计

历史记录:

  • 世界大战
  • 1960年的美国
  • 马丁·路德·金的生平

生物学书籍:

  • ....

你们知道用于此类问题的分类算法/方法吗?

一种解决方案是使用外部API定义文本的类别,但是这里的问题是书籍使用不同的语言:法语,西班牙语,英语..


问题答案:

这看起来像一个相当简单的基于关键字的分类任务。由于您使用的是Java,因此考虑使用的好的软件包是
Classifier4J

Weka
Lucene
Mahout

分类器4J

Classifier4J支持使用
朴素贝叶斯
向量空间 模型进行分类。

从使用朴素的贝叶斯分类器进行训练和评分的
源代码片段中
可以看出,该软件包相当易于使用。它还根据宽松的Apache软件许可进行分发。

威卡

Weka是一种非常流行的数据挖掘工具。使用它的优点是您可以轻松地尝试使用多种不同的机器学习模型将这些书归类为各个主题,包括
朴素贝叶斯
决策树
支持向量机
k最近邻
逻辑回归 ,甚至是
基于规则集的学习者

您可以在 此处
找到有关使用Weka进行文本分类的教程。

但是,Weka是根据GPL发行的。您将无法将其用于要分发的封闭源软件。但是,您仍然可以使用它来支持Web服务。

露西娜·马豪(Lucene Mahout)

Mahout设计用于对非常大的数据集进行机器学习。它基于Apache
Hadoop构建,并支持使用朴素贝叶斯进行监督分类。

您将
在此处
找到有关如何使用Mahout进行文本分类的教程。

与Classifier4J一样,Mahout在自由Apache软件许可下分发。



 类似资料:
  • 我正在研究一个文本分类问题,其中多个文本特征和需要建立一个模型来预测工资范围。请参考示例数据集,大多数资源/教程只处理一列的特征提取,然后预测目标。我了解了文本预处理、特征提取(CountVectorizer或TF-IDF)以及应用算法等过程。 在这个问题中,我有多个输入文本特性。当涉及多个特征时,如何处理文本分类问题?这些是我已经尝试过的方法,但我不确定这些是否是正确的方法。请提供您的意见/建议

  • 根据Joulin等人的论文: Bags of Tricks for Efficient Text Classification 在具有 uni-gram 和 bi-gram 嵌入的 IMDB 数据集上的结果: Embedding Accuracy, 5 epochs Speed (s/epoch) Hardware Uni-gram 0.8813 8 i7 CPU Bi-gram 0.9056 2

  • 问题内容: 我正在寻找一种Java驱动的解决方案来满足分析句子以记录关键字是肯定还是否定使用的要求。 即关键词可能是’白菜’和句子: 我喜欢白菜而不喜欢豌豆 我想要某种Java文本分析器将此记录为肯定。可以使用lucene(休眠搜索)库吗? 有什么想法吗? 问题答案: 您正在寻找“情感分析”。LingPipe是一种可能,他也与竞争对手保持友好联系。Jeff Dalton 的博客中还提供了大量自然语

  • 2个轮次后达到 0.89 的测试精度。 </br> 在 Intel i5 2.4Ghz CPU 上每轮次 90秒。 </br> 在 Tesla K40 GPU 上每轮次 10秒。 from __future__ import print_function from keras.preprocessing import sequence from keras.models import Seque

  • 模式识别是自然语言处理的一个核心部分。以-ed结尾的词往往是过去时态动词(5.)。频繁使用will是新闻文本的暗示(3)。这些可观察到的模式——词的结构和词频——恰好与特定方面的含义关联,如时态和主题。但我们怎么知道从哪里开始寻找,形式的哪一方面关联含义的哪一方面? 本章的目的是要回答下列问题: 我们怎样才能识别语言数据中能明显用于对其分类的特征? 我们怎样才能构建语言模型,用于自动执行语言处理任

  • 从多个文本列中提取特征并对其应用任何分类算法的正确方法是什么?如果我做错了,请建议我 示例数据集 自变量:描述1、描述2、状态、NumericCol1、NumericCol2 依赖变量:TargetClass 代码: