当前位置: 首页 > 知识库问答 >
问题:

Stanford NLP文本分类器,自定义特征和混淆矩阵

吉岳
2023-03-14

我使用Stanford NLP文本分类器(ColumnDataClassifier)从我的Java代码。我有两个主要问题。

共有1个答案

闻人嘉木
2023-03-14

>

  • 我在这里问了一个相关的问题。ColumnDataClassifier没有在混淆矩阵中输出指标的选项。但是,如果查看columndataclassifier.java中的代码,可以看到TP、FP、TN、FN在哪里被输出到stdin。这个地方有你需要的原始价值。它可以用于将这些聚合到混淆矩阵中并在运行后输出的方法,但您必须自己编写这段代码。

    wiki中有一个如何在columndataclassifier中使用数值特性的示例。如果您使用数值特性,请查看API中的这些选项,这些选项允许您应用一些转换:

    realValued  boolean false   Treat this column as real-valued and do not perform any transforms on the feature value.    Value
    logTransform    boolean false   Treat this column as real-valued and use the log of the value as the feature value. Log
    logitTransform  boolean false   Treat this column as real-valued and use the logit of the value as the feature value.   Logit
    sqrtTransform   boolean false   Treat this column as real-valued and use the square root of the value as the feature value. Sqrt
    

  •  类似资料:
    • 目前我们衡量分类器准确率的方式是使用以下公式:正确分类的记录数÷记录总数。 有时我们会需要一个更为详细的评价结果,这时就会用到一个称为混淆矩阵的可视化表格。 表格的行表示测试用例实际所属的类别,列则表示分类器的判断结果。 混淆矩阵可以帮助我们快速识别出分类器到底在哪些类别上发生了混淆,因此得名。 让我们看看运动员的示例,这个数据集中有300人,使用十折交叉验证,其混淆矩阵如下: 可以看到,100个

    • 对不起,我是新来WEKA,刚刚学习。 在我的决策树(J48)分类器输出中,有一个混淆矩阵: 我如何读取这个矩阵?

    • 在Kotlin中,< code>var是可变的,而< code>val只能赋值一次。 但是,请考虑以下示例中的< code>val foo: 每次尝试访问,都会执行方法,从而产生不同的val值。 由于< code>foo的值在变化,所以我尝试使用< code>var。然后编译器抱怨“属性必须初始化”。所以我必须给它一个默认值: 这两种方法我都不喜欢。正确的做法是什么?

    • 3.4.4 使用混淆 自从 Gradle plugin for ProGuard 4.10 版本以后,Gradle 开始支持混淆。如果通过 Build Type 的 minifyEnabled 属性配置了使用混淆后,The ProGuard plugin 会自动被应用,并且自动创建一些任务。 android { buildTypes { release {

    • 这个例子展示了如何使用 scikit-learn 中的单词包方法,根据主题对文档进行分类。本例使用scipy.sparse中的矩阵来存储特征,并演示各种能够有效处理稀疏矩阵的分类器。 本例中使用的数据集是20条新闻组数据集。通过scikit-learn可以自动下载该数据集,并进行缓存。 下述条形图展示了各个不同分类器,其信息包括精度、训练时间(已归一化)和测试时间(已归一化)。 import lo

    • 问题内容: 我目前正在研究一个项目,一个 简单的情感分析器,* 这样在 单独的情况下 将有 2和3个类 。我使用的 语料库 在 唯一词方面 非常 丰富 (大约200.000)。我用 袋的词 方法用于 特征选择 和以减少的数量 独特特征 ,进行消除由于一个进行 阈值 的 出现频率 。在 最后一组的功能 包括围绕20.000的功能,这实际上是一个 90%的下降 ,但 还不够 用于预期 的测试预测 *准