问题：

NLTK中词袋朴素贝叶斯分类器的实现

长孙鸿

2023-03-14

共有1个答案

范峰

2023-03-14

scikit-learn有一个多项式朴素贝叶斯的实现，这是朴素贝叶斯在这种情况下的正确变体。不过，支持向量机(SVM)可能会更好。

正如Ken在评论中指出的，NLTK为scikit-learn分类器提供了一个很好的包装器。根据文档修改后，这里有一个有点复杂的方法，它进行TF-IDF加权，根据chi2统计信息选择1000个最佳特征，然后将其传递给多项式朴素贝叶斯分类器。（我打赌这有点笨拙，因为我不太熟悉NLTK或SCIKIT-LEARN。）

import numpy as np
from nltk.probability import FreqDist
from nltk.classify import SklearnClassifier
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

pipeline = Pipeline([('tfidf', TfidfTransformer()),
                     ('chi2', SelectKBest(chi2, k=1000)),
                     ('nb', MultinomialNB())])
classif = SklearnClassifier(pipeline)

from nltk.corpus import movie_reviews
pos = [FreqDist(movie_reviews.words(i)) for i in movie_reviews.fileids('pos')]
neg = [FreqDist(movie_reviews.words(i)) for i in movie_reviews.fileids('neg')]
add_label = lambda lst, lab: [(x, lab) for x in lst]
classif.train(add_label(pos[:100], 'pos') + add_label(neg[:100], 'neg'))

l_pos = np.array(classif.classify_many(pos[100:]))
l_neg = np.array(classif.classify_many(neg[100:]))
print "Confusion matrix:\n%d\t%d\n%d\t%d" % (
          (l_pos == 'pos').sum(), (l_pos == 'neg').sum(),
          (l_neg == 'pos').sum(), (l_neg == 'neg').sum())

这是为我打印的：

Confusion matrix:
524     376
202     698

类似资料：

朴素贝叶斯 - 朴素贝叶斯

还是让我们回到运动员的例子。如果我问你Brittney Griner的运动项目是什么，她有6尺8寸高，207磅重，你会说“篮球”；我再问你对此分类的准确度有多少信心，你会回答“非常有信心”。我再问你Heather Zurich，6尺1寸高，重176磅，你可能就不能确定地说她是打篮球的了，至少不会像之前判定Brittney那样肯定。因为从Heather的身高体重来看她也有可能是跑马拉松的。最后，
朴素贝叶斯 - 使用Python编写朴素贝叶斯分类器

上例的数据格式如下： both sedentary moderate yes i100 both sedentary moderate no i100 health sedentary moderate yes i500 appearance active moderate yes i500 appearance moderate aggressive yes i500
在NLTK中保存朴素贝叶斯训练分类器

问题内容：关于如何保存经过训练的分类器，我有些困惑。就像在其中一样，每次我想使用分类器时都要对其进行重新训练显然很糟糕而且很慢，如何保存它并在需要时再次加载它？代码如下，在此先感谢您的帮助。我正在将Python与NLTK朴素贝叶斯分类器一起使用。问题答案：保存：稍后加载：
训练朴素贝叶斯分类器

我正在开发一个朴素的贝叶斯分类器使用简单的词袋概念。我的问题是，在朴素贝叶斯或任何其他机器学习中，senario'训练‘分类器是一个重要的问题。但是当我已经有了一个不同类别的词包时，如何训练朴素贝叶斯分类器呢？
朴素贝叶斯

我们会在这章探索朴素贝叶斯分类算法，使用概率密度函数来处理数值型数据。内容：朴素贝叶斯微软购物车贝叶斯法则为什么我们需要贝叶斯法则？ i100、i500健康手环使用Python编写朴素贝叶斯分类器共和党还是民主党数值型数据使用Python实现
朴素贝叶斯

在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法，也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。朴素贝叶斯

NLTK中词袋朴素贝叶斯分类器的实现

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档