在NLTK中实现单词袋Naive-Bayes分类器

云光明

2023-03-14

问题内容：

我基本上和这个人有同样的问题..
NLTK书中针对朴素贝叶斯分类器的示例仅考虑单词是否在文档中作为特征出现。它不考虑单词的出现频率作为特征。看一下（“词袋”）。

答案之一似乎表明，内置NLTK分类器无法做到这一点。是这样吗
如何使用NLTK进行频率/词袋NB分类？

为了进行培训，请创建可用于创建ProbDists的适当的FreqDist，然后再将其传递给NaiveBayesClassifier。但是分类实际上适用于使用布尔值而非频率的特征集。因此，如果要基于FreqDist进行分类，则必须实现自己的分类器，该分类器不使用NLTK功能集。

问题答案：

scikit学习有多项朴素贝叶斯的实现，这是在这种情况下朴素贝叶斯权变种。不过，支持向量机（SVM）可能会更好地工作。

正如Ken在评论中指出的那样，NLTK对于scikit-
learn分类器来说是一个很好的包装器
。根据文档进行了修改，这是一个有点复杂的操作，它执行TF-
IDF加权，根据chi2统计量选择1000个最佳功能，然后将其传递给多项式朴素的贝叶斯分类器。（我打赌这有点笨拙，因为我对NLTK或scikit-
learn都不是很熟悉。）

import numpy as np
from nltk.probability import FreqDist
from nltk.classify import SklearnClassifier
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

pipeline = Pipeline([('tfidf', TfidfTransformer()),
                     ('chi2', SelectKBest(chi2, k=1000)),
                     ('nb', MultinomialNB())])
classif = SklearnClassifier(pipeline)

from nltk.corpus import movie_reviews
pos = [FreqDist(movie_reviews.words(i)) for i in movie_reviews.fileids('pos')]
neg = [FreqDist(movie_reviews.words(i)) for i in movie_reviews.fileids('neg')]
add_label = lambda lst, lab: [(x, lab) for x in lst]
classif.train(add_label(pos[:100], 'pos') + add_label(neg[:100], 'neg'))

l_pos = np.array(classif.classify_many(pos[100:]))
l_neg = np.array(classif.classify_many(neg[100:]))
print "Confusion matrix:\n%d\t%d\n%d\t%d" % (
          (l_pos == 'pos').sum(), (l_pos == 'neg').sum(),
          (l_neg == 'pos').sum(), (l_neg == 'neg').sum())

这印给我：

Confusion matrix:
524     376
202     698

考虑到这不是一个超级容易的问题，它并不完美，但还算不错，并且仅接受100/100的培训。

在NLTK中实现单词袋Naive-Bayes分类器

相关阅读

相关文章

相关问答

相关工具

相关文档