当前位置：首页 > 知识库问答 >

问题：

通过限制语料库文档的字长来提高潜在狄氏分配（LDA）性能

充阳秋

2023-03-14

我一直在使用Python（gensim包）中的潜在Dirichlet分配（LDA）生成客户评论的yelp数据集的主题。在生成标记时，我只选择具有长度的单词

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w{3,}')
tokens = tokenizer.tokenize(review)

这将允许我们在创建语料库文档时过滤掉长度小于3的嘈杂单词

用LDA算法过滤掉这些单词将如何影响性能？

共有2个答案

庾鸿飞

2023-03-14

长度小于3的单词被视为停止词。LDAs生成主题，因此假设您生成此主题：

[我，他，她，他们，我们，和，或，对]

相比：

[鲨鱼，公牛，大白鲨，锤头鲸，鲸鱼]

哪个更能说明问题？这就是为什么删除stopwords很重要的原因。我就是这样做的：

# Create functions to lemmatize stem, and preprocess

# turn beautiful, beautifuly, beautified into stem beauti 
def lemmatize_stemming(text):
    stemmer = PorterStemmer()
    return stemmer.stem(WordNetLemmatizer().lemmatize(text, pos='v'))

# parse docs into individual words ignoring words that are less than 3 letters long
# and stopwords: him, her, them, for, there, ect since "their" is not a topic.
# then append the tolkens into a list
def preprocess(text):
    result = []
    for token in gensim.utils.simple_preprocess(text):
        newStopWords = ['your_stopword1', 'your_stopword2']
        if token not in gensim.parsing.preprocessing.STOPWORDS and token not in newStopWords and len(token) > 3:
            nltk.bigrams(token)
            result.append(lemmatize_stemming(token))
    return result

魏健柏

2023-03-14

一般来说，对于英语来说，一个字母和两个字母的单词不会添加有关主题的信息。如果它们没有增值，则应在预处理步骤中将其删除。与大多数算法一样，更少的数据将加快执行时间。

类似资料：

聚类 - LDA（隐式狄利克雷分布)

LDA是一种概率主题模型：隐式狄利克雷分布（Latent Dirichlet Allocation，简称LDA）。LDA是2003年提出的一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出。通过分析一些文档，我们可以抽取出它们的主题（分布），根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。一篇文档可以
doctest — 通过文档来测试

开始 # doctest_simple.py def my_function(a, b): """ >>> my_function(2, 3) 6 >>> my_function('a', 3) 'aaa' """ return a * b # doctest_simple_with_docs.py def my_function(a, b
限制炫耀文档的可见性

运行api服务后，我的swagger文档位于localhost： port/docs。这将显示我所有的api。无论如何，是否只显示某些api或某些标签下的api？也许某个标签下的所有api都有不同的文档url？我正在用快递运行它。
Spark中的潜在Dirichlet分配

我正试图在Spark中编写一个程序来执行潜在的Dirichlet分配（LDA）。这个Spark文档页面提供了一个在样本数据上执行LDA的好例子。下面是节目使用的示例输入（sample_lda_data.txt）如下所示如何修改程序以运行在包含文本数据而不是数字的文本数据文件上？让示例文件包含以下文本。潜在狄利克雷分配（LDA）是一种从文本文档集合中推断主题的主题模型。LDA可以被认为是一种聚
VBA 分配长字符串文字

本文向大家介绍VBA 分配长字符串文字，包括了VBA 分配长字符串文字的使用技巧和注意事项，需要的朋友参考一下示例 VBA编辑器每行只允许1023个字符，但是通常只有前100-150个字符可见而不滚动。如果需要分配长字符串文字，但又想保持代码可读性，则需要使用行连续和串联来分配字符串。 VBA允许您使用有限数量的行连续（实际数量根据连续块中每行的长度而变化），因此，如果您的字符串很长，则需要使用
如何在MySQL中通过连接提高性能的顺序

问题内容：我正在开发一个社交网络跟踪应用程序。即使连接正确，也可以正常工作。但是，当我添加order by子句时，总查询执行时间要长100倍。我用于获取不带order by子句的twitter_users的以下查询。显示第0-19行（共20行，查询耗时0.0714秒）但是当我添加order by子句（在索引列上）时显示第0-19行（共20行，查询耗时13.4636秒）解释当我仅在其表中

相关问答

Elasticsearch通过嵌套查询提高分数使用java从XSD文档中提取限制提高语音对文本的准确性[IBM Watson]提高配置单元jdbc的性能如何提高绘制BufferedImage的性能，由ComponentColorModel在Java语言中创建？

相关文章

SQL语句-如何通过索引提高速度如何通过__dict__分配新的类属性？通过谓词限制流 NLTK的高效术语文档矩阵 HTML属性的长度是否有限制？

相关阅读

用友高潜sp Java 一二面经蔚来高性能计算 1 2 3面 PDFBox分割PDF文档字节AML高性能一面凉总结用友java-sp面经（高潜意向）

相关工具

自动文字提示列表《Go语言高级编程》Ext4.1中文API文档 Sphinx 文档工具 jQueryAPI参考文档中文版

相关文档

Uragano 高性能 RPC 框架中文文档 Go 语言标准库中文文档 JCL 作业控制语言中文文档 React 库文档 KDB+ 高性能列式数据库中文教程