当前位置: 首页 > 知识库问答 >
问题:

在主题建模中使用Word2vec输出作为LDA的输入

秋光熙
2023-03-14

我已经读到,主题建模(从文本中提取可能的主题)最常用的技术是潜在的Dirichlet分配(LDA)。但最近我了解到另一款lda2vec。然而,我感兴趣的是尝试Word2Vec输出作为LDA的输入是否是一个好主意。

你认为为了一些研究而采用这种方法有意义吗?因为我正在做主题建模,所以需要一些新颖的方法。

共有1个答案

皇甫才良
2023-03-14

这是个好主意,而且已经有一些论文了。我建议您搜索“word嵌入LDA”而不是word2vec。有趣的是,就连大卫·布莱本人(LDA的发明者)在最近的一次采访中也表示,他正在考虑做类似的事情。

 类似资料:
  • 我不熟悉主题建模/潜在Dirichlet分配,并且难以理解如何将该概念应用于我的数据集(或者它是否是正确的方法)。 我有少量的文学文本(小说),并希望使用LDA提取一些一般主题。 我正在使用Python中的模块以及一些特性。为了进行测试,我将我的原始文本(仅6篇)分成30个块,每个块有1000个单词。然后,我将块转换为文档术语矩阵,并运行该算法。这就是代码(尽管我认为这与问题无关): 然而,结果与

  • 我有Android和Windows 7设置,并且我的音频插座在Windows 7机器上不起作用,我想用我的Android替代我的音频插座,使我能够使用蓝牙或USB连接连接耳机或扬声器等外部音频设备。这可能吗?我看过一些关于将手机用作麦克风(输入)的文章,但到目前为止还没有关于将其用作输入/输出的文章。

  • 我正在使用gensim lda进行主题建模并获得如下结果: 主题1:word1 word2 word3 word4 主题2:word4 word1 word2 word5 主题3:word1 word4 word5 word6 然而,在同一个lda上使用木槌不会产生跨主题的重复单词。我有大约20份文件

  • 我正在使用Spring Cloud Stream Kafka Binder。我有以下Kafka活页夹函数。 在yml中,我有: 如果我想从同一个功能向两个不同的主题发送数据,我需要做什么?

  • 我对Kafka流很陌生,遇到了一个问题。 我有两个表 - 一个用于长期数据(描述),另一个用于实时数据(实时)。他们有一个共同的ID。 这个想法是存储来自描述的数据(假设在KTable中,为每个id保存最新的描述),当新消息出现在live - join中时,使用来自相应id上的描述的数据,并进一步发送它。 为简单起见,我们只使所有类型都为 String。 所以基本的想法就像我看过的所有教程一样: