我已经读到,主题建模(从文本中提取可能的主题)最常用的技术是潜在的Dirichlet分配(LDA)。但最近我了解到另一款lda2vec。然而,我感兴趣的是尝试Word2Vec输出作为LDA的输入是否是一个好主意。
你认为为了一些研究而采用这种方法有意义吗?因为我正在做主题建模,所以需要一些新颖的方法。
这是个好主意,而且已经有一些论文了。我建议您搜索“word嵌入LDA”而不是word2vec。有趣的是,就连大卫·布莱本人(LDA的发明者)在最近的一次采访中也表示,他正在考虑做类似的事情。
我不熟悉主题建模/潜在Dirichlet分配,并且难以理解如何将该概念应用于我的数据集(或者它是否是正确的方法)。 我有少量的文学文本(小说),并希望使用LDA提取一些一般主题。 我正在使用Python中的模块以及一些特性。为了进行测试,我将我的原始文本(仅6篇)分成30个块,每个块有1000个单词。然后,我将块转换为文档术语矩阵,并运行该算法。这就是代码(尽管我认为这与问题无关): 然而,结果与
我有Android和Windows 7设置,并且我的音频插座在Windows 7机器上不起作用,我想用我的Android替代我的音频插座,使我能够使用蓝牙或USB连接连接耳机或扬声器等外部音频设备。这可能吗?我看过一些关于将手机用作麦克风(输入)的文章,但到目前为止还没有关于将其用作输入/输出的文章。
我正在使用gensim lda进行主题建模并获得如下结果: 主题1:word1 word2 word3 word4 主题2:word4 word1 word2 word5 主题3:word1 word4 word5 word6 然而,在同一个lda上使用木槌不会产生跨主题的重复单词。我有大约20份文件
我正在使用Spring Cloud Stream Kafka Binder。我有以下Kafka活页夹函数。 在yml中,我有: 如果我想从同一个功能向两个不同的主题发送数据,我需要做什么?
我尝试使用jOOQ作为模式生成器来生成DDL语句,然后再生成SQL insert语句。 底层数据来自静态CSV文件,我基本上希望编写一个静态SQL脚本,其中包括创建模式和插入数据的语句;只是一个转储文件。 例如,我有一个包含表definition的Groovy类: 如果我想添加主键和可能的外键、索引等,它会变得更加复杂。 在调用时没有添加这些内容,这是预期的行为吗? 注意:我手动创建,因为我没有源