LDA*

优质

小牛编辑

131浏览

2023-12-01

LDA*（Latent Dirichlet Allocation）

LDA是一种常见的主题模型算法。简单来说它是一个贝叶斯概率生成模型，用于对文档集进行降维或者潜在语义分析。

1. 算法介绍

整体说明

给定一个语料库。语料库中的词整体构成了一个词汇表中采样出一个中采样出该词的话题中采样出单词, SparseLDA, AliasLDA, F+LDA, LightLDA和WarpLDA。我们通过实验和分析, 认为F+LDA比较适合用于在Angel上进行LDA模型的训练。

Collapsed Gibbs Sampling

如果我们使用的后验概率分布。 CGS通过分布之间共轭的性质将。从而F+LDA的复杂度为，分配到了多少个词语（value)。word-topic是预测时必须的参数，如要进行预测，请保存word-topic。一般根据word-topic，可以估计出每个word在话题上的分布。如果发现一些word没有话题分配信息，是因为这个词语在整个文档集中没有出现。

topic.word.distribution: 每行是一个话题，格式为libsvm，第一个元素是topic id，后面的key:value表示每个话题在词语集合上的概率分布。我们这里也只给出了非零赋值的概率，剩余的词语概率相等，可以自行算出。

性能
- 测试数据
- PubMED 数据集
- 资源
- worker：20个
- ps：20个
- Angel vs Spark: 迭代100次的训练时间
  - Angel：15min
- Spark：>300min

Reference

Lele Yu, Bin Cui, Ce Zhang, Yingxia Shao. LDA*: A Robust and Large-scale Topic Modeling System. VLDB, 2017

项目地址：https://github.com/Angel-ML/angel
官网：https://angelml.ai/