LDA*
优质
小牛编辑
128浏览
2023-12-01
LDA*(Latent Dirichlet Allocation)
LDA是一种常见的主题模型算法。简单来说它是一个贝叶斯概率生成模型,用于对文档集进行降维或者潜在语义分析。
1. 算法介绍
整体说明
给定一个语料库。 语料库中的词整体构成了一个词汇表中采样出 一个 中采样出该词的话题 中采样出单词, SparseLDA, AliasLDA, F+LDA, LightLDA和WarpLDA。 我们通过实验和分析, 认为F+LDA比较适合用于在Angel上进行LDA模型的训练。
Collapsed Gibbs Sampling
如果我们使用的后验概率分布。 CGS通过分布之间共轭的性质将。 从而F+LDA的复杂度为, 分配到了多少个词语(value)。word-topic是预测时必须的参数,如要进行预测,请保存word-topic。一般根据word-topic,可以估计出每个word在话题上的分布。如果发现一些word没有话题分配信息,是因为这个词语在整个文档集中没有出现。
性能
- 测试数据
PubMED 数据集
资源
- worker:20个
ps:20个
Angel vs Spark: 迭代100次的训练时间
- Angel:15min
- Spark:>300min
Reference
- Lele Yu, Bin Cui, Ce Zhang, Yingxia Shao. LDA*: A Robust and Large-scale Topic Modeling System. VLDB, 2017
项目地址:https://github.com/Angel-ML/angel
官网:https://angelml.ai/