当前位置: 首页 > 文档资料 > Angel 中文文档 >

LDA*

优质
小牛编辑
131浏览
2023-12-01

LDA*(Latent Dirichlet Allocation)

LDA是一种常见的主题模型算法。简单来说它是一个贝叶斯概率生成模型,用于对文档集进行降维或者潜在语义分析。

1. 算法介绍

整体说明

给定一个语料库。 语料库中的词整体构成了一个词汇表中采样出 一个 中采样出该词的话题 中采样出单词, SparseLDA, AliasLDA, F+LDA, LightLDA和WarpLDA。 我们通过实验和分析, 认为F+LDA比较适合用于在Angel上进行LDA模型的训练。

Collapsed Gibbs Sampling

如果我们使用的后验概率分布。 CGS通过分布之间共轭的性质将。 从而F+LDA的复杂度为, 分配到了多少个词语(value)。word-topic是预测时必须的参数,如要进行预测,请保存word-topic。一般根据word-topic,可以估计出每个word在话题上的分布。如果发现一些word没有话题分配信息,是因为这个词语在整个文档集中没有出现。

  • topic.word.distribution: 每行是一个话题,格式为libsvm,第一个元素是topic id,后面的key:value表示每个话题在词语集合上的概率分布。我们这里也只给出了非零赋值的概率,剩余的词语概率相等,可以自行算出。
    • 性能

      • 测试数据
      • PubMED 数据集

      • 资源

      • worker:20个
      • ps:20个

      • Angel vs Spark: 迭代100次的训练时间

        • Angel:15min
      • Spark:>300min

    Reference

    1. Lele Yu, Bin Cui, Ce Zhang, Yingxia Shao. LDA*: A Robust and Large-scale Topic Modeling System. VLDB, 2017

    项目地址:https://github.com/Angel-ML/angel
    官网:https://angelml.ai/