我试图理解为什么潜在Dirichlet分配(LDA)在Twitter这样的短文本环境中表现不佳。我读过“短文本的双项主题模型”这篇论文,但是,我仍然不理解“单词共现的稀疏性”。
在我看来,LDA的生成部分对于任何类型的文本都是合理的,但是在短文本中导致不良结果的是抽样过程。我猜LDA基于两个部分为一个单词抽取一个主题:(1)同一文档中其他单词的主题(2)该单词其他出现的主题分配。由于短文的(1)部分不能反映它的真实分布,这导致每个单词的主题分配不好。
如果您发现了这个问题,请随时发布您的想法,并帮助我理解这一点。
Hong和Davison(2010)做了一点挖掘,发现了一个很好的例子,说明了这些在推特分类方面做得不好。不幸的是,他们并没有真正深入了解它为什么不起作用。
我怀疑LDA不能很好地用于短文档有两个原因。
首先,当处理较小的文档时,额外的主题层不会向分类中添加任何内容,而且没有帮助的内容可能会带来伤害。如果你有很短的文档,比如推特,那么很难将文档分解成主题。毕竟,除了推文中的一个主题之外,没有太多的空间。由于主题层对分类的贡献不大,因此它为系统中出现错误留出了空间。
其次,从语言上讲,推特用户在推特时更喜欢去掉“不必要的绒毛”。在处理完整文档时,可能会有一些特征——词语、词语搭配等——这些特征可能是特定的、常见的,并且在一种类型中经常重复。然而,在推特上,这些常见的元素首先会被删除,因为有趣的、新的、更令人困惑的是,当绒毛被去除后,剩下的是什么。
例如,让我们看看我自己的推特,因为我相信无耻的自我推销:
Progressbar.py is a fun little package, though I don't get
a chance to use it too often. it even does ETAs for you
https://pypi.python.org/pypi/progressbar …
From a capitalist perspective, the social sciences exist so
idiot engineers don't waste money on building **** no one needs.
Abstract enough to be reusable, specific enough to be useful.
第一个是关于Python的。如果您正在解析URL,您将得到它——以及。我也会给你的。然而,在一个更具表现力的媒介中,我可能会把“Python”这个词放在某个地方。第二个也是与编程相关的,但更多的是在业务端。不过,它甚至一次也没有提到任何特定于编程的东西。最后一个也是与编程相关的,但更多地与编程艺术联系在一起,表达了程序员在编码时面临的一种双重绑定。就功能而言,这和第二个一样困难。
在最后两个例子中,如果我没有写微博帖子,这些例子会立即被跟进,这些例子对分类器非常有用,或者它们本身包含了更多的数据。然而,推特没有空间容纳这种东西,推特所属类型的典型内容被删除了。
最后,我们有两个问题。长度对于LDA来说是一个问题,因为主题增加了额外的、不必要的自由度,推文对于任何分类器来说都是一个问题,因为在分类中通常有用的特征会被作者选择性地删除。
LDA等概率模型利用统计推断来发现数据的潜在模式。简言之,他们根据观测结果推断模型参数。例如,有一个黑盒子,里面有许多不同颜色的球。你从盒子里画出一些球,然后推断出球的颜色分布。这是一个典型的统计推断过程。统计推断的准确性取决于观察的数量。
现在考虑LDA在短文本上的问题。LDA将文档建模为主题的混合体,然后每个单词都从其中一个主题中提取出来。你可以想象一个黑匣子包含了由这样一个模型生成的大量单词。现在您已经看到了一个简短的文档,其中只有几个字。观察结果明显太少,无法推断参数。这就是我们提到的数据稀疏性问题。
事实上,除了缺乏观测之外,问题还来自模型的过于复杂。通常,更灵活的模型需要更多的观察来推断。Biterm主题模型试图通过降低模型复杂度来简化主题推理。首先,它将整个语料库建模为主题的混合物。因为在语料库中推断主题混合比在短文档中推断主题混合更容易。其次,它假设每个宾语都来自一个主题。在LDA中,推断biterm的主题也比推断单个单词的主题容易,因为添加了更多的上下文。
我希望这个解释对你有意义。谢谢你提到我们的论文。
问题内容: 偏见的定义是什么: 当max超过2 ^ 32时,mt_rand()返回值的分布在PHP的64位版本上偏向偶数。 如果这是替代四舍五入规则中的那种偏见,我认为这并不重要(因为这种偏见并不明显)。 除了被宣称是比快四倍,只是在前面增加3个字符! 假设可用,那么使用它的缺点是什么? 问题答案: 使用梅森倍捻机算法,这远远优于LCG通常使用的。例如,LCG 的周期仅为 2 32,而mt_ran
问题内容: 只是想知道TreeSet的优缺点是什么,是否有人可以告诉我?谢谢! 问题答案: 收藏类之一。它使您可以按键或按键顺序访问集合中的元素。它比ArrayList或HashMap具有更多的开销。当您不需要顺序访问时,只需按键查找即可使用HashSet。使用ArrayList并使用Arrays。如果只想按顺序排列元素,则排序。TreeSet始终保持元素顺序。使用ArrayList,您可以在需要
问题内容: 我正在寻找提高某些SQL性能的方法,当前CTE正在脚本中多次使用和引用。我会使用表变量来获得改进吗?(因为代码在函数内,所以不能使用临时表)。 问题答案: 您实际上必须进行性能测试-没有“是/否”答案。根据安迪·利文(Andy Living)上面链接到的文章,CTE只是查询或子查询的简写。 如果您在同一函数中两次或多次调用它,则填充表变量然后加入该表变量或从中选择表变量可能会获得更好的
问题内容: 该文档声称: 和 除了速度略有降低之外,在所有属性中使用doc值还有哪些弊端? 谢谢! 问题答案: 趋势是尽可能使用它,因为它们的性能比现场数据越来越高(尤其是自ES 1.4开始)。目前的缺点之一是您不能将它们与已分析的字符串字段和布尔字段一起使用。另一个缺点是,如果您仍在使用方面,请分别说。Kibana 3,因为两者都没有利用doc值,但是您可以分别迁移到聚合。升级到Kibana 4
本文向大家介绍iframe是什么?有什么缺点?相关面试题,主要包含被问及iframe是什么?有什么缺点?时的应答技巧和注意事项,需要的朋友参考一下 参考回答: 定义:iframe元素会创建包含另一个文档的内联框架 提示:可以将提示文字放在之间,来提示某些不支持iframe的浏览器 缺点: 会阻塞主页面的onload事件 搜索引擎无法解读这种页面,不利于SEO iframe和主页面共享连接池,而浏览
本文向大家介绍你觉得你的优点是什么,缺点又是什么呢相关面试题,主要包含被问及你觉得你的优点是什么,缺点又是什么呢时的应答技巧和注意事项,需要的朋友参考一下 优点:对任何事物能够保持好奇心、很强的执行力、追求上进。 缺点:有些事情考虑太多,总想找出最好的办法,所以有的时候会耽误进度。所以要学会抓住主要矛盾,学会取舍。