在Elasticsearch中,还有什么更好的方法(除了发出完全匹配查询并手动对所有返回文档的长度进行平均)以获取特定索引的平均文档长度?
该_size映射场,如果允许,应该给你的每个文件的大小是免费的。将其与avg
聚合结合起来可以得到所需的内容。就像是:
{
"query" : {"match_all" : {}},
"aggs" : {"avg_size" : {"avg" : {"terms" : {"field" : "_size"}}}}
}
问题内容: 我无法获得熊猫列的平均值或均值。有一个数据框。我在下面尝试的任何事情都没有给我该列的平均值 以下返回几个值,而不是一个: 这样: 问题答案: 如果您只想要列的均值,请选择列(这是一个系列),然后调用:
我正在使用带有java api的elasticsearch,我正在尝试从每个词聚合桶中获取最低记录的平均值。我发现的一个解决方案是获得这样的结果 然后在代码端计算平均值。问题是,如果有很多结果,它将分配大量内存来计数。我想在弹性方面这样做。我发现,有一种类似于avg bucket pipeline聚合的东西,可以作为兄弟聚合添加到术语(和其他术语)中 问题是在java api中,您只能将管道聚合添
问题内容: 我如何知道特定文档类型(例如,类型1和类型2)的大小(以字节为单位)? 如果我尝试: 我只得到索引的总大小(以字节为单位)。 我实际上对某种类型的文档的平均大小感兴趣,但是可以从计数和我猜得出的总大小中得出 问题答案: 使用相同的索引对不同类型的索引进行索引,并共享许多通用结构。因此,在不考虑另一种类型的影响的情况下,真的不可能分辨出一种类型正在消耗多少。
问题内容: 所以我有一个弹性的搜索索引,并且要向它发送带有时间戳的文档。我想知道是否有一种方法可以根据时间戳提取最后一个文档。即说要弹性给我最后一次的文档。 谢谢。 问题答案: 是的,您只需索取一个文档()并通过减少时间戳进行排序
问题内容: 我有一个单词列表文本文件,我想从该文件中获取最小,最大和平均单词长度。 我有一个流方法: 在我的主要测试方法中,我正在打印最大和最小 它按预期工作。 问题: 是否有可能像我在min和max中那样获得单词长度的平均值?在这两种情况下,是或否,怎么做(仅作为Lambda表达式)? 问题答案: 该方法将为您提供一行流,而不是单词。有了之后,调用用单词替换行,并提供lambda表达式来拆分单词
问题内容: 我有一个java.util.Date对象数组。我试图找到平均值。 例如,如果我有2个日期对象,分别是7:40 AM和7:50 AM。我应该获得7:45 AM的平均日期对象。 我正在考虑的方法效率低下: 用于遍历所有日期 找出0000与时间之间的时差 将时间差加到总计 除以总数 将该时间转换为日期对象 有更简单的功能可以做到这一点吗? 问题答案: 好的,从根本上讲,您可以将所有对象的“自