当前位置: 首页 > 面试题库 >

Elasticsearch 对于大数据量(上亿量级)的聚合如何实现?

西门高歌
2023-03-14
本文向大家介绍Elasticsearch 对于大数据量(上亿量级)的聚合如何实现?相关面试题,主要包含被问及Elasticsearch 对于大数据量(上亿量级)的聚合如何实现?时的应答技巧和注意事项,需要的朋友参考一下

Elasticsearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数,即该字段的 distinct 或者unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入作哈希运算,然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。

其特点是:可配置的精度,用来控制内存的使用(更精确 = 更多内存);

小的数据集精度是非常高的;我们可以通过配置参数,来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关。

 

 类似资料:
  • 我有一个返回一组文档(100)的查询。我想对这些应用一个聚合,因为这些是最相关的。当我尝试聚合时,它返回所有结果的聚合,而不是前100个结果的聚合。

  • ES如何在内部实现度量聚合? 假设索引中的文档具有以下结构: 对于以下对类别进行术语聚合并计算总和(度量)的查询,“度量”字段值 从文档中提取(即\u源)并求和或 查询:

  • 我的Android应用程序中有一个ArrayList,其中有两个项目。然而,它的size方法返回3。我知道这听起来很简单也很愚蠢,但事情是这样的: 为什么会发生这种情况?ArrayList的大小如何返回不正确的数字?当我迭代列表时,这会导致空指针异常。

  • 本文向大家介绍用mapreduce实现10亿级以上数据的kmeans相关面试题,主要包含被问及用mapreduce实现10亿级以上数据的kmeans时的应答技巧和注意事项,需要的朋友参考一下 参考回答: 算法1.map(key,value) 输入:全局变量centers,偏移量key,样本value 输出:<key’,value>对,其中key’是最近中心的索引,value’是样本信息的字符串 从

  • 问题内容: 我遇到了一个问题,elasticsearch仅通过在嵌套字段上使用术语聚合就无法返回唯一文档的数量。 这是我们的模型的一个例子: 我想在状态字段上进行汇总,但是由于“ ny”在文档中出现两次,因此该文档将在“ ny”存储桶中计数两次。 所以我想知道是否在哪里可以获取不同文档的数量。 映射: 查询非常简单: 响应: doc_count比命中总数大得多。因此,必须有重复项。 谢谢! 问题答

  • 我有3个级别的父/子结构。假设: 公司- 由于这里经常更新可用性(以及员工),所以我选择对嵌套使用父/子结构。搜索功能工作正常(所有文档都在正确的碎片中)。 现在我想对这些结果进行排序。按公司(第1级)的元数据对它们进行排序很容易。但我也需要按第3级(可用性)进行排序。 我想要按以下顺序排列的公司列表: 与给定ASC位置的距离 评级DESC 最快可用性ASC 例如: A公司距离我们5英里,评分为4