当前位置：首页 > 面试题库 >

Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？

西门高歌

2023-03-14

本文向大家介绍Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？相关面试题，主要包含被问及Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？时的应答技巧和注意事项，需要的朋友参考一下

Elasticsearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数，即该字段的 distinct 或者unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入作哈希运算，然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。

其特点是：可配置的精度，用来控制内存的使用（更精确＝更多内存）；

小的数据集精度是非常高的；我们可以通过配置参数，来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值，内存使用量只与你配置的精确度相关。

类似资料：

Elasticsearch-过滤数据上的聚合

我有一个返回一组文档（100）的查询。我想对这些应用一个聚合，因为这些是最相关的。当我尝试聚合时，它返回所有结果的聚合，而不是前100个结果的聚合。
ElasticSearch：度量聚合和文档值/字段数据

ES如何在内部实现度量聚合？假设索引中的文档具有以下结构：对于以下对类别进行术语聚合并计算总和（度量）的查询，“度量”字段值从文档中提取（即\u源）并求和或查询：
ArrayList#size（）大于对象的实际数量

我的Android应用程序中有一个ArrayList，其中有两个项目。然而，它的size方法返回3。我知道这听起来很简单也很愚蠢，但事情是这样的：为什么会发生这种情况？ArrayList的大小如何返回不正确的数字？当我迭代列表时，这会导致空指针异常。
用mapreduce实现10亿级以上数据的kmeans

本文向大家介绍用mapreduce实现10亿级以上数据的kmeans相关面试题，主要包含被问及用mapreduce实现10亿级以上数据的kmeans时的应答技巧和注意事项，需要的朋友参考一下参考回答：算法1.map(key,value) 输入：全局变量centers，偏移量key，样本value 输出：<key’,value>对，其中key’是最近中心的索引，value’是样本信息的字符串从
如何通过使用Elasticsearch聚合返回唯一文档的数量

问题内容：我遇到了一个问题，elasticsearch仅通过在嵌套字段上使用术语聚合就无法返回唯一文档的数量。这是我们的模型的一个例子：我想在状态字段上进行汇总，但是由于“ ny”在文档中出现两次，因此该文档将在“ ny”存储桶中计数两次。所以我想知道是否在哪里可以获取不同文档的数量。映射：查询非常简单：响应： doc_count比命中总数大得多。因此，必须有重复项。谢谢！问题答
ElasticSearch多级父子聚合

我有3个级别的父/子结构。假设：公司- 由于这里经常更新可用性（以及员工），所以我选择对嵌套使用父/子结构。搜索功能工作正常（所有文档都在正确的碎片中）。现在我想对这些结果进行排序。按公司（第1级）的元数据对它们进行排序很容易。但我也需要按第3级（可用性）进行排序。我想要按以下顺序排列的公司列表：与给定ASC位置的距离评级DESC 最快可用性ASC 例如： A公司距离我们5英里，评分为4

Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？

相关阅读

相关文章

相关问答

相关工具

相关文档