当前位置: 首页 > 面试题库 >

Elasticsearch-计算重复值和唯一值

单于庆
2023-03-14
问题内容

我有以下json

[
 {"firstname": "john", "lastname": "doe"},
 {"firstname": "john", "lastname": "smith"},
 {"firstname": "jane", "lastname": "smith"},
 {"firstname": "jane", "lastname": "doe"},
 {"firstname": "joe", "lastname": "smith"},
 {"firstname": "joe", "lastname": "doe"},
 {"firstname": "steve", "lastname": "smith"},
 {"firstname": "jack", "lastname": "doe"}
]

我想计算重复的名字

重复计数3

不可重复的名字计数

非重复计数2

我试图计算存储桶的数量,但似乎计算所有存储桶是重复的还是非重复的

GET mynames/_search
{
"aggs" : {
    "name_count" : {
        "terms" : {
            "field" : "firstname.keyword",
            "min_doc_count": 2
        }
    },
"count":{
  "cardinality": {
    "field": "firstname.keyword"
  }
}
}

问题答案:

好吧,我在这里利用了几种聚合。以下是我使用过的列表。列表的顺序是聚合的执行顺序。

对于重复

  • 术语汇总
  • 统计数据桶汇总

对于非重复

  • 术语汇总
    • 桶选择器 (作为子集合)
  • 总和桶选择器

汇总查询:

POST <your_index_name>/_search
{  
   "size":0,
   "aggs":{  
      "duplicate_aggs":{  
         "terms":{  
            "field":"firstname.keyword",
            "min_doc_count":2
         }
      },
      "duplicate_bucketcount":{  
         "stats_bucket":{  
            "buckets_path":"duplicate_aggs._count"
         }
      },
      "nonduplicate_aggs":{  
         "terms":{  
            "field":"firstname.keyword"
         },
         "aggs":{  
            "equal_one":{  
               "bucket_selector":{  
                  "buckets_path":{  
                     "count":"_count"
                  },
                  "script":"params.count == 1"
               }
            }
         }
      },
      "nonduplicate_bucketcount":{  
         "sum_bucket":{  
            "buckets_path":"nonduplicate_aggs._count"
         }
      }
   }
}

响应

{
  "took": 10,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 8,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "duplicate_aggs": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "jane",
          "doc_count": 2
        },
        {
          "key": "joe",
          "doc_count": 2
        },
        {
          "key": "john",
          "doc_count": 2
        }
      ]
    },
    "nonduplicate_aggs": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "jack",
          "doc_count": 1
        },
        {
          "key": "steve",
          "doc_count": 1
        }
      ]
    },
    "duplicate_bucketcount": {
      "count": 3,
      "min": 2,
      "max": 2,
      "avg": 2,
      "sum": 6
    },
    "nonduplicate_bucketcount": {
      "value": 2
    }
  }
}

注意,在上面的响应中,我们有一个duplicate_bucketcount.count键,其值3是将显示存储桶计数的值,该值是重复的键的数量。

让我知道是否有帮助!



 类似资料:
  • 问题内容: 如果我有三列: 我想计算一下表格中有多少唯一的电子邮件,我该怎么做? 如下语句: 给我总数。 我试过了 但这似乎并没有给我期望的数字。 问题答案: 采用 提供唯一的电子邮件ID,然后简单地对其进行计数。

  • 问题内容: 我需要在每笔 数据中都计算唯一值 我尝试 但是我想得到 问题答案: 您需要: 如果需要字符: 或正如乔恩所说: 您可以像这样保留列名: 区别在于返回一个Series并返回一个DataFrame。

  • 问题内容: 我有以下形式的数据: 组内的非空值始终相同。我想对每个组(如果存在)的非空值进行一次计数,然后找到每个值的总数。 我目前正在以以下方式(笨拙和低效)进行此操作: 我敢肯定,有一种方法可以更干净地执行此操作,而无需使用循环,但是我似乎无法解决问题。任何帮助将非常感激。 问题答案: 我认为您可以使用: 的另一种解决方案,然后创建new by ,将其重塑为by和last :

  • 问题内容: 更新 :已添加 我想对我的ElasticSearch集群执行唯一计数。该集群包含约5000万条记录。 我尝试了以下方法: 第一种方法 在本节中提到: 预计算哈希通常仅在非常大和/或高基数的字段上有用,因为它可以节省CPU和内存。 第二种方法 在本节中提到: 除非您将Elasticsearch配置为使用doc_values作为字段数据格式,否则使用聚合和构面对堆空间的要求 非常 高。 我

  • 问题内容: 我将如何从记录中获取所有值,并使它们唯一。 记录 询问 任何帮助都会很棒。 问题答案: 您可以使用术语聚合。 搜索将返回如下内容: 聚合中的参数指定要包含在聚合结果中的最大术语数。如果需要所有结果,请将其设置为大于数据中唯一术语数的值。

  • 如何从记录中获取所有的值并使它们唯一。 记录 查询 任何帮助都会很好。