当前位置: 首页 > 面试题库 >

如何设置渗滤器以在聚合值达到某个阈值时返回?

吴凯泽
2023-03-14
问题内容

以以下聚合查询为例:

{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "groupBy": {
      "terms": {
        "field": "CustomerName"
      },
      "aggs": {
        "points_sum": {
          "stats": {
            "field": "TransactionAmount"
          }
        }
      }
    }
  },
  "size": 0
}

我有兴趣知道什么时候任何CustomerName的平均TransactionAmount(stats.avg)高于该客户所有购买的某个阈值,一旦我索引了将使我的平均值超过该阈值的文档,便会知道。似乎percolator设计用于或多或少地将文档与规则匹配,但是我找不到使用percolator匹配基于聚合结果的规则的任何好例子。

这可能吗?渗滤器是最好的解决方案吗?还有其他更好的解决方案吗?提前致谢


问题答案:

您可以为此使用Watcher商业产品并定义以下手表:

PUT _watcher/watch/transaction_alert
{
  "trigger": {
    "schedule": {
      "interval": "1m"
    }
  },
  "input": {
    "search": {
      "request": {
        "indices": "transactions",
        "types": "transaction",
        "body": {
          "query": {
            "match_all": {}
          },
          "size": 0,
          "aggs": {
            "groupBy": {
              "terms": {
                "field": "CustomerName"
              },
              "aggs": {
                "points_sum": {
                  "stats": {
                    "field": "TransactionAmount"
                  }
                }
              }
            }
          }
        }
      }
    }
  },
  "condition": {
    "script": {
      "inline": "return ctx.payload.aggregations.groupBy.buckets.findAll{ cust -> cust.points_sum.avg >= 200}"
    }
  },
  "actions": {
    "send_email": { 
      "email": {
        "to": "<username>@<domainname>", 
        "subject": "Customer Notification - Transaction > 200",
        "body": "The attached customers have a transaction average above $200"
        "attachments" : {
           "data.yml" : {
              "data" : {
                 "format" : "yaml" 
              }
           }
        }
      }
    }
  }
}

更新

总结一下:

  • 看守是一种商业产品
  • ElastAlert不支持(至今),需要一些努力才能使其运行

还有另一种使用Logstash来实现此目的的更简单,更便宜的方法。即使elasticsearch输入插件不支持聚合,也可以使用http_poller输入插件定期发送聚合查询到Elasticsearch。然后使用过滤器可以检查是否达到所需的阈值,最后使用email输出插件通过电子邮件提醒某人。

配置基本上是这样的(请注意,您需要对上面的聚合查询进行URL编码,并使用source=...参数将其发送给ES
)。另请注意,我已经修改了您的查询,以根据points_sum.avg(desc)对存储桶进行排序

input {
  http_poller {
    urls => {
      test1 => 'http://localhost:9200/your-index/_search?source=%7B%22query%22%3A%7B%22match_all%22%3A%7B%7D%7D%2C%22aggs%22%3A%7B%22groupBy%22%3A%7B%22terms%22%3A%7B%22field%22%3A%22CustomerName%22%2C%22order%22%3A%7B%22points_sum.avg%22%3A%22desc%22%7D%7D%2C%22aggs%22%3A%7B%22points_sum%22%3A%7B%22stats%22%3A%7B%22field%22%3A%22TransactionAmount%22%7D%7D%7D%7D%7D%2C%22size%22%3A0%7D'
   }
   # checking every 10 seconds
   interval => 10
   codec => "json"
  }
}
filter {
  split {
    field => "[aggregations][groupBy][buckets]" 
  }
}
output {
  if [aggregations][groupBy][buckets][points_sum][avg] > 200 {
    email {
      to => "<username>@<domainname>"
      subject => "Customer Notification - Transaction > 200",
      body => "The customer %{[aggregations][groupBy][buckets][key]} has a transaction average above $200"
    }
  }
}

同意,这是一个非常简单的实现,但是它应该可以运行,并且您可以基于它来使它变得更智能,借助Logstash和您的想象力,极限就是天空;-)

更新2

另一个node.js工具调用elasticwatch也可以用来做到这一点。



 类似资料:
  • 目前,我将进一步介绍java类,这是该类如何简要定义的: 内聚:以高内聚为目标,在这种情况下,内聚意味着单个模块紧紧关注其任务。 耦合:以低耦合为目标,在这种情况下,耦合意味着两个或多个模块相互交织的程度。 如何确定凝聚力和耦合度的水平? 例如,我的一些方法调用了同一类中的其他方法。这意味着调用其他方法的方法依赖于其他方法,以便“调用”方法完成其代码块。这是否意味着我对同一类的方法具有低内聚和高耦

  • 我有一个Rest API的测试计划,其中有一个线程组和两个采样器。同时运行负载测试 线程数(用户):80 加速期:1 我得到"响应代码: 504响应消息:GATEWAY_TIMEOUT"在jmeta. 我观察到,当聚合图中的最大值达到60000ms时,所有响应都超时。需要采取哪些措施来防止超时问题。当我使用50个或更少的用户时,负载测试工作正常。

  • 问题内容: 如何求和下一行的总和,直到达到阈值点,然后再次重置计数器。 例如,如果阈值是10,我试图获得以下输出: 但是我只能通过以下查询获得累计距离: 我正在使用PostgreSQL。 问题答案: 使用用户定义的聚合 实时测试:http://sqlfiddle.com/#!17/16716/2 用户定义的合计sum_with_reset定义: 数据 输出: 单线: Postgres布尔值可以使用

  • 问题内容: 我的总体覆盖范围已达到阈值,但仍将构建标记为不稳定。有人知道原因吗? 哈科科报告 问题答案: 好的,根据我发现的链接,覆盖范围应该在最小和最大覆盖范围之内。 请参阅链接 https://issues.jenkins- ci.org/browse/JENKINS-16903- 报告相同的意外行为。 https://groups.google.com/forum/#!topic/jenki

  • 假设我有以下JSON结构,我希望按性别分组,并希望在同一字段中返回多个文档值: 现在我知道我可以做这样的事情,但是我需要把年龄和名字合并到一个字段中。

  • 不知道如何表达这个问题。我正在使用Elasticsearch 2.2。 让我们从数据集的一个示例开始,该数据集由5个文档组成: 被调用的\u实体始终具有uuid。coverage\u实体可以为空,也可以具有uuid。 我使用脚本在任何一个被调用的\实体上进行聚合。uuid或coverage\u实体。uuid: 现在,聚合已经从任一头生成了术语。调用了\u实体。uuid或标头。coverage\u实