如何编写Elasticsearch术语聚合,将存储桶按整个术语而不是单个标记拆分?例如,我想按州进行聚合,但以下返回的是纽约、纽约、泽西和加利福尼亚作为单个桶,而不是纽约、新泽西和加利福尼亚作为预期的桶:
curl -XPOST "http://localhost:9200/my_index/_search" -d'
{
"aggs" : {
"states" : {
"terms" : {
"field" : "states",
"size": 10
}
}
}
}'
我的用例就像这里描述的那样https://www.elastic.co/guide/en/elasticsearch/guide/current/aggregations-and-analysis.html只有一个区别:城市字段在我的例子中是一个数组。
示例对象:
{
"states": ["New York", "New Jersey", "California"]
}
似乎提出的解决方案(将字段映射为not_analyzed)不适用于数组。
我的映射:
{
"properties": {
"states": {
"type":"object",
"fields": {
"raw": {
"type":"object",
"index":"not_analyzed"
}
}
}
}
}
我试图用“string”替换“object”,但这也不起作用。
我认为您所缺少的只是聚合中的states.raw(请注意,由于没有指定分析器,因此使用标准分析器分析“states”(状态)字段;子字段“raw”(原始)是“not\u analysis”(未分析)。虽然您的映射可能也值得一看。当我尝试针对ES 2.0进行映射时,我遇到了一些错误,但这起到了作用:
PUT /test_index
{
"mappings": {
"doc": {
"properties": {
"states": {
"type": "string",
"fields": {
"raw": {
"type": "string",
"index": "not_analyzed"
}
}
}
}
}
}
}
然后我添加了几个文档:
POST /test_index/doc/_bulk
{"index":{"_id":1}}
{"states":["New York","New Jersey","California"]}
{"index":{"_id":2}}
{"states":["New York","North Carolina","North Dakota"]}
这个查询似乎可以满足您的要求:
POST /test_index/_search
{
"size": 0,
"aggs" : {
"states" : {
"terms" : {
"field" : "states.raw",
"size": 10
}
}
}
}
返回:
{
"took": 1,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"failed": 0
},
"hits": {
"total": 2,
"max_score": 0,
"hits": []
},
"aggregations": {
"states": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "New York",
"doc_count": 2
},
{
"key": "California",
"doc_count": 1
},
{
"key": "New Jersey",
"doc_count": 1
},
{
"key": "North Carolina",
"doc_count": 1
},
{
"key": "North Dakota",
"doc_count": 1
}
]
}
}
}
下面是我用来测试它的代码:
http://sense.qbox.io/gist/31851c3cfee8c1896eb4b53bc1ddd39ae87b173e
问题内容: 如何编写一个将整个字段值而不是单个标记考虑在内的ElasticSearch术语聚合查询?比如,我想通过城市名聚集,但下面的回报,,并作为单独的水桶,不和的水桶预期。 问题答案: 您应该在映射中解决此问题。添加一个not_analyzed字段。如果您还需要分析的版本,则可以创建多字段。 现在在city.raw上创建聚合
问题内容: 我正在尝试使用以下查询对以下数据进行elasticsearch来执行术语聚合,输出将名称分解为标记(请参见下面的输出)。因此,我尝试将os_name映射为multi_field,但现在无法通过它查询。是否可以有没有令牌的索引?例如“ Fedora Core”? 查询: 数据: 输出: 映射: 问题答案: 实际上,您应该像这样更改映射 并且您的aggs应该更改为:
问题内容: 我有以下两个文件: 和: 我想基于两个字段执行聚合:casting.name和casting.category。 我尝试使用基于Cast.name字段的termsaggregation和子聚合,这是另一个基于casting.category字段的termsaggregation。 问题在于,对于“ Chris Evans”条目,ElasticSearch为所有类别(演员,生产者)设置了
我们目前正在开发一个多语言文档CMS。因此,我们有翻译成不同语言的文件。 对于使用Elasticsearch进行搜索,我们目前使用每种语言(德语、英语、法语……)一个索引,其中同一文档的所有翻译共享相同的ID。 当用户搜索特定术语时,我们希望在所有语言中搜索,但只返回不同ID的列表。据我所知,只有使用以下术语聚合才能做到这一点: 这很好,但是作为弹性搜索文档https://www.elastic.
我正在对文档中的“位置”字段进行聚合,在同一文档中还有一个“城市”字段。我正在查询“城市”字段上的文档,并聚合“位置”字段上的文档。 现在计数和聚合都很好,随着hits.but我的问题是,我想在“doc-count”设置为0的情况下进行聚合,聚合桶会返回所有计数为0的lcoations,这些lcoations甚至落在其他城市。我只想获得0个计数位置,只是为了city.want将0个计数位置的上下文
问题内容: 我将此数据插入了Elasticsearch: 旁注:重现: 1)下载:http://wmo.co/20160928_es_query/bulk.json 2)执行:卷曲-s -XPOST ‘ 的http://本地主机:9200 /测试/外部/ _bulk漂亮 ‘ -数据二进制@ bulk.json 问题: 获取每个“位置”有多少记录的计数。 解决方案1:存储桶聚合..没有得到期望的结果