问题：

在弹性搜索中使用内置或自定义分析器搜索数字和文本

姚晋

2023-03-14

这个问题是我以前这个问题的延续。我有一些文本，我想对数字和文本执行搜索。

 "tokens": [
    {
      "token": "foobar",
      "start_offset": 10,
      "end_offset": 16,
      "type": "word",
      "position": 2
    },
    {
      "token": "getfoolabelfrombar",
      "start_offset": 17,
      "end_offset": 35,
      "type": "word",
      "position": 3
    },
    {
      "token": "test",
      "start_offset": 36,
      "end_offset": 40,
      "type": "word",
      "position": 4
    },
    {
      "token": "java",
      "start_offset": 41,
      "end_offset": 45,
      "type": "word",
      "position": 5
    }
  ]
}

{
  "tokens": [
    {
      "token": "8080",
      "start_offset": 0,
      "end_offset": 4,
      "type": "<NUM>",
      "position": 1
    },
    {
      "token": "foobar.getfoolabelfrombar",
      "start_offset": 5,
      "end_offset": 35,
      "type": "<ALPHANUM>",
      "position": 2
    },
    {
      "token": "test.java",
      "start_offset": 36,
      "end_offset": 45,
      "type": "<ALPHANUM>",
      "position": 3
    },
    {
      "token": "91",
      "start_offset": 46,
      "end_offset": 48,
      "type": "<NUM>",
      "position": 4
    }
  ]
}

我去了ES中所有现有的分析器，但似乎没有什么能满足我的要求。我试图创建我的下面自定义分析器，但它不工作，以及。

{
    "analysis" : {
            "analyzer" : {
                "my_analyzer" : {
                    "tokenizer" : "letter"
                    "filter" : ["lowercase", "extract_numbers"]
                }
            },
            "filter" : {
                "extract_numbers" : {
                    "type" : "keep_types",
                    "types" : [ "<NUM>","<ALPHANUM>","word"]
                }
            }
        }
}

请建议，我如何才能建立我的自定义分析器，以满足我的要求。

共有1个答案

程钧

2023-03-14

使用字符过滤器将点替换为空格怎么样？

PUT /my_index
{                                                                                     
  "settings": {                                                                                                                                    
    "analysis": {
      "analyzer": {                                                                                                                                
        "my_analyzer": {                                                                                                                           
          "tokenizer": "standard",
          "char_filter": ["replace_dots"]
        }
      },
      "char_filter": {
        "replace_dots": {
          "type": "mapping",
          "mappings": [
            ". => \\u0020"
          ]
        }
      }
    }
  }
}

POST /my_index/_analyze
{                                                                           
  "analyzer": "my_analyzer",                                            
  "text": "8080.foobar.getFooLabelFrombar(test.java:91)"
}

输出所需内容：

{                                                                               
  "tokens" : [
    {
      "token" : "8080",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "<NUM>",
      "position" : 0
    },
    {
      "token" : "foobar",
      "start_offset" : 10,
      "end_offset" : 16,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "getFooLabelFrombar",
      "start_offset" : 17,
      "end_offset" : 35,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "test",
      "start_offset" : 36,
      "end_offset" : 40,
      "type" : "<ALPHANUM>",
      "position" : 4
    },
    {
      "token" : "java",
      "start_offset" : 41,
      "end_offset" : 45,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "91",
      "start_offset" : 46,
      "end_offset" : 48,
      "type" : "<NUM>",
      "position" : 6
    }
  ]
}

类似资料：

弹性搜索-用连字符搜索

由于已经有很多关于连字符的问题，我已经尝试了以下解决方案：使用字符筛选器：ElasticSearch-在名称中使用连字符进行搜索。所以我做了这个映射：所以char筛选器似乎没有在搜索字符串上执行？我该怎么做才能让它起作用？
弹性搜索分析百分比

我正在使用Elasticsearch 1.7.3为分析报告积累数据。我有一个保存文档的索引，其中每个文档都有一个名为“duration”(请求花费了多少毫秒)的数字字段和一个名为“component”的字符串字段。可能有许多文档具有相同的组件名称。例如。我想生成一份报告，说明每个组件：此组件的所有“持续时间”字段的总和。此总数占所有文档总持续时间的百分比。在我的例子中每个组件的文档占总
弹性搜索多项搜索

我使用Elasticsearch允许用户输入要搜索的术语。例如，我要搜索以下属性'name': 如果使用以下代码搜索或，我希望返回此文档。我尝试过做一个bool must和做多个术语，但它似乎只有在整个字符串都匹配的情况下才起作用。所以我真正想做的是，这个词是否以任何顺序包含两个词。有人能帮我走上正轨吗？我已经在这上面砸了一段时间了。
Spring弹性搜索自定义域名称

我是弹性搜索的新手，我正在尝试使用Spring-Data-ElasticSearch实现它。我在我们的弹性搜索文档中有带有“运输”、“电话号码”等名称的字段。当我试图将@Domain对象字段映射到这些字段时，我没有得到这些字段的任何数据，因为我无法成功地映射这些字段。我开始怀疑我是不是缺了什么东西。一个域对象字段看起来是什么样子的，它应该映射到一个叫做“运输”的字段？有什么需要帮忙的吗
弹性搜索ignore_above设置使用

如果弹性文档中提到长度超过上面的ignore_设置的字符串将不会被索引或存储，请任何人帮助解释关于上述ignore的疑问。对于字符串数组，上面的ignore_将分别应用于每个数组元素，长度大于上面的ignore_的字符串元素将不会被索引或存储。这是否意味着，如果我添加的数据长于长度，那么它将不允许在ES中发布数据 https://www.elastic.co/guide/en/elasticse
弹性搜索中的多索引搜索与单索引搜索

我有大量相同类型的实体，每个实体都有大量属性，并且我只有以下两种选择来存储它们: 将每个项存储在索引中并执行多索引搜索将所有enties存储在单个索引中，并且只搜索1个索引。一般而言，我想要一个时间复杂度之间的比较搜索“N”实体与“M”特征在上述每一种情况！

在弹性搜索中使用内置或自定义分析器搜索数字和文本

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档