当前位置: 首页 > 面试题库 >

我应该在模糊查询字段中包含空格吗?

凤财
2023-03-14
问题内容

我有此数据:

name:
  first: 'John'
  last: 'Smith'

当我将其存储在ES,AFAICT中时,最好使其成为一个字段。但是,此字段应为:

name: 'John Smith'

要么

name: 'JohnSmith'

我认为查询应该是:

query: 
  match: 
    name: 
      query: searchTerm
      fuzziness: 'AUTO'
      operator: 'and'

人们可能会在搜索框中输入搜索字词示例,例如

John
Jhon Smi
J Smith
Smith

等等


问题答案:

您可能需要结合使用ngram和模糊匹配查询。如果您需要入门,我写了一篇有关Qbox的ngram的博客文章:https ://qbox.io/blog/an-introduction-to-
ngrams-in-elasticsearch 。我将在帖子结尾处滑动入门代码,以说明我的意思。

另外,我认为您是使用两个字段name还是仅使用一个字段都没有多大关系。如果由于其他原因需要两个字段,则可能要在查询中使用该_all字段。为简单起见,我在这里只使用一个字段。

这是一个映射,可以让您获得想要的部分单词匹配,假设您只在乎单词开头的标记(否则使用ngrams而不是edge
ngrams
)。使用ngram有很多细微差别,因此如果您需要更多信息,我将参考您的文档和入门。

PUT /test_index
{
   "settings": {
      "number_of_shards": 1,
      "analysis": {
         "filter": {
            "edge_ngram_filter": {
               "type": "edge_ngram",
               "min_gram": 1,
               "max_gram": 10
            }
         },
         "analyzer": {
            "edge_ngram_analyzer": {
               "type": "custom",
               "tokenizer": "standard",
               "filter": [
                  "lowercase",
                  "edge_ngram_filter"
               ]
            }
         }
      }
   },
   "mappings": {
      "doc": {
         "properties": {
            "name": {
               "type": "string",
               "index_analyzer": "edge_ngram_analyzer",
               "search_analyzer": "standard"
            }
         }
      }
   }
}

这里要特别注意的一件事:"min_gram": 1。这意味着将从索引值生成单字符令牌。当您查询时,这将产生一个相当宽的网络(例如,许多单词以“
j”开头),因此您可能会得到一些意外的结果,尤其是在与模糊性结合时。但这是使您的“ J Smith”查询正常运行所必需的。因此,需要权衡取舍。

为了说明,我索引了四个文档:

PUT /test_index/doc/_bulk
{"index":{"_id":1}}
{"name":"John Hancock"}
{"index":{"_id":2}}
{"name":"John Smith"}
{"index":{"_id":3}}
{"name":"Bob Smith"}
{"index":{"_id":4}}
{"name":"Bob Jones"}

您的查询通常有效,但有几点警告。

POST /test_index/_search
{
    "query": {
        "match": {
           "name": {
               "query": "John",
               "fuzziness": "AUTO",
               "operator": "and"
           }
        }
    }
}

由于ngrams加上模糊性,此查询返回三个文档:

{
   "took": 3,
   "timed_out": false,
   "_shards": {
      "total": 1,
      "successful": 1,
      "failed": 0
   },
   "hits": {
      "total": 3,
      "max_score": 0.90169895,
      "hits": [
         {
            "_index": "test_index",
            "_type": "doc",
            "_id": "1",
            "_score": 0.90169895,
            "_source": {
               "name": "John Hancock"
            }
         },
         {
            "_index": "test_index",
            "_type": "doc",
            "_id": "2",
            "_score": 0.90169895,
            "_source": {
               "name": "John Smith"
            }
         },
         {
            "_index": "test_index",
            "_type": "doc",
            "_id": "4",
            "_score": 0.6235822,
            "_source": {
               "name": "Bob Jones"
            }
         }
      ]
   }
}

那可能不是您想要的。另外,"AUTO"不适用于“ Jhon Smi”查询,因为“ Jhon”与“ John”的编辑距离为2,而“
AUTO”对3-5个字符的字符串使用的编辑距离为1(请参阅文档有关更多信息)。因此,我必须改用以下查询:

POST /test_index/_search
{
    "query": {
        "match": {
           "name": {
               "query": "Jhon Smi",
               "fuzziness": 2,
               "operator": "and"
           }
        }
    }
}
...
{
   "took": 17,
   "timed_out": false,
   "_shards": {
      "total": 1,
      "successful": 1,
      "failed": 0
   },
   "hits": {
      "total": 1,
      "max_score": 1.4219328,
      "hits": [
         {
            "_index": "test_index",
            "_type": "doc",
            "_id": "2",
            "_score": 1.4219328,
            "_source": {
               "name": "John Smith"
            }
         }
      ]
   }
}

其他查询按预期方式工作。因此,该解决方案并不完美,但是它将使您接近。

这是我使用的所有代码:

http://sense.qbox.io/gist/ba5a6741090fd40c1bb20f5d36f3513b4b55ac77



 类似资料:
  • GraphQL是否有可能让客户端告诉服务器,只有当某个字段不是时,它才需要该字段? 考虑到这个问题 然后,反应应该是这样的 而不是 这是否可能在不违反GraphQL规范的情况下实现?

  • 问题内容: 我想找到一个SQL查询来查找其中field1不包含$ x的行。我怎样才能做到这一点? 问题答案: 这是什么领域?IN运算符不能与单个字段一起使用,而应与子查询或预定义列表一起使用: 如果要搜索字符串,请使用LIKE运算符(但这会很慢): 如果将其限制为要搜索的字符串必须以给定的字符串开头,则可以使用索引(如果该字段上有索引)并且速度相当快:

  • 问题内容: 我想在MySQL数据库表上运行查询,以返回列数据具有空格的所有行。例如: 用户 名安迪·戴维斯 彼得· 乔治夫史密斯 史蒂夫· 鲍勃·保罗 该查询将仅返回“安迪·戴维斯”,“杰夫·史密斯”,“鲍勃·保罗”,而忽略“彼得”和“史蒂夫” 有任何想法吗? 问题答案:

  • [ ] 查询包含马的学生 // 查询姓名包含马的学生 const { field = '' } = ctx.query const fields = field.split(';').filter(f => f) Student.findAll({ attributes: fields.length === 0 ? '' : fields, where: { name:

  • 问题内容: 有没有一种方法可以在sql查询的顶部包含一个空白行,例如,是否打算将其用于下拉列表?(MS Sql Server 2005或2008) 我想要什么 从通常只是上面的表,但没有第一行? 问题答案: 我觉得在SQL之外执行此操作会更好,但是如果您坚持要…

  • 问题: 我已经在lucene索引中索引了NGA Geonames地名录。我需要模糊查询一个字段(地名),但将查询限制为具有特定国家代码的记录。下面是我正在运行的一个示例查询 我没有使用SOLR,我已经做了大量的研究和尝试,但我没有明确的答案,可能是我的速度太慢了。 我想对印度进行模糊搜索,但我只想要与“in”(国家代码)完全匹配的记录