当前位置: 首页 > 知识库问答 >
问题:

在elasticsearch中为nGram标记器使用大max_gram的副作用是什么?

梁俊友
2023-03-14

我想了解在使用nGram标记器时为max_gram使用大设置的含义。我知道它会爆炸索引的大小,但是然后呢?它会使搜索变慢吗?它会导致错误吗?等等

共有1个答案

梁和颂
2023-03-14

它肯定会使搜索变慢,因为将生成大量令牌进行比较。

一般来说,你应该分析你的业务,找出适合你的领域的ngram的大小。例如:对于产品ID,您可以支持搜索ngram,最多20个字符(max_gram=20),因为通常人们只记住产品ID的5或6个字符,20就足够了。

 类似资料:
  • 问题内容: 我只是好奇为什么不赞成使用HTML中的标记。 通过将容器封装在标签中,这是一种快速居中对齐文本和图像块的简单方法,我现在真的找不到任何更简单的方法。 任何人都知道关于如何使“东西”居中(而不是和宽度的东西)的任何简单方法吗?而且,为什么不推荐使用它? 问题答案: 该元素已弃用,因为它定义了其内容的 表示形式 —它未描述其内容。 居中的一种方法是将元素的和属性设置为,然后将父元素的属性设

  • 本文向大家介绍ElasticSearch中的副本是什么?相关面试题,主要包含被问及ElasticSearch中的副本是什么?时的应答技巧和注意事项,需要的朋友参考一下 一个索引被分解成碎片以便于分发和扩展。副本是分片的副本。一个节点是一个属于一个集群的ElasticSearch的运行实例。一个集群由一个或多个共享相同集群名称的节点组成。

  • 问题内容: 在日志记录框架中,有一个名为的特殊实例,但是我找不到有关其预期用途的任何文档。的文档只是说 返回名称为的全局记录器对象。 ,而仅记录为 是全局记录器的名称。 我相当广泛的搜索并没有找到更多有用的文档。 全局记录器打算用于什么?那是我错过的地方吗? 问题答案: 为方便随意使用Logging包的开发人员提供了“全局” Logger对象。认真使用日志记录包(例如在产品中)的开发人员应创建并使

  • 我在R中得到的POS标记文本形式如下: 身份证 ..... 我想检索它已标记的单词,例如,而不是带有所有值的列“type”,因为单词检索实际单词。我可以使用scan_tokenizer,但当有“不是”之类的形式时,问题就出现了,POS标记器将其分为“is”和“not”,这很好,但scan_tokenizer不会这样标记,它只是将其保持在“is't”。有人能帮我检索R已标记并用于POS标记的单词吗?

  • 我试图使用Java8Javadoc工具,但它抱怨是一个未知标记: 我看到有一些方法可以禁用doclint,但我真的想知道哪些标签列表被支持(或者为什么这个不支持)。 更多信息在这个问题,这个问题和从这个博文。

  • 我通过修改WordPress导出工具的php代码,成功地将一个WordPress博客的元描述导入到我的新HubSpot COS中,但是有了这个解决方案,HubSpot会自动添加段落标签(